반응형
개요
이 글은 AI 모델 학습용 데이터셋이나 데이터베이스 마이그레이션용 데이터처럼 용량이 큰 CSV 파일을, 리눅스 명령어로 여러 csv 파일로 분할하는 방법을 설명합니다.
사용방법
GNU Core Utilities (Coreutils)의 split명령어는 입력 파일을 여러 조각으로 나눕니다.
예를 들어 약 1800만개 줄이 있는 csv파일이 있다고 가정해봅시다.

split명령어로 이 큰 파일을 700000줄씩 쪼개서 파일을 생성할 수 있습니다.
split -l 700000 lineitem.tbl lineitem_


파일 확장자 생성하는 방법
split이 생성한 파일은 파일 확장자가 없는데, 간단히 for문과 mv명령어로 파일 확장자를 추가할 수 있습니다.
split -l 5000000 lineitem.tbl lineitem_ \
&& for file in lineitem_*; do mv "$file" "${file}.csv"; done

반응형
'전공영역 공부 기록' 카테고리의 다른 글
| RDS S3 Import/export (0) | 2025.11.09 |
|---|---|
| 데이터베이스 성능 벤치마크할때 사용하기 좋은 TPC-H (0) | 2025.11.08 |
| 테라폼으로 내 PC IP를 security group에 설정하는 방법 (0) | 2025.11.08 |
| AWS Auto Scaling Group 배포 전략 (0) | 2025.10.12 |
| Argo CD v3.2 업데이트 내용: Application path에서 "." 또는 ""(공백)을 더 이상 사용할 수 없습니다. (0) | 2025.10.09 |