# 학습 데이터 (FRANKENSTALLM) 이 디렉터리는 사전학습·SFT·ORPO 학습에 사용한 데이터 구축 스크립트와 로그를 담습니다. **원시/토큰화된 대용량 파일(.bin, 수 TB)은 저장 용량 제한으로 Hugging Face에는 올리지 않습니다.** ## 포함된 파일 | 파일 | 설명 | |------|------| | `build_dataset.sh` | 데이터셋 빌드 진입 스크립트 | | `build_korean_dataset.sh` | 한국어 LLM용 전체 파이프라인 (CC-100, mC4, Namuwiki → 토크나이징 → .bin 병합) | | `build_korean_dataset.log` | 파이프라인 실행 로그 (참고용) | | `__init__.py` | 패키지 초기화 | ## 데이터 구성 (로컬/실험 환경 기준) - **사전학습**: CC-100 Korean, mC4 Korean, Namuwiki, Cosmo 등 혼합 → `*.bin` - **SFT/ORPO**: 선호 데이터 등 → 별도 스크립트/설정으로 생성 - **규모**: 약 1.2TB 수준 (원시 + 토큰화 .bin). 재현 시 동일 스크립트로 자체 구축 필요. ## 재현 방법 1. `build_korean_dataset.sh` 실행 (필요 시 내부 변수 조정). 2. Hugging Face/외부에서 필요한 데이터셋 다운로드 후 `data/raw/` 등에 배치. 3. `tokenizer/` 및 `train/` 설정에 맞춰 토크나이징·병합 후 학습 스크립트 실행. 자세한 프로젝트 구조와 학습 설정은 저장소 루트의 `source/README.md` 및 `configs/` 를 참고하세요.