# 학습 데이터 (FRANKENSTALLM)

이 디렉터리는 사전학습·SFT·ORPO 학습에 사용한 데이터 구축 스크립트와 로그를 담습니다.  
**원시/토큰화된 대용량 파일(.bin, 수 TB)은 저장 용량 제한으로 Hugging Face에는 올리지 않습니다.**

## 포함된 파일

| 파일 | 설명 |
|------|------|
| `build_dataset.sh` | 데이터셋 빌드 진입 스크립트 |
| `build_korean_dataset.sh` | 한국어 LLM용 전체 파이프라인 (CC-100, mC4, Namuwiki → 토크나이징 → .bin 병합) |
| `build_korean_dataset.log` | 파이프라인 실행 로그 (참고용) |
| `__init__.py` | 패키지 초기화 |

## 데이터 구성 (로컬/실험 환경 기준)

- **사전학습**: CC-100 Korean, mC4 Korean, Namuwiki, Cosmo 등 혼합 → `*.bin`
- **SFT/ORPO**: 선호 데이터 등 → 별도 스크립트/설정으로 생성
- **규모**: 약 1.2TB 수준 (원시 + 토큰화 .bin). 재현 시 동일 스크립트로 자체 구축 필요.

## 재현 방법

1. `build_korean_dataset.sh` 실행 (필요 시 내부 변수 조정).
2. Hugging Face/외부에서 필요한 데이터셋 다운로드 후 `data/raw/` 등에 배치.
3. `tokenizer/` 및 `train/` 설정에 맞춰 토크나이징·병합 후 학습 스크립트 실행.

자세한 프로젝트 구조와 학습 설정은 저장소 루트의 `source/README.md` 및 `configs/` 를 참고하세요.