# 한국어 LLM 데이터 종합 리포트 > 생성: 2026-02-27 | 5개 subagent 조사 결과 통합 --- ## 1. 현재 보유 현황 | 카테고리 | 데이터셋 | 디스크 | 추정 토큰 | 품질 | |---------|---------|--------|---------|------| | 교육 웹 | fineweb2_edu_ko | 234G | ~50B | A | | 웹 크롤 | culturax_ko | 60G | ~24B | B+ | | 수학 | open_web_math | 26G | ~10B | A | | 웹 크롤 | hplt_ko | 23G | ~9B | B | | 웹 크롤 | cc100_processed | 19G | ~7B | C+ | | 웹 크롤 | cc100_ko | 14G | ~5.5B | C | | 웹 크롤 | oscar_ko | 9.2G | ~3.5B | B | | 교육 | korean_textbooks | 6.4G | ~1.5B | A | | 웹 | korean_webtext | 4.2G | ~1B | B+ | | 백과 | namuwiki_2023 | 2.9G | ~1B | A- | | 교육 | finepdfs_edu_ko | 2.9G | ~0.7B | A- | | 백과 | namuwiki_extracted | 2.2G | ~0.5B | A- | | 백과 | wikipedia_korean | 1.7G | ~0.4B | A | | 백과 | wikipedia_ko_2024 | 1.4G | ~0.3B | A | | Instruct | kovast | 449M | ~0.1B | B | | Instruct | evol_instruct_ko | 144M | ~0.03B | B | | 대화 | korean_safe_conv | 51M | ~0.01B | B | | **합계** | | **~410G** | **~114B raw** | | > ⚠️ 토큰화 완료 `.bin`: korean_train.bin(17G≈8.9B), korean_c4_train(15G≈7.5B) 등 실제 학습 사용 ~39B --- ## 2. 부족 도메인 갭 분석 ### 🔴 CRITICAL (없음) | 도메인 | 현황 | 영향 | |--------|------|------| | **Preference/DPO** | 0건 | ORPO 학습 불가 | | **법률/판례** | 0 | 법률 추론 불가 | | **의료/의학** | 0 | 헬스케어 응답 불가 | | **코드 (한국어 주석)** | 0 | 코딩 지원 약함 | | **뉴스/언론** | 0 | 시사 맥락 약함 | ### 🟡 WEAK (매우 부족) | 도메인 | 현황 | 영향 | |--------|------|------| | **Instruction/SFT** | ~0.6G (644MB) | 지시 따르기 약함 | | **금융/경제** | 0 | 금융 도메인 응답 약함 | | **학술논문** | 0 | 학술적 글쓰기 약함 | | **소설/문학** | 0 | 창작 능력 약함 | --- ## 3. 최고 후보군 — Pretrain 용 (부족 도메인 채우기) ### 🥇 1순위: KORMo-Team/korean-web-collection - **크기**: ~50~80GB / ~20~30B 토큰 - **특징**: HF에서 가장 큰 한국어 전용 웹 크롤. 현재 보유 데이터와 중복 적음 - **라이선스**: 공개 - **다운로드**: `huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir ./data/korean-web-collection` ### 🥈 2순위: HPLT/HPLT2.0_cleaned (ko) - **크기**: ~30GB / ~12B 토큰 - **특징**: HPLT v1.2 이미 보유(23G) → v2.0은 더 크고 정제됨. 추가 순수 증가분 존재 - **라이선스**: 공개 - **다운로드**: `python -c "from datasets import load_dataset; ds = load_dataset('HPLT/HPLT2.0_cleaned', 'ko', split='train'); ds.save_to_disk('./data/hplt2-ko')"` ### 🥉 3순위: 법률 도메인 묶음 | 데이터셋 | 크기 | 내용 | |---------|------|------| | `joonhok-exo-ai/korean_law_open_data_precedents` | ~1-2G | 법원 판례 전문 | | `smhilee/korean-law-dataset` | ~1-3G | 법령/법률 텍스트 | | `Rootpye/korean-lawdata2` | ~0.5-1G | 법률 데이터 | | `Rootpye/korean-lawdata4` | ~0.5-1G | 법률 데이터 v4 | | `ducut91/korean-constitutional-court-decisions` | ~0.5G | 헌법재판소 결정 | - **합계**: ~4~8G / ~1~2B 토큰 - **왜 중요**: 법률은 완전 공백 도메인. 정밀한 한국어 + 논리 구조 → pretrain 품질 향상 ### 4순위: mc4 (ko) - **크기**: ~50GB / ~20B 토큰 - **특징**: CulturaX와 일부 중복이나 원본 mC4 추가 텍스트 존재 - **라이선스**: 공개 - **다운로드**: `python -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('./data/mc4-ko')"` ### 5순위: RedPajama-Data-1T (코드+ArXiv) - **크기**: 선별 ~15~20GB / ~8~10B 토큰 - **특징**: 한국어 모델이라도 코드+과학 영어 데이터 필수 (cross-lingual transfer) - **서브셋**: `github` (코드 5B) + `arxiv` (과학 3B) + `book` (2B) - **라이선스**: 공개 --- ## 4. 최고 후보군 — SFT 용 ### 🥇 1: kuotient/orca-math-word-problems-193k-korean - **크기**: 193K 샘플 - **내용**: 수학 문제 한국어, Orca Math 기반 - **왜**: 수학 도메인 완전 공백 채움. 검증된 고품질 ### 🥈 2: dbdu/ShareGPT-74k-ko - **크기**: 74K 샘플 - **내용**: ChatGPT 실사용 대화 멀티턴 한국어 번역 - **왜**: 싱글턴 편향인 현재 데이터 보완, 다양한 도메인 ### 🥉 3: nayohan/Evol-Instruct-Code-80k-v1-ko - **크기**: 80K 샘플 - **내용**: WizardCoder 기반 코딩 instruction 한국어 - **왜**: 코딩 도메인 현재 ~5% → 대폭 강화 ### 4: nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k - **크기**: 196K 샘플 - **내용**: WizardLM Evol Instruct 한국어 — 복잡한 추론 포함 ### 5: FreedomIntelligence/alpaca-gpt4-korean - **크기**: 52K 샘플 - **내용**: GPT-4 생성 Alpaca 한국어 — 고품질 응답 > **SFT 추가 후 예상**: 현재 162K + 595K = **~757K** (4.7배 증가) --- ## 5. 최고 후보군 — Preference/ORPO 용 ### 🥇 1: jojo0217/korean_rlhf_dataset - **크기**: 100K+ 쌍 - **내용**: 한국어 RLHF 종합 — 가장 범용적 - **우선순위**: 즉시 다운로드 ### 🥈 2: maywell/ko_Ultrafeedback_binarized - **크기**: ~60K 쌍 - **내용**: UltraFeedback 한국어 번역, binarized (chosen/rejected) - **왜**: 이미 chosen/rejected 형식으로 ORPO 바로 사용 가능 ### 🥉 3: nayohan/preference-collection-ko-full - **크기**: 100K+ 쌍 - **내용**: 한국어 종합 preference 컬렉션 ### 4: kuotient/orca-math-korean-dpo-pairs - **크기**: 100K+ 쌍 - **내용**: 수학 특화 DPO 쌍 > **ORPO 추천 조합**: jojo0217 + maywell + nayohan = ~260K쌍 → 바로 시작 가능 --- ## 6. 외부 소스 (신청 필요) | 소스 | 추정량 | 특징 | |------|--------|------| | AI Hub (aihub.or.kr) | ~60~100GB | 뉴스, 대화, 의료, 법률, 금융 전문 — 승인 필요, 비상업적 가능 | | NIKL 모두의 말뭉치 | ~35~50GB | 문어/구어 코퍼스, 비상업적 연구용 신청 | | 국가법령정보센터 | ~5~10GB | 크롤링 가능 (공공 데이터) | | KCI 학술논문 | ~3~5GB | 논문 초록, API 제공 | --- ## 7. 다운로드 실행 플랜 (우선순위순) ```bash cd /PROJECT/0325120031_A/ghong/taketimes/llm-bang # === Phase 1: Preference (ORPO 즉시 활성화, 소용량) === python3 -c " from datasets import load_dataset import os out = 'data/preference' os.makedirs(out, exist_ok=True) for name in ['jojo0217/korean_rlhf_dataset', 'maywell/ko_Ultrafeedback_binarized', 'nayohan/preference-collection-ko-full', 'kuotient/orca-math-korean-dpo-pairs']: ds = load_dataset(name, split='train') ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl') print(f'✅ {name}: {len(ds)} samples') " 2>&1 | tee /tmp/preference_dl.log & # === Phase 2: SFT 보강 (대화/수학/코드) === python3 -c " from datasets import load_dataset import os out = 'data/sft_extra' os.makedirs(out, exist_ok=True) for name in ['kuotient/orca-math-word-problems-193k-korean','dbdu/ShareGPT-74k-ko','nayohan/Evol-Instruct-Code-80k-v1-ko','nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k','FreedomIntelligence/alpaca-gpt4-korean']: try: ds = load_dataset(name, split='train') ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl') print(f'✅ {name}: {len(ds)}') except Exception as e: print(f'❌ {name}: {e}') " 2>&1 | tee /tmp/sft_extra_dl.log & # === Phase 3: 법률 Pretrain 보강 === python3 -c " from datasets import load_dataset import os out = 'data/korean_extra/korean_law' os.makedirs(out, exist_ok=True) for name in ['joonhok-exo-ai/korean_law_open_data_precedents','smhilee/korean-law-dataset','Rootpye/korean-lawdata2']: try: ds = load_dataset(name, split='train') ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl') print(f'✅ {name}: {len(ds)}') except Exception as e: print(f'❌ {name}: {e}') " 2>&1 | tee /tmp/law_dl.log & # === Phase 4: 대용량 Pretrain (백그라운드 장시간) === # mc4 Korean (~50GB) # python3 -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('data/korean_extra/mc4_ko')" # KORMo Web Collection # huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir data/korean_extra/korean_web_collection ``` --- ## 8. 추가 후 예상 데이터 구성 | 카테고리 | 현재 토큰 | 추가 후 | 비고 | |---------|---------|---------|------| | 한국어 Pretrain | ~39B (토큰화) | ~60~80B | mc4+KORMo+법률 추가 시 | | SFT | 162K | ~757K | 5개 추가 후 | | Preference | 0 | ~260K쌍 | jojo+maywell+nayohan | | 코드/영어 | ~0.6B | ~10B | RedPajama github+arxiv | | 법률 | 0 | ~1~2B | 법률 묶음 | **Chinchilla minimum (60B) 달성 가능** ✅ --- _보고서 저장: `/PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/data_inventory/`_