source/eval/data_inventory/MASTER_DATA_REPORT.md · pathcosmos/frankenstallm at main

frankenstallm / source /eval /data_inventory /MASTER_DATA_REPORT.md

pathcosmos

Upload folder using huggingface_hub (#29)

5b1ff4d 28 days ago

preview code

raw

history blame contribute delete

8.99 kB

	# 한국어 LLM 데이터 종합 리포트
	> 생성: 2026-02-27 \| 5개 subagent 조사 결과 통합

	---

	## 1. 현재 보유 현황

	\| 카테고리 \| 데이터셋 \| 디스크 \| 추정 토큰 \| 품질 \|
	\|---------\|---------\|--------\|---------\|------\|
	\| 교육 웹 \| fineweb2_edu_ko \| 234G \| ~50B \| A \|
	\| 웹 크롤 \| culturax_ko \| 60G \| ~24B \| B+ \|
	\| 수학 \| open_web_math \| 26G \| ~10B \| A \|
	\| 웹 크롤 \| hplt_ko \| 23G \| ~9B \| B \|
	\| 웹 크롤 \| cc100_processed \| 19G \| ~7B \| C+ \|
	\| 웹 크롤 \| cc100_ko \| 14G \| ~5.5B \| C \|
	\| 웹 크롤 \| oscar_ko \| 9.2G \| ~3.5B \| B \|
	\| 교육 \| korean_textbooks \| 6.4G \| ~1.5B \| A \|
	\| 웹 \| korean_webtext \| 4.2G \| ~1B \| B+ \|
	\| 백과 \| namuwiki_2023 \| 2.9G \| ~1B \| A- \|
	\| 교육 \| finepdfs_edu_ko \| 2.9G \| ~0.7B \| A- \|
	\| 백과 \| namuwiki_extracted \| 2.2G \| ~0.5B \| A- \|
	\| 백과 \| wikipedia_korean \| 1.7G \| ~0.4B \| A \|
	\| 백과 \| wikipedia_ko_2024 \| 1.4G \| ~0.3B \| A \|
	\| Instruct \| kovast \| 449M \| ~0.1B \| B \|
	\| Instruct \| evol_instruct_ko \| 144M \| ~0.03B \| B \|
	\| 대화 \| korean_safe_conv \| 51M \| ~0.01B \| B \|
	\| 합계 \| \| ~410G \| ~114B raw \| \|

	> ⚠️ 토큰화 완료 `.bin`: korean_train.bin(17G≈8.9B), korean_c4_train(15G≈7.5B) 등 실제 학습 사용 ~39B

	---

	## 2. 부족 도메인 갭 분석

	### 🔴 CRITICAL (없음)
	\| 도메인 \| 현황 \| 영향 \|
	\|--------\|------\|------\|
	\| Preference/DPO \| 0건 \| ORPO 학습 불가 \|
	\| 법률/판례 \| 0 \| 법률 추론 불가 \|
	\| 의료/의학 \| 0 \| 헬스케어 응답 불가 \|
	\| 코드 (한국어 주석) \| 0 \| 코딩 지원 약함 \|
	\| 뉴스/언론 \| 0 \| 시사 맥락 약함 \|

	### 🟡 WEAK (매우 부족)
	\| 도메인 \| 현황 \| 영향 \|
	\|--------\|------\|------\|
	\| Instruction/SFT \| ~0.6G (644MB) \| 지시 따르기 약함 \|
	\| 금융/경제 \| 0 \| 금융 도메인 응답 약함 \|
	\| 학술논문 \| 0 \| 학술적 글쓰기 약함 \|
	\| 소설/문학 \| 0 \| 창작 능력 약함 \|

	---

	## 3. 최고 후보군 — Pretrain 용 (부족 도메인 채우기)

	### 🥇 1순위: KORMo-Team/korean-web-collection
	- 크기: ~50~80GB / ~20~30B 토큰
	- 특징: HF에서 가장 큰 한국어 전용 웹 크롤. 현재 보유 데이터와 중복 적음
	- 라이선스: 공개
	- 다운로드: `huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir ./data/korean-web-collection`

	### 🥈 2순위: HPLT/HPLT2.0_cleaned (ko)
	- 크기: ~30GB / ~12B 토큰
	- 특징: HPLT v1.2 이미 보유(23G) → v2.0은 더 크고 정제됨. 추가 순수 증가분 존재
	- 라이선스: 공개
	- 다운로드: `python -c "from datasets import load_dataset; ds = load_dataset('HPLT/HPLT2.0_cleaned', 'ko', split='train'); ds.save_to_disk('./data/hplt2-ko')"`

	### 🥉 3순위: 법률 도메인 묶음
	\| 데이터셋 \| 크기 \| 내용 \|
	\|---------\|------\|------\|
	\| `joonhok-exo-ai/korean_law_open_data_precedents` \| ~1-2G \| 법원 판례 전문 \|
	\| `smhilee/korean-law-dataset` \| ~1-3G \| 법령/법률 텍스트 \|
	\| `Rootpye/korean-lawdata2` \| ~0.5-1G \| 법률 데이터 \|
	\| `Rootpye/korean-lawdata4` \| ~0.5-1G \| 법률 데이터 v4 \|
	\| `ducut91/korean-constitutional-court-decisions` \| ~0.5G \| 헌법재판소 결정 \|
	- 합계: ~4~8G / ~1~2B 토큰
	- 왜 중요: 법률은 완전 공백 도메인. 정밀한 한국어 + 논리 구조 → pretrain 품질 향상

	### 4순위: mc4 (ko)
	- 크기: ~50GB / ~20B 토큰
	- 특징: CulturaX와 일부 중복이나 원본 mC4 추가 텍스트 존재
	- 라이선스: 공개
	- 다운로드: `python -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('./data/mc4-ko')"`

	### 5순위: RedPajama-Data-1T (코드+ArXiv)
	- 크기: 선별 ~15~20GB / ~8~10B 토큰
	- 특징: 한국어 모델이라도 코드+과학 영어 데이터 필수 (cross-lingual transfer)
	- 서브셋: `github` (코드 5B) + `arxiv` (과학 3B) + `book` (2B)
	- 라이선스: 공개

	---

	## 4. 최고 후보군 — SFT 용

	### 🥇 1: kuotient/orca-math-word-problems-193k-korean
	- 크기: 193K 샘플
	- 내용: 수학 문제 한국어, Orca Math 기반
	- 왜: 수학 도메인 완전 공백 채움. 검증된 고품질

	### 🥈 2: dbdu/ShareGPT-74k-ko
	- 크기: 74K 샘플
	- 내용: ChatGPT 실사용 대화 멀티턴 한국어 번역
	- 왜: 싱글턴 편향인 현재 데이터 보완, 다양한 도메인

	### 🥉 3: nayohan/Evol-Instruct-Code-80k-v1-ko
	- 크기: 80K 샘플
	- 내용: WizardCoder 기반 코딩 instruction 한국어
	- 왜: 코딩 도메인 현재 ~5% → 대폭 강화

	### 4: nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k
	- 크기: 196K 샘플
	- 내용: WizardLM Evol Instruct 한국어 — 복잡한 추론 포함

	### 5: FreedomIntelligence/alpaca-gpt4-korean
	- 크기: 52K 샘플
	- 내용: GPT-4 생성 Alpaca 한국어 — 고품질 응답

	> SFT 추가 후 예상: 현재 162K + 595K = ~757K (4.7배 증가)

	---

	## 5. 최고 후보군 — Preference/ORPO 용

	### 🥇 1: jojo0217/korean_rlhf_dataset
	- 크기: 100K+ 쌍
	- 내용: 한국어 RLHF 종합 — 가장 범용적
	- 우선순위: 즉시 다운로드

	### 🥈 2: maywell/ko_Ultrafeedback_binarized
	- 크기: ~60K 쌍
	- 내용: UltraFeedback 한국어 번역, binarized (chosen/rejected)
	- 왜: 이미 chosen/rejected 형식으로 ORPO 바로 사용 가능

	### 🥉 3: nayohan/preference-collection-ko-full
	- 크기: 100K+ 쌍
	- 내용: 한국어 종합 preference 컬렉션

	### 4: kuotient/orca-math-korean-dpo-pairs
	- 크기: 100K+ 쌍
	- 내용: 수학 특화 DPO 쌍

	> ORPO 추천 조합: jojo0217 + maywell + nayohan = ~260K쌍 → 바로 시작 가능

	---

	## 6. 외부 소스 (신청 필요)

	\| 소스 \| 추정량 \| 특징 \|
	\|------\|--------\|------\|
	\| AI Hub (aihub.or.kr) \| ~60~100GB \| 뉴스, 대화, 의료, 법률, 금융 전문 — 승인 필요, 비상업적 가능 \|
	\| NIKL 모두의 말뭉치 \| ~35~50GB \| 문어/구어 코퍼스, 비상업적 연구용 신청 \|
	\| 국가법령정보센터 \| ~5~10GB \| 크롤링 가능 (공공 데이터) \|
	\| KCI 학술논문 \| ~3~5GB \| 논문 초록, API 제공 \|

	---

	## 7. 다운로드 실행 플랜 (우선순위순)

	```bash
	cd /PROJECT/0325120031_A/ghong/taketimes/llm-bang

	# === Phase 1: Preference (ORPO 즉시 활성화, 소용량) ===
	python3 -c "
	from datasets import load_dataset
	import os
	out = 'data/preference'
	os.makedirs(out, exist_ok=True)
	for name in ['jojo0217/korean_rlhf_dataset', 'maywell/ko_Ultrafeedback_binarized', 'nayohan/preference-collection-ko-full', 'kuotient/orca-math-korean-dpo-pairs']:
	ds = load_dataset(name, split='train')
	ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl')
	print(f'✅ {name}: {len(ds)} samples')
	" 2>&1 \| tee /tmp/preference_dl.log &

	# === Phase 2: SFT 보강 (대화/수학/코드) ===
	python3 -c "
	from datasets import load_dataset
	import os
	out = 'data/sft_extra'
	os.makedirs(out, exist_ok=True)
	for name in ['kuotient/orca-math-word-problems-193k-korean','dbdu/ShareGPT-74k-ko','nayohan/Evol-Instruct-Code-80k-v1-ko','nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k','FreedomIntelligence/alpaca-gpt4-korean']:
	try:
	ds = load_dataset(name, split='train')
	ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl')
	print(f'✅ {name}: {len(ds)}')
	except Exception as e:
	print(f'❌ {name}: {e}')
	" 2>&1 \| tee /tmp/sft_extra_dl.log &

	# === Phase 3: 법률 Pretrain 보강 ===
	python3 -c "
	from datasets import load_dataset
	import os
	out = 'data/korean_extra/korean_law'
	os.makedirs(out, exist_ok=True)
	for name in ['joonhok-exo-ai/korean_law_open_data_precedents','smhilee/korean-law-dataset','Rootpye/korean-lawdata2']:
	try:
	ds = load_dataset(name, split='train')
	ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl')
	print(f'✅ {name}: {len(ds)}')
	except Exception as e:
	print(f'❌ {name}: {e}')
	" 2>&1 \| tee /tmp/law_dl.log &

	# === Phase 4: 대용량 Pretrain (백그라운드 장시간) ===
	# mc4 Korean (~50GB)
	# python3 -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('data/korean_extra/mc4_ko')"
	# KORMo Web Collection
	# huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir data/korean_extra/korean_web_collection
	```

	---

	## 8. 추가 후 예상 데이터 구성

	\| 카테고리 \| 현재 토큰 \| 추가 후 \| 비고 \|
	\|---------\|---------\|---------\|------\|
	\| 한국어 Pretrain \| ~39B (토큰화) \| ~60~80B \| mc4+KORMo+법률 추가 시 \|
	\| SFT \| 162K \| ~757K \| 5개 추가 후 \|
	\| Preference \| 0 \| ~260K쌍 \| jojo+maywell+nayohan \|
	\| 코드/영어 \| ~0.6B \| ~10B \| RedPajama github+arxiv \|
	\| 법률 \| 0 \| ~1~2B \| 법률 묶음 \|

	Chinchilla minimum (60B) 달성 가능 ✅

	---

	_보고서 저장: `/PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/data_inventory/`_