source/eval/data_inventory/sft_datasets.md · pathcosmos/frankenstallm at main

frankenstallm / source /eval /data_inventory /sft_datasets.md

pathcosmos

Upload folder using huggingface_hub (#29)

5b1ff4d 10 days ago

preview code

raw

history blame contribute delete

8.21 kB

	# 한국어 SFT/Instruction 데이터셋 전수 조사

	조사일: 2026-02-27
	조사 범위: HuggingFace Hub 한국어 SFT/Instruction 데이터셋

	---

	## 1. 현재 SFT 데이터 현황

	\| 항목 \| 값 \|
	\|------\|-----\|
	\| 파일 \| `/PROJECT/.../data/sft/train.jsonl` \|
	\| 총 건수 \| 161,848 \|
	\| 포맷 \| `instruction` / `input` / `output` (Alpaca 형식) \|
	\| 소스 필드 \| ❌ 없음 (`source` 키 미존재) \|

	> ⚠️ 소스 추적이 불가능하여 중복/출처 검증이 어려움. 향후 데이터 추가 시 `source` 필드 필수 권장.

	---

	## 2. HuggingFace 한국어 SFT 데이터셋 목록

	### Tier 1 — 최고품질 (인간 작성 / 강력 필터링 / GPT-4 생성+검증)

	\| 데이터셋 \| 크기 \| 언어 \| 설명 \| DL \|
	\|----------\|------\|------\|------\|-----\|
	\| `nlpai-lab/kullm-v2` \| 10K~100K \| 🇰🇷 \| GPT-4 기반 한국어 instruction, 커뮤니티 검증 \| 730 \|
	\| `FreedomIntelligence/alpaca-gpt4-korean` \| ~52K \| 🇰🇷 \| GPT-4로 생성한 한국어 Alpaca \| 158 \|
	\| `dbdu/ShareGPT-74k-ko` \| 10K~100K \| 🇰🇷 \| ShareGPT 한국어 번역, 멀티턴 대화 \| 169 \|
	\| `squarelike/sharegpt_deepl_ko_translation` \| ~50K+ \| 🇰🇷 \| ShareGPT DeepL 번역, 고품질 번역체 \| 41 \|
	\| `kuotient/orca-math-word-problems-193k-korean` \| 100K~1M \| 🇰🇷 \| 수학 문제 한국어 번역, 대규모 \| 396 \|
	\| `HuggingFaceH4/no_robots` \| ~10K \| 🇬🇧 \| 인간 작성 고품질 (영어, 번역 가치 높음) \| 5,211 \|
	\| `allenai/tulu-3-sft-mixture` \| 100K~1M \| 다국어 \| Allen AI 최신 SFT 믹스, 고품질 큐레이션 \| 22,453 \|
	\| `HAERAE-HUB/K2-Feedback` \| ~수천 \| 🇰🇷 \| 한국어 평가/피드백 데이터 \| 54 \|

	### Tier 2 — 중간 품질 (GPT-3.5/4 생성, 부분 검증)

	\| 데이터셋 \| 크기 \| 언어 \| 설명 \| DL \|
	\|----------\|------\|------\|------\|-----\|
	\| `beomi/KoAlpaca-v1.1a` \| ~52K \| 🇰🇷 \| 한국어 Alpaca, 널리 사용 \| 3,096 \|
	\| `kyujinpy/KOR-OpenOrca-Platypus-v3` \| 10K~50K \| 🇰🇷 \| OpenOrca+Platypus 한국어 병합 \| 612 \|
	\| `kyujinpy/OpenOrca-KO` \| 10K~50K \| 🇰🇷 \| OpenOrca 한국어 번역 \| 139 \|
	\| `squarelike/OpenOrca-gugugo-ko` \| 10M~100M \| 🇰🇷 \| 초대규모 OpenOrca 한국어 번역 \| 82 \|
	\| `nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k` \| ~196K \| 🇰🇷 \| WizardLM Evol Instruct 한국어 \| 20 \|
	\| `heegyu/open-korean-instructions` \| 다양 \| 🇰🇷 \| 여러 한국어 instruction 통합 \| 214 \|
	\| `nayohan/instruction_en_ko_translation_1.4m` \| 1.4M \| 🇰🇷 \| 대규모 영→한 instruction 번역 \| 11 \|
	\| `nayohan/Evol-Instruct-Code-80k-v1-ko` \| ~80K \| 🇰🇷 \| 코드 instruction 한국어 \| 23 \|
	\| `changpt/ko-lima-vicuna` \| <1K \| 🇰🇷 \| LIMA+Vicuna 한국어 (소량 고품질) \| 43 \|
	\| `OpenLab-NLP/tiny-instruct-ko` \| ~수만 \| 🇰🇷 \| 한국어 instruction 소규모 \| 127 \|
	\| `nlpai-lab/openassistant-guanaco-ko` \| 1K~10K \| 🇰🇷 \| OpenAssistant Guanaco 한국어 \| 48 \|
	\| `HuggingFaceH4/ultrachat_200k` \| 100K~1M \| 🇬🇧 \| 고품질 대화 (영어, 번역 가치) \| 33,729 \|
	\| `kyujinpy/KOpen-platypus` \| ~25K \| 🇰🇷🇬🇧 \| Platypus 한국어 \| 306 \|

	### Tier 3 — 참고용 (노이즈 가능성, 추가 필터링 필요)

	\| 데이터셋 \| 크기 \| 언어 \| 설명 \| DL \|
	\|----------\|------\|------\|------\|-----\|
	\| `CarrotAI/ko-instruction-dataset` \| 1K~10K \| 🇰🇷 \| 소규모 \| 71 \|
	\| `CarrotAI/ko-code-alpaca-QA` \| 소규모 \| 🇰🇷 \| 코드 QA \| 71 \|
	\| `causal-lm/instructions-ko` \| 불명 \| 🇰🇷 \| \| 21 \|
	\| `junelee/sharegpt_deepl_ko` \| ~수만 \| 🇰🇷 \| DeepL 번역 \| 86 \|
	\| `neuralfoundry-coder/aihub-korean-education-instruct-sample` \| 샘플 \| 🇰🇷 \| 교육 도메인 \| 32 \|
	\| `neuralfoundry-coder/korean-legal-instruction-sample` \| 샘플 \| 🇰🇷 \| 법률 도메인 \| 30 \|

	### 영어 대규모 (번역 파이프라인으로 활용 가능)

	\| 데이터셋 \| 크기 \| 설명 \| DL \|
	\|----------\|------\|------\|-----\|
	\| `Open-Orca/OpenOrca` \| ~4M \| FLAN 기반 대규모 \| - \|
	\| `teknium/OpenHermes-2.5` \| ~1M \| 고품질 혼합 \| - \|
	\| `WizardLM/WizardLM_evol_instruct_V2_196k` \| 196K \| Evol Instruct \| - \|
	\| `stingning/ultrachat` \| 1M~10M \| 대화형 \| 2,838 \|
	\| `iamtarun/python_code_instructions_18k_alpaca` \| 18K \| 코드 \| 6,499 \|
	\| `sahil2801/CodeAlpaca-20k` \| 20K \| 코드 \| 12,060 \|

	---

	## 3. 도메인 커버리지 분석

	### 현재 데이터 (161K) 추정 도메인 분포

	데이터에 `source` 필드가 없어 정확한 분석 불가. 데이터 내용 샘플링 기반 추정:

	\| 도메인 \| 추정 비율 \| 상태 \|
	\|--------\|----------\|------\|
	\| 일반 지식/QA \| ~40% \| ✅ 충분 \|
	\| 번역체 대화 \| ~25% \| ✅ 충분 \|
	\| 창작/글쓰기 \| ~15% \| ⚠️ 보통 \|
	\| 코딩 \| ~5% \| ❌ 부족 \|
	\| 수학/과학 \| ~5% \| ❌ 부족 \|
	\| 한국어 특화 (문화/역사/법률) \| ~5% \| ❌ 부족 \|
	\| 롤플레이/페르소나 \| ~5% \| ⚠️ 보통 \|

	### 도메인 갭 (부족한 영역)

	1. 수학/논리 추론 — 현재 거의 없음. `kuotient/orca-math-word-problems-193k-korean` (193K)로 즉시 보완 가능
	2. 코딩 — 한국어 코드 instruction 극소. `nayohan/Evol-Instruct-Code-80k-v1-ko` (80K) 활용 필요
	3. 한국어 특화 지식 — 한국 문화, 역사, 법률, 수능 등 도메인 특화 데이터 부족
	4. 멀티턴 대화 — 싱글턴 QA 위주. `dbdu/ShareGPT-74k-ko`, `ultrachat_200k` 번역으로 보완
	5. Safety/거절 응답 — 유해 요청 거절 학습 데이터 부재

	---

	## 4. 즉시 다운로드 권장 Top 5

	### 🥇 1. `kuotient/orca-math-word-problems-193k-korean`
	- 크기: ~193K
	- 이유: 수학 도메인 완전 보완. 한국어 네이티브 번역. 대규모.
	- 품질: Tier 1-2 (Orca Math 기반, 검증됨)
	- 우선도: ★★★★★

	### 🥈 2. `dbdu/ShareGPT-74k-ko`
	- 크기: ~74K
	- 이유: 실제 ChatGPT 대화 기반 멀티턴. 다양한 도메인. 번역 품질 양호.
	- 품질: Tier 1 (실사용자 대화 기반)
	- 우선도: ★★★★★

	### 🥉 3. `nayohan/Evol-Instruct-Code-80k-v1-ko`
	- 크기: ~80K
	- 이유: 코딩 도메인 유일한 대규모 한국어 데이터. WizardCoder 기반.
	- 품질: Tier 2
	- 우선도: ★★★★☆

	### 4️⃣ 4. `nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k`
	- 크기: ~196K
	- 이유: Evol Instruct로 난이도 다양. 복잡한 instruction 포함. 대규모.
	- 품질: Tier 2
	- 우선도: ★★★★☆

	### 5️⃣ 5. `FreedomIntelligence/alpaca-gpt4-korean`
	- 크기: ~52K
	- 이유: GPT-4 생성으로 응답 품질 높음. 기존 Alpaca 데이터와 상보적.
	- 품질: Tier 1
	- 우선도: ★★★☆☆

	---

	## 5. 추가 권장 사항

	### 즉시 조치
	1. 현재 `train.jsonl`에 `source` 필드 추가 (역추적 or 향후 데이터부터)
	2. Top 5 데이터셋 다운로드 → 중복 제거 → `source` 태깅 후 병합
	3. 예상 추가 데이터: ~595K (193K + 74K + 80K + 196K + 52K)
	4. 병합 후 총 규모: ~757K (현재 162K + 595K)

	### 중기 계획
	- `nayohan/instruction_en_ko_translation_1.4m` — 1.4M 대규모이나 품질 검증 필요
	- `squarelike/OpenOrca-gugugo-ko` — 초대규모(10M+)이나 노이즈 필터링 필수
	- `allenai/tulu-3-sft-mixture` — 다국어 포함, 한국어 부분 추출 가치
	- Safety 데이터 자체 구축 (유해 요청 거절 시나리오)

	### 도메인 특화 보강
	- 법률: `neuralfoundry-coder/korean-legal-instruction-sample` (샘플만 공개, AI Hub 원본 확인 필요)
	- 교육: `neuralfoundry-coder/aihub-korean-education-instruct-sample`
	- 의료: `squarelike/ko_medical_chat` (25 DL, 소규모)

	---

	## 6. 404 (삭제/비공개) 데이터셋

	다음 데이터셋은 현재 접근 불가:
	- `Bingsu/ko-alpaca-cleaned` ❌
	- `naver-clova-ix/koco-v1-5` (별도 확인 필요)
	- `kuotient/korean-conversation-dataset` (별도 확인 필요)
	- `HAERAE-HUB/K2-Bench-Instruction` ❌
	- `nayohan/llama3-instruct-ko` ❌
	- `Bongseok/Kor-Platypus2` ❌
	- `kuotient/orca-math-word-problems-korean` ❌ (→ `orca-math-word-problems-193k-korean`이 정확한 이름)
	- `kyujinpy/Kor-Platypus2-T70k` ❌
	- `HAERAE-HUB/qarv-instruct-100k` ❌

	# 한국어 SFT/Instruction 데이터셋 전수 조사

	조사일: 2026-02-27
	조사 범위: HuggingFace Hub 한국어 SFT/Instruction 데이터셋

	---

	## 1. 현재 SFT 데이터 현황

	\| 항목 \| 값 \|
	\|------\|-----\|
	\| 파일 \| `/PROJECT/.../data/sft/train.jsonl` \|
	\| 총 건수 \| 161,848 \|
	\| 포맷 \| `instruction` / `input` / `output` (Alpaca 형식) \|
	\| 소스 필드 \| ❌ 없음 (`source` 키 미존재) \|

	> ⚠️ 소스 추적이 불가능하여 중복/출처 검증이 어려움. 향후 데이터 추가 시 `source` 필드 필수 권장.

	---

	## 2. HuggingFace 한국어 SFT 데이터셋 목록

	### Tier 1 — 최고품질 (인간 작성 / 강력 필터링 / GPT-4 생성+검증)

	\| 데이터셋 \| 크기 \| 언어 \| 설명 \| DL \|
	\|----------\|------\|------\|------\|-----\|
	\| `nlpai-lab/kullm-v2` \| 10K~100K \| 🇰🇷 \| GPT-4 기반 한국어 instruction, 커뮤니티 검증 \| 730 \|
	\| `FreedomIntelligence/alpaca-gpt4-korean` \| ~52K \| 🇰🇷 \| GPT-4로 생성한 한국어 Alpaca \| 158 \|
	\| `dbdu/ShareGPT-74k-ko` \| 10K~100K \| 🇰🇷 \| ShareGPT 한국어 번역, 멀티턴 대화 \| 169 \|
	\| `squarelike/sharegpt_deepl_ko_translation` \| ~50K+ \| 🇰🇷 \| ShareGPT DeepL 번역, 고품질 번역체 \| 41 \|
	\| `kuotient/orca-math-word-problems-193k-korean` \| 100K~1M \| 🇰🇷 \| 수학 문제 한국어 번역, 대규모 \| 396 \|
	\| `HuggingFaceH4/no_robots` \| ~10K \| 🇬🇧 \| 인간 작성 고품질 (영어, 번역 가치 높음) \| 5,211 \|
	\| `allenai/tulu-3-sft-mixture` \| 100K~1M \| 다국어 \| Allen AI 최신 SFT 믹스, 고품질 큐레이션 \| 22,453 \|
	\| `HAERAE-HUB/K2-Feedback` \| ~수천 \| 🇰🇷 \| 한국어 평가/피드백 데이터 \| 54 \|

	### Tier 2 — 중간 품질 (GPT-3.5/4 생성, 부분 검증)

	\| 데이터셋 \| 크기 \| 언어 \| 설명 \| DL \|
	\|----------\|------\|------\|------\|-----\|
	\| `beomi/KoAlpaca-v1.1a` \| ~52K \| 🇰🇷 \| 한국어 Alpaca, 널리 사용 \| 3,096 \|
	\| `kyujinpy/KOR-OpenOrca-Platypus-v3` \| 10K~50K \| 🇰🇷 \| OpenOrca+Platypus 한국어 병합 \| 612 \|
	\| `kyujinpy/OpenOrca-KO` \| 10K~50K \| 🇰🇷 \| OpenOrca 한국어 번역 \| 139 \|
	\| `squarelike/OpenOrca-gugugo-ko` \| 10M~100M \| 🇰🇷 \| 초대규모 OpenOrca 한국어 번역 \| 82 \|
	\| `nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k` \| ~196K \| 🇰🇷 \| WizardLM Evol Instruct 한국어 \| 20 \|
	\| `heegyu/open-korean-instructions` \| 다양 \| 🇰🇷 \| 여러 한국어 instruction 통합 \| 214 \|
	\| `nayohan/instruction_en_ko_translation_1.4m` \| 1.4M \| 🇰🇷 \| 대규모 영→한 instruction 번역 \| 11 \|
	\| `nayohan/Evol-Instruct-Code-80k-v1-ko` \| ~80K \| 🇰🇷 \| 코드 instruction 한국어 \| 23 \|
	\| `changpt/ko-lima-vicuna` \| <1K \| 🇰🇷 \| LIMA+Vicuna 한국어 (소량 고품질) \| 43 \|
	\| `OpenLab-NLP/tiny-instruct-ko` \| ~수만 \| 🇰🇷 \| 한국어 instruction 소규모 \| 127 \|
	\| `nlpai-lab/openassistant-guanaco-ko` \| 1K~10K \| 🇰🇷 \| OpenAssistant Guanaco 한국어 \| 48 \|
	\| `HuggingFaceH4/ultrachat_200k` \| 100K~1M \| 🇬🇧 \| 고품질 대화 (영어, 번역 가치) \| 33,729 \|
	\| `kyujinpy/KOpen-platypus` \| ~25K \| 🇰🇷🇬🇧 \| Platypus 한국어 \| 306 \|

	### Tier 3 — 참고용 (노이즈 가능성, 추가 필터링 필요)

	\| 데이터셋 \| 크기 \| 언어 \| 설명 \| DL \|
	\|----------\|------\|------\|------\|-----\|
	\| `CarrotAI/ko-instruction-dataset` \| 1K~10K \| 🇰🇷 \| 소규모 \| 71 \|
	\| `CarrotAI/ko-code-alpaca-QA` \| 소규모 \| 🇰🇷 \| 코드 QA \| 71 \|
	\| `causal-lm/instructions-ko` \| 불명 \| 🇰🇷 \| \| 21 \|
	\| `junelee/sharegpt_deepl_ko` \| ~수만 \| 🇰🇷 \| DeepL 번역 \| 86 \|
	\| `neuralfoundry-coder/aihub-korean-education-instruct-sample` \| 샘플 \| 🇰🇷 \| 교육 도메인 \| 32 \|
	\| `neuralfoundry-coder/korean-legal-instruction-sample` \| 샘플 \| 🇰🇷 \| 법률 도메인 \| 30 \|

	### 영어 대규모 (번역 파이프라인으로 활용 가능)

	\| 데이터셋 \| 크기 \| 설명 \| DL \|
	\|----------\|------\|------\|-----\|
	\| `Open-Orca/OpenOrca` \| ~4M \| FLAN 기반 대규모 \| - \|
	\| `teknium/OpenHermes-2.5` \| ~1M \| 고품질 혼합 \| - \|
	\| `WizardLM/WizardLM_evol_instruct_V2_196k` \| 196K \| Evol Instruct \| - \|
	\| `stingning/ultrachat` \| 1M~10M \| 대화형 \| 2,838 \|
	\| `iamtarun/python_code_instructions_18k_alpaca` \| 18K \| 코드 \| 6,499 \|
	\| `sahil2801/CodeAlpaca-20k` \| 20K \| 코드 \| 12,060 \|

	---

	## 3. 도메인 커버리지 분석

	### 현재 데이터 (161K) 추정 도메인 분포

	데이터에 `source` 필드가 없어 정확한 분석 불가. 데이터 내용 샘플링 기반 추정:

	\| 도메인 \| 추정 비율 \| 상태 \|
	\|--------\|----------\|------\|
	\| 일반 지식/QA \| ~40% \| ✅ 충분 \|
	\| 번역체 대화 \| ~25% \| ✅ 충분 \|
	\| 창작/글쓰기 \| ~15% \| ⚠️ 보통 \|
	\| 코딩 \| ~5% \| ❌ 부족 \|
	\| 수학/과학 \| ~5% \| ❌ 부족 \|
	\| 한국어 특화 (문화/역사/법률) \| ~5% \| ❌ 부족 \|
	\| 롤플레이/페르소나 \| ~5% \| ⚠️ 보통 \|

	### 도메인 갭 (부족한 영역)

	1. 수학/논리 추론 — 현재 거의 없음. `kuotient/orca-math-word-problems-193k-korean` (193K)로 즉시 보완 가능
	2. 코딩 — 한국어 코드 instruction 극소. `nayohan/Evol-Instruct-Code-80k-v1-ko` (80K) 활용 필요
	3. 한국어 특화 지식 — 한국 문화, 역사, 법률, 수능 등 도메인 특화 데이터 부족
	4. 멀티턴 대화 — 싱글턴 QA 위주. `dbdu/ShareGPT-74k-ko`, `ultrachat_200k` 번역으로 보완
	5. Safety/거절 응답 — 유해 요청 거절 학습 데이터 부재

	---

	## 4. 즉시 다운로드 권장 Top 5

	### 🥇 1. `kuotient/orca-math-word-problems-193k-korean`
	- 크기: ~193K
	- 이유: 수학 도메인 완전 보완. 한국어 네이티브 번역. 대규모.
	- 품질: Tier 1-2 (Orca Math 기반, 검증됨)
	- 우선도: ★★★★★

	### 🥈 2. `dbdu/ShareGPT-74k-ko`
	- 크기: ~74K
	- 이유: 실제 ChatGPT 대화 기반 멀티턴. 다양한 도메인. 번역 품질 양호.
	- 품질: Tier 1 (실사용자 대화 기반)
	- 우선도: ★★★★★

	### 🥉 3. `nayohan/Evol-Instruct-Code-80k-v1-ko`
	- 크기: ~80K
	- 이유: 코딩 도메인 유일한 대규모 한국어 데이터. WizardCoder 기반.
	- 품질: Tier 2
	- 우선도: ★★★★☆

	### 4️⃣ 4. `nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k`
	- 크기: ~196K
	- 이유: Evol Instruct로 난이도 다양. 복잡한 instruction 포함. 대규모.
	- 품질: Tier 2
	- 우선도: ★★★★☆

	### 5️⃣ 5. `FreedomIntelligence/alpaca-gpt4-korean`
	- 크기: ~52K
	- 이유: GPT-4 생성으로 응답 품질 높음. 기존 Alpaca 데이터와 상보적.
	- 품질: Tier 1
	- 우선도: ★★★☆☆

	---

	## 5. 추가 권장 사항

	### 즉시 조치
	1. 현재 `train.jsonl`에 `source` 필드 추가 (역추적 or 향후 데이터부터)
	2. Top 5 데이터셋 다운로드 → 중복 제거 → `source` 태깅 후 병합
	3. 예상 추가 데이터: ~595K (193K + 74K + 80K + 196K + 52K)
	4. 병합 후 총 규모: ~757K (현재 162K + 595K)

	### 중기 계획
	- `nayohan/instruction_en_ko_translation_1.4m` — 1.4M 대규모이나 품질 검증 필요
	- `squarelike/OpenOrca-gugugo-ko` — 초대규모(10M+)이나 노이즈 필터링 필수
	- `allenai/tulu-3-sft-mixture` — 다국어 포함, 한국어 부분 추출 가치
	- Safety 데이터 자체 구축 (유해 요청 거절 시나리오)

	### 도메인 특화 보강
	- 법률: `neuralfoundry-coder/korean-legal-instruction-sample` (샘플만 공개, AI Hub 원본 확인 필요)
	- 교육: `neuralfoundry-coder/aihub-korean-education-instruct-sample`
	- 의료: `squarelike/ko_medical_chat` (25 DL, 소규모)

	---

	## 6. 404 (삭제/비공개) 데이터셋

	다음 데이터셋은 현재 접근 불가:
	- `Bingsu/ko-alpaca-cleaned` ❌
	- `naver-clova-ix/koco-v1-5` (별도 확인 필요)
	- `kuotient/korean-conversation-dataset` (별도 확인 필요)
	- `HAERAE-HUB/K2-Bench-Instruction` ❌
	- `nayohan/llama3-instruct-ko` ❌
	- `Bongseok/Kor-Platypus2` ❌
	- `kuotient/orca-math-word-problems-korean` ❌ (→ `orca-math-word-problems-193k-korean`이 정확한 이름)
	- `kyujinpy/Kor-Platypus2-T70k` ❌
	- `HAERAE-HUB/qarv-instruct-100k` ❌