frankenstallm / source /eval /data_inventory /sft_datasets.md
pathcosmos's picture
Upload folder using huggingface_hub (#29)
5b1ff4d
# 한국어 SFT/Instruction 데이터셋 전수 조사
**조사일**: 2026-02-27
**조사 범위**: HuggingFace Hub 한국어 SFT/Instruction 데이터셋
---
## 1. 현재 SFT 데이터 현황
| 항목 | 값 |
|------|-----|
| 파일 | `/PROJECT/.../data/sft/train.jsonl` |
| 총 건수 | **161,848** |
| 포맷 | `instruction` / `input` / `output` (Alpaca 형식) |
| 소스 필드 | ❌ 없음 (`source` 키 미존재) |
> ⚠️ 소스 추적이 불가능하여 중복/출처 검증이 어려움. 향후 데이터 추가 시 `source` 필드 필수 권장.
---
## 2. HuggingFace 한국어 SFT 데이터셋 목록
### Tier 1 — 최고품질 (인간 작성 / 강력 필터링 / GPT-4 생성+검증)
| 데이터셋 | 크기 | 언어 | 설명 | DL |
|----------|------|------|------|-----|
| `nlpai-lab/kullm-v2` | 10K~100K | 🇰🇷 | GPT-4 기반 한국어 instruction, 커뮤니티 검증 | 730 |
| `FreedomIntelligence/alpaca-gpt4-korean` | ~52K | 🇰🇷 | GPT-4로 생성한 한국어 Alpaca | 158 |
| `dbdu/ShareGPT-74k-ko` | 10K~100K | 🇰🇷 | ShareGPT 한국어 번역, 멀티턴 대화 | 169 |
| `squarelike/sharegpt_deepl_ko_translation` | ~50K+ | 🇰🇷 | ShareGPT DeepL 번역, 고품질 번역체 | 41 |
| `kuotient/orca-math-word-problems-193k-korean` | 100K~1M | 🇰🇷 | 수학 문제 한국어 번역, 대규모 | 396 |
| `HuggingFaceH4/no_robots` | ~10K | 🇬🇧 | 인간 작성 고품질 (영어, 번역 가치 높음) | 5,211 |
| `allenai/tulu-3-sft-mixture` | 100K~1M | 다국어 | Allen AI 최신 SFT 믹스, 고품질 큐레이션 | 22,453 |
| `HAERAE-HUB/K2-Feedback` | ~수천 | 🇰🇷 | 한국어 평가/피드백 데이터 | 54 |
### Tier 2 — 중간 품질 (GPT-3.5/4 생성, 부분 검증)
| 데이터셋 | 크기 | 언어 | 설명 | DL |
|----------|------|------|------|-----|
| `beomi/KoAlpaca-v1.1a` | ~52K | 🇰🇷 | 한국어 Alpaca, 널리 사용 | 3,096 |
| `kyujinpy/KOR-OpenOrca-Platypus-v3` | 10K~50K | 🇰🇷 | OpenOrca+Platypus 한국어 병합 | 612 |
| `kyujinpy/OpenOrca-KO` | 10K~50K | 🇰🇷 | OpenOrca 한국어 번역 | 139 |
| `squarelike/OpenOrca-gugugo-ko` | **10M~100M** | 🇰🇷 | 초대규모 OpenOrca 한국어 번역 | 82 |
| `nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k` | ~196K | 🇰🇷 | WizardLM Evol Instruct 한국어 | 20 |
| `heegyu/open-korean-instructions` | 다양 | 🇰🇷 | 여러 한국어 instruction 통합 | 214 |
| `nayohan/instruction_en_ko_translation_1.4m` | **1.4M** | 🇰🇷 | 대규모 영→한 instruction 번역 | 11 |
| `nayohan/Evol-Instruct-Code-80k-v1-ko` | ~80K | 🇰🇷 | 코드 instruction 한국어 | 23 |
| `changpt/ko-lima-vicuna` | <1K | 🇰🇷 | LIMA+Vicuna 한국어 (소량 고품질) | 43 |
| `OpenLab-NLP/tiny-instruct-ko` | ~수만 | 🇰🇷 | 한국어 instruction 소규모 | 127 |
| `nlpai-lab/openassistant-guanaco-ko` | 1K~10K | 🇰🇷 | OpenAssistant Guanaco 한국어 | 48 |
| `HuggingFaceH4/ultrachat_200k` | 100K~1M | 🇬🇧 | 고품질 대화 (영어, 번역 가치) | 33,729 |
| `kyujinpy/KOpen-platypus` | ~25K | 🇰🇷🇬🇧 | Platypus 한국어 | 306 |
### Tier 3 — 참고용 (노이즈 가능성, 추가 필터링 필요)
| 데이터셋 | 크기 | 언어 | 설명 | DL |
|----------|------|------|------|-----|
| `CarrotAI/ko-instruction-dataset` | 1K~10K | 🇰🇷 | 소규모 | 71 |
| `CarrotAI/ko-code-alpaca-QA` | 소규모 | 🇰🇷 | 코드 QA | 71 |
| `causal-lm/instructions-ko` | 불명 | 🇰🇷 | | 21 |
| `junelee/sharegpt_deepl_ko` | ~수만 | 🇰🇷 | DeepL 번역 | 86 |
| `neuralfoundry-coder/aihub-korean-education-instruct-sample` | 샘플 | 🇰🇷 | 교육 도메인 | 32 |
| `neuralfoundry-coder/korean-legal-instruction-sample` | 샘플 | 🇰🇷 | 법률 도메인 | 30 |
### 영어 대규모 (번역 파이프라인으로 활용 가능)
| 데이터셋 | 크기 | 설명 | DL |
|----------|------|------|-----|
| `Open-Orca/OpenOrca` | ~4M | FLAN 기반 대규모 | - |
| `teknium/OpenHermes-2.5` | ~1M | 고품질 혼합 | - |
| `WizardLM/WizardLM_evol_instruct_V2_196k` | 196K | Evol Instruct | - |
| `stingning/ultrachat` | 1M~10M | 대화형 | 2,838 |
| `iamtarun/python_code_instructions_18k_alpaca` | 18K | 코드 | 6,499 |
| `sahil2801/CodeAlpaca-20k` | 20K | 코드 | 12,060 |
---
## 3. 도메인 커버리지 분석
### 현재 데이터 (161K) 추정 도메인 분포
데이터에 `source` 필드가 없어 정확한 분석 불가. 데이터 내용 샘플링 기반 추정:
| 도메인 | 추정 비율 | 상태 |
|--------|----------|------|
| 일반 지식/QA | ~40% | ✅ 충분 |
| 번역체 대화 | ~25% | ✅ 충분 |
| 창작/글쓰기 | ~15% | ⚠️ 보통 |
| 코딩 | ~5% | ❌ **부족** |
| 수학/과학 | ~5% | ❌ **부족** |
| 한국어 특화 (문화/역사/법률) | ~5% | ❌ **부족** |
| 롤플레이/페르소나 | ~5% | ⚠️ 보통 |
### 도메인 갭 (부족한 영역)
1. **수학/논리 추론** — 현재 거의 없음. `kuotient/orca-math-word-problems-193k-korean` (193K)로 즉시 보완 가능
2. **코딩** — 한국어 코드 instruction 극소. `nayohan/Evol-Instruct-Code-80k-v1-ko` (80K) 활용 필요
3. **한국어 특화 지식** — 한국 문화, 역사, 법률, 수능 등 도메인 특화 데이터 부족
4. **멀티턴 대화** — 싱글턴 QA 위주. `dbdu/ShareGPT-74k-ko`, `ultrachat_200k` 번역으로 보완
5. **Safety/거절 응답** — 유해 요청 거절 학습 데이터 부재
---
## 4. 즉시 다운로드 권장 Top 5
### 🥇 1. `kuotient/orca-math-word-problems-193k-korean`
- **크기**: ~193K
- **이유**: 수학 도메인 완전 보완. 한국어 네이티브 번역. 대규모.
- **품질**: Tier 1-2 (Orca Math 기반, 검증됨)
- **우선도**: ★★★★★
### 🥈 2. `dbdu/ShareGPT-74k-ko`
- **크기**: ~74K
- **이유**: 실제 ChatGPT 대화 기반 멀티턴. 다양한 도메인. 번역 품질 양호.
- **품질**: Tier 1 (실사용자 대화 기반)
- **우선도**: ★★★★★
### 🥉 3. `nayohan/Evol-Instruct-Code-80k-v1-ko`
- **크기**: ~80K
- **이유**: 코딩 도메인 유일한 대규모 한국어 데이터. WizardCoder 기반.
- **품질**: Tier 2
- **우선도**: ★★★★☆
### 4️⃣ 4. `nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k`
- **크기**: ~196K
- **이유**: Evol Instruct로 난이도 다양. 복잡한 instruction 포함. 대규모.
- **품질**: Tier 2
- **우선도**: ★★★★☆
### 5️⃣ 5. `FreedomIntelligence/alpaca-gpt4-korean`
- **크기**: ~52K
- **이유**: GPT-4 생성으로 응답 품질 높음. 기존 Alpaca 데이터와 상보적.
- **품질**: Tier 1
- **우선도**: ★★★☆☆
---
## 5. 추가 권장 사항
### 즉시 조치
1. 현재 `train.jsonl``source` 필드 추가 (역추적 or 향후 데이터부터)
2. Top 5 데이터셋 다운로드 → 중복 제거 → `source` 태깅 후 병합
3. 예상 추가 데이터: **~595K** (193K + 74K + 80K + 196K + 52K)
4. 병합 후 총 규모: **~757K** (현재 162K + 595K)
### 중기 계획
- `nayohan/instruction_en_ko_translation_1.4m` — 1.4M 대규모이나 품질 검증 필요
- `squarelike/OpenOrca-gugugo-ko` — 초대규모(10M+)이나 노이즈 필터링 필수
- `allenai/tulu-3-sft-mixture` — 다국어 포함, 한국어 부분 추출 가치
- Safety 데이터 자체 구축 (유해 요청 거절 시나리오)
### 도메인 특화 보강
- **법률**: `neuralfoundry-coder/korean-legal-instruction-sample` (샘플만 공개, AI Hub 원본 확인 필요)
- **교육**: `neuralfoundry-coder/aihub-korean-education-instruct-sample`
- **의료**: `squarelike/ko_medical_chat` (25 DL, 소규모)
---
## 6. 404 (삭제/비공개) 데이터셋
다음 데이터셋은 현재 접근 불가:
- `Bingsu/ko-alpaca-cleaned`
- `naver-clova-ix/koco-v1-5` (별도 확인 필요)
- `kuotient/korean-conversation-dataset` (별도 확인 필요)
- `HAERAE-HUB/K2-Bench-Instruction`
- `nayohan/llama3-instruct-ko`
- `Bongseok/Kor-Platypus2`
- `kuotient/orca-math-word-problems-korean` ❌ (→ `orca-math-word-problems-193k-korean`이 정확한 이름)
- `kyujinpy/Kor-Platypus2-T70k`
- `HAERAE-HUB/qarv-instruct-100k`