ํ๊ตญ์ด SFT/Instruction ๋ฐ์ดํฐ์ ์ ์ ์กฐ์ฌ
์กฐ์ฌ์ผ: 2026-02-27 ์กฐ์ฌ ๋ฒ์: HuggingFace Hub ํ๊ตญ์ด SFT/Instruction ๋ฐ์ดํฐ์
1. ํ์ฌ SFT ๋ฐ์ดํฐ ํํฉ
| ํญ๋ชฉ | ๊ฐ |
|---|---|
| ํ์ผ | /PROJECT/.../data/sft/train.jsonl |
| ์ด ๊ฑด์ | 161,848 |
| ํฌ๋งท | instruction / input / output (Alpaca ํ์) |
| ์์ค ํ๋ | โ ์์ (source ํค ๋ฏธ์กด์ฌ) |
โ ๏ธ ์์ค ์ถ์ ์ด ๋ถ๊ฐ๋ฅํ์ฌ ์ค๋ณต/์ถ์ฒ ๊ฒ์ฆ์ด ์ด๋ ค์. ํฅํ ๋ฐ์ดํฐ ์ถ๊ฐ ์
sourceํ๋ ํ์ ๊ถ์ฅ.
2. HuggingFace ํ๊ตญ์ด SFT ๋ฐ์ดํฐ์ ๋ชฉ๋ก
Tier 1 โ ์ต๊ณ ํ์ง (์ธ๊ฐ ์์ฑ / ๊ฐ๋ ฅ ํํฐ๋ง / GPT-4 ์์ฑ+๊ฒ์ฆ)
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ | ์ธ์ด | ์ค๋ช | DL |
|---|---|---|---|---|
nlpai-lab/kullm-v2 |
10K~100K | ๐ฐ๐ท | GPT-4 ๊ธฐ๋ฐ ํ๊ตญ์ด instruction, ์ปค๋ฎค๋ํฐ ๊ฒ์ฆ | 730 |
FreedomIntelligence/alpaca-gpt4-korean |
~52K | ๐ฐ๐ท | GPT-4๋ก ์์ฑํ ํ๊ตญ์ด Alpaca | 158 |
dbdu/ShareGPT-74k-ko |
10K~100K | ๐ฐ๐ท | ShareGPT ํ๊ตญ์ด ๋ฒ์ญ, ๋ฉํฐํด ๋ํ | 169 |
squarelike/sharegpt_deepl_ko_translation |
~50K+ | ๐ฐ๐ท | ShareGPT DeepL ๋ฒ์ญ, ๊ณ ํ์ง ๋ฒ์ญ์ฒด | 41 |
kuotient/orca-math-word-problems-193k-korean |
100K~1M | ๐ฐ๐ท | ์ํ ๋ฌธ์ ํ๊ตญ์ด ๋ฒ์ญ, ๋๊ท๋ชจ | 396 |
HuggingFaceH4/no_robots |
~10K | ๐ฌ๐ง | ์ธ๊ฐ ์์ฑ ๊ณ ํ์ง (์์ด, ๋ฒ์ญ ๊ฐ์น ๋์) | 5,211 |
allenai/tulu-3-sft-mixture |
100K~1M | ๋ค๊ตญ์ด | Allen AI ์ต์ SFT ๋ฏน์ค, ๊ณ ํ์ง ํ๋ ์ด์ | 22,453 |
HAERAE-HUB/K2-Feedback |
~์์ฒ | ๐ฐ๐ท | ํ๊ตญ์ด ํ๊ฐ/ํผ๋๋ฐฑ ๋ฐ์ดํฐ | 54 |
Tier 2 โ ์ค๊ฐ ํ์ง (GPT-3.5/4 ์์ฑ, ๋ถ๋ถ ๊ฒ์ฆ)
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ | ์ธ์ด | ์ค๋ช | DL |
|---|---|---|---|---|
beomi/KoAlpaca-v1.1a |
~52K | ๐ฐ๐ท | ํ๊ตญ์ด Alpaca, ๋๋ฆฌ ์ฌ์ฉ | 3,096 |
kyujinpy/KOR-OpenOrca-Platypus-v3 |
10K~50K | ๐ฐ๐ท | OpenOrca+Platypus ํ๊ตญ์ด ๋ณํฉ | 612 |
kyujinpy/OpenOrca-KO |
10K~50K | ๐ฐ๐ท | OpenOrca ํ๊ตญ์ด ๋ฒ์ญ | 139 |
squarelike/OpenOrca-gugugo-ko |
10M~100M | ๐ฐ๐ท | ์ด๋๊ท๋ชจ OpenOrca ํ๊ตญ์ด ๋ฒ์ญ | 82 |
nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k |
~196K | ๐ฐ๐ท | WizardLM Evol Instruct ํ๊ตญ์ด | 20 |
heegyu/open-korean-instructions |
๋ค์ | ๐ฐ๐ท | ์ฌ๋ฌ ํ๊ตญ์ด instruction ํตํฉ | 214 |
nayohan/instruction_en_ko_translation_1.4m |
1.4M | ๐ฐ๐ท | ๋๊ท๋ชจ ์โํ instruction ๋ฒ์ญ | 11 |
nayohan/Evol-Instruct-Code-80k-v1-ko |
~80K | ๐ฐ๐ท | ์ฝ๋ instruction ํ๊ตญ์ด | 23 |
changpt/ko-lima-vicuna |
<1K | ๐ฐ๐ท | LIMA+Vicuna ํ๊ตญ์ด (์๋ ๊ณ ํ์ง) | 43 |
OpenLab-NLP/tiny-instruct-ko |
~์๋ง | ๐ฐ๐ท | ํ๊ตญ์ด instruction ์๊ท๋ชจ | 127 |
nlpai-lab/openassistant-guanaco-ko |
1K~10K | ๐ฐ๐ท | OpenAssistant Guanaco ํ๊ตญ์ด | 48 |
HuggingFaceH4/ultrachat_200k |
100K~1M | ๐ฌ๐ง | ๊ณ ํ์ง ๋ํ (์์ด, ๋ฒ์ญ ๊ฐ์น) | 33,729 |
kyujinpy/KOpen-platypus |
~25K | ๐ฐ๐ท๐ฌ๐ง | Platypus ํ๊ตญ์ด | 306 |
Tier 3 โ ์ฐธ๊ณ ์ฉ (๋ ธ์ด์ฆ ๊ฐ๋ฅ์ฑ, ์ถ๊ฐ ํํฐ๋ง ํ์)
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ | ์ธ์ด | ์ค๋ช | DL |
|---|---|---|---|---|
CarrotAI/ko-instruction-dataset |
1K~10K | ๐ฐ๐ท | ์๊ท๋ชจ | 71 |
CarrotAI/ko-code-alpaca-QA |
์๊ท๋ชจ | ๐ฐ๐ท | ์ฝ๋ QA | 71 |
causal-lm/instructions-ko |
๋ถ๋ช | ๐ฐ๐ท | 21 | |
junelee/sharegpt_deepl_ko |
~์๋ง | ๐ฐ๐ท | DeepL ๋ฒ์ญ | 86 |
neuralfoundry-coder/aihub-korean-education-instruct-sample |
์ํ | ๐ฐ๐ท | ๊ต์ก ๋๋ฉ์ธ | 32 |
neuralfoundry-coder/korean-legal-instruction-sample |
์ํ | ๐ฐ๐ท | ๋ฒ๋ฅ ๋๋ฉ์ธ | 30 |
์์ด ๋๊ท๋ชจ (๋ฒ์ญ ํ์ดํ๋ผ์ธ์ผ๋ก ํ์ฉ ๊ฐ๋ฅ)
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ | ์ค๋ช | DL |
|---|---|---|---|
Open-Orca/OpenOrca |
~4M | FLAN ๊ธฐ๋ฐ ๋๊ท๋ชจ | - |
teknium/OpenHermes-2.5 |
~1M | ๊ณ ํ์ง ํผํฉ | - |
WizardLM/WizardLM_evol_instruct_V2_196k |
196K | Evol Instruct | - |
stingning/ultrachat |
1M~10M | ๋ํํ | 2,838 |
iamtarun/python_code_instructions_18k_alpaca |
18K | ์ฝ๋ | 6,499 |
sahil2801/CodeAlpaca-20k |
20K | ์ฝ๋ | 12,060 |
3. ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง ๋ถ์
ํ์ฌ ๋ฐ์ดํฐ (161K) ์ถ์ ๋๋ฉ์ธ ๋ถํฌ
๋ฐ์ดํฐ์ source ํ๋๊ฐ ์์ด ์ ํํ ๋ถ์ ๋ถ๊ฐ. ๋ฐ์ดํฐ ๋ด์ฉ ์ํ๋ง ๊ธฐ๋ฐ ์ถ์ :
| ๋๋ฉ์ธ | ์ถ์ ๋น์จ | ์ํ |
|---|---|---|
| ์ผ๋ฐ ์ง์/QA | ~40% | โ ์ถฉ๋ถ |
| ๋ฒ์ญ์ฒด ๋ํ | ~25% | โ ์ถฉ๋ถ |
| ์ฐฝ์/๊ธ์ฐ๊ธฐ | ~15% | โ ๏ธ ๋ณดํต |
| ์ฝ๋ฉ | ~5% | โ ๋ถ์กฑ |
| ์ํ/๊ณผํ | ~5% | โ ๋ถ์กฑ |
| ํ๊ตญ์ด ํนํ (๋ฌธํ/์ญ์ฌ/๋ฒ๋ฅ ) | ~5% | โ ๋ถ์กฑ |
| ๋กคํ๋ ์ด/ํ๋ฅด์๋ | ~5% | โ ๏ธ ๋ณดํต |
๋๋ฉ์ธ ๊ฐญ (๋ถ์กฑํ ์์ญ)
- ์ํ/๋
ผ๋ฆฌ ์ถ๋ก โ ํ์ฌ ๊ฑฐ์ ์์.
kuotient/orca-math-word-problems-193k-korean(193K)๋ก ์ฆ์ ๋ณด์ ๊ฐ๋ฅ - ์ฝ๋ฉ โ ํ๊ตญ์ด ์ฝ๋ instruction ๊ทน์.
nayohan/Evol-Instruct-Code-80k-v1-ko(80K) ํ์ฉ ํ์ - ํ๊ตญ์ด ํนํ ์ง์ โ ํ๊ตญ ๋ฌธํ, ์ญ์ฌ, ๋ฒ๋ฅ , ์๋ฅ ๋ฑ ๋๋ฉ์ธ ํนํ ๋ฐ์ดํฐ ๋ถ์กฑ
- ๋ฉํฐํด ๋ํ โ ์ฑ๊ธํด QA ์์ฃผ.
dbdu/ShareGPT-74k-ko,ultrachat_200k๋ฒ์ญ์ผ๋ก ๋ณด์ - Safety/๊ฑฐ์ ์๋ต โ ์ ํด ์์ฒญ ๊ฑฐ์ ํ์ต ๋ฐ์ดํฐ ๋ถ์ฌ
4. ์ฆ์ ๋ค์ด๋ก๋ ๊ถ์ฅ Top 5
๐ฅ 1. kuotient/orca-math-word-problems-193k-korean
- ํฌ๊ธฐ: ~193K
- ์ด์ : ์ํ ๋๋ฉ์ธ ์์ ๋ณด์. ํ๊ตญ์ด ๋ค์ดํฐ๋ธ ๋ฒ์ญ. ๋๊ท๋ชจ.
- ํ์ง: Tier 1-2 (Orca Math ๊ธฐ๋ฐ, ๊ฒ์ฆ๋จ)
- ์ฐ์ ๋: โ โ โ โ โ
๐ฅ 2. dbdu/ShareGPT-74k-ko
- ํฌ๊ธฐ: ~74K
- ์ด์ : ์ค์ ChatGPT ๋ํ ๊ธฐ๋ฐ ๋ฉํฐํด. ๋ค์ํ ๋๋ฉ์ธ. ๋ฒ์ญ ํ์ง ์ํธ.
- ํ์ง: Tier 1 (์ค์ฌ์ฉ์ ๋ํ ๊ธฐ๋ฐ)
- ์ฐ์ ๋: โ โ โ โ โ
๐ฅ 3. nayohan/Evol-Instruct-Code-80k-v1-ko
- ํฌ๊ธฐ: ~80K
- ์ด์ : ์ฝ๋ฉ ๋๋ฉ์ธ ์ ์ผํ ๋๊ท๋ชจ ํ๊ตญ์ด ๋ฐ์ดํฐ. WizardCoder ๊ธฐ๋ฐ.
- ํ์ง: Tier 2
- ์ฐ์ ๋: โ โ โ โ โ
4๏ธโฃ 4. nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k
- ํฌ๊ธฐ: ~196K
- ์ด์ : Evol Instruct๋ก ๋์ด๋ ๋ค์. ๋ณต์กํ instruction ํฌํจ. ๋๊ท๋ชจ.
- ํ์ง: Tier 2
- ์ฐ์ ๋: โ โ โ โ โ
5๏ธโฃ 5. FreedomIntelligence/alpaca-gpt4-korean
- ํฌ๊ธฐ: ~52K
- ์ด์ : GPT-4 ์์ฑ์ผ๋ก ์๋ต ํ์ง ๋์. ๊ธฐ์กด Alpaca ๋ฐ์ดํฐ์ ์๋ณด์ .
- ํ์ง: Tier 1
- ์ฐ์ ๋: โ โ โ โโ
5. ์ถ๊ฐ ๊ถ์ฅ ์ฌํญ
์ฆ์ ์กฐ์น
- ํ์ฌ
train.jsonl์sourceํ๋ ์ถ๊ฐ (์ญ์ถ์ or ํฅํ ๋ฐ์ดํฐ๋ถํฐ) - Top 5 ๋ฐ์ดํฐ์
๋ค์ด๋ก๋ โ ์ค๋ณต ์ ๊ฑฐ โ
sourceํ๊น ํ ๋ณํฉ - ์์ ์ถ๊ฐ ๋ฐ์ดํฐ: ~595K (193K + 74K + 80K + 196K + 52K)
- ๋ณํฉ ํ ์ด ๊ท๋ชจ: ~757K (ํ์ฌ 162K + 595K)
์ค๊ธฐ ๊ณํ
nayohan/instruction_en_ko_translation_1.4mโ 1.4M ๋๊ท๋ชจ์ด๋ ํ์ง ๊ฒ์ฆ ํ์squarelike/OpenOrca-gugugo-koโ ์ด๋๊ท๋ชจ(10M+)์ด๋ ๋ ธ์ด์ฆ ํํฐ๋ง ํ์allenai/tulu-3-sft-mixtureโ ๋ค๊ตญ์ด ํฌํจ, ํ๊ตญ์ด ๋ถ๋ถ ์ถ์ถ ๊ฐ์น- Safety ๋ฐ์ดํฐ ์์ฒด ๊ตฌ์ถ (์ ํด ์์ฒญ ๊ฑฐ์ ์๋๋ฆฌ์ค)
๋๋ฉ์ธ ํนํ ๋ณด๊ฐ
- ๋ฒ๋ฅ :
neuralfoundry-coder/korean-legal-instruction-sample(์ํ๋ง ๊ณต๊ฐ, AI Hub ์๋ณธ ํ์ธ ํ์) - ๊ต์ก:
neuralfoundry-coder/aihub-korean-education-instruct-sample - ์๋ฃ:
squarelike/ko_medical_chat(25 DL, ์๊ท๋ชจ)
6. 404 (์ญ์ /๋น๊ณต๊ฐ) ๋ฐ์ดํฐ์
๋ค์ ๋ฐ์ดํฐ์ ์ ํ์ฌ ์ ๊ทผ ๋ถ๊ฐ:
Bingsu/ko-alpaca-cleanedโnaver-clova-ix/koco-v1-5(๋ณ๋ ํ์ธ ํ์)kuotient/korean-conversation-dataset(๋ณ๋ ํ์ธ ํ์)HAERAE-HUB/K2-Bench-Instructionโnayohan/llama3-instruct-koโBongseok/Kor-Platypus2โkuotient/orca-math-word-problems-koreanโ (โorca-math-word-problems-193k-korean์ด ์ ํํ ์ด๋ฆ)kyujinpy/Kor-Platypus2-T70kโHAERAE-HUB/qarv-instruct-100kโ