ํ๊ตญ์ด LLM ๋ฐ์ดํฐ ์ข ํฉ ๋ฆฌํฌํธ
์์ฑ: 2026-02-27 | 5๊ฐ subagent ์กฐ์ฌ ๊ฒฐ๊ณผ ํตํฉ
1. ํ์ฌ ๋ณด์ ํํฉ
| ์นดํ ๊ณ ๋ฆฌ | ๋ฐ์ดํฐ์ | ๋์คํฌ | ์ถ์ ํ ํฐ | ํ์ง |
|---|---|---|---|---|
| ๊ต์ก ์น | fineweb2_edu_ko | 234G | ~50B | A |
| ์น ํฌ๋กค | culturax_ko | 60G | ~24B | B+ |
| ์ํ | open_web_math | 26G | ~10B | A |
| ์น ํฌ๋กค | hplt_ko | 23G | ~9B | B |
| ์น ํฌ๋กค | cc100_processed | 19G | ~7B | C+ |
| ์น ํฌ๋กค | cc100_ko | 14G | ~5.5B | C |
| ์น ํฌ๋กค | oscar_ko | 9.2G | ~3.5B | B |
| ๊ต์ก | korean_textbooks | 6.4G | ~1.5B | A |
| ์น | korean_webtext | 4.2G | ~1B | B+ |
| ๋ฐฑ๊ณผ | namuwiki_2023 | 2.9G | ~1B | A- |
| ๊ต์ก | finepdfs_edu_ko | 2.9G | ~0.7B | A- |
| ๋ฐฑ๊ณผ | namuwiki_extracted | 2.2G | ~0.5B | A- |
| ๋ฐฑ๊ณผ | wikipedia_korean | 1.7G | ~0.4B | A |
| ๋ฐฑ๊ณผ | wikipedia_ko_2024 | 1.4G | ~0.3B | A |
| Instruct | kovast | 449M | ~0.1B | B |
| Instruct | evol_instruct_ko | 144M | ~0.03B | B |
| ๋ํ | korean_safe_conv | 51M | ~0.01B | B |
| ํฉ๊ณ | ~410G | ~114B raw |
โ ๏ธ ํ ํฐํ ์๋ฃ
.bin: korean_train.bin(17Gโ8.9B), korean_c4_train(15Gโ7.5B) ๋ฑ ์ค์ ํ์ต ์ฌ์ฉ ~39B
2. ๋ถ์กฑ ๋๋ฉ์ธ ๊ฐญ ๋ถ์
๐ด CRITICAL (์์)
| ๋๋ฉ์ธ | ํํฉ | ์ํฅ |
|---|---|---|
| Preference/DPO | 0๊ฑด | ORPO ํ์ต ๋ถ๊ฐ |
| ๋ฒ๋ฅ /ํ๋ก | 0 | ๋ฒ๋ฅ ์ถ๋ก ๋ถ๊ฐ |
| ์๋ฃ/์ํ | 0 | ํฌ์ค์ผ์ด ์๋ต ๋ถ๊ฐ |
| ์ฝ๋ (ํ๊ตญ์ด ์ฃผ์) | 0 | ์ฝ๋ฉ ์ง์ ์ฝํจ |
| ๋ด์ค/์ธ๋ก | 0 | ์์ฌ ๋งฅ๋ฝ ์ฝํจ |
๐ก WEAK (๋งค์ฐ ๋ถ์กฑ)
| ๋๋ฉ์ธ | ํํฉ | ์ํฅ |
|---|---|---|
| Instruction/SFT | ~0.6G (644MB) | ์ง์ ๋ฐ๋ฅด๊ธฐ ์ฝํจ |
| ๊ธ์ต/๊ฒฝ์ | 0 | ๊ธ์ต ๋๋ฉ์ธ ์๋ต ์ฝํจ |
| ํ์ ๋ ผ๋ฌธ | 0 | ํ์ ์ ๊ธ์ฐ๊ธฐ ์ฝํจ |
| ์์ค/๋ฌธํ | 0 | ์ฐฝ์ ๋ฅ๋ ฅ ์ฝํจ |
3. ์ต๊ณ ํ๋ณด๊ตฐ โ Pretrain ์ฉ (๋ถ์กฑ ๋๋ฉ์ธ ์ฑ์ฐ๊ธฐ)
๐ฅ 1์์: KORMo-Team/korean-web-collection
- ํฌ๊ธฐ:
5080GB /2030B ํ ํฐ - ํน์ง: HF์์ ๊ฐ์ฅ ํฐ ํ๊ตญ์ด ์ ์ฉ ์น ํฌ๋กค. ํ์ฌ ๋ณด์ ๋ฐ์ดํฐ์ ์ค๋ณต ์ ์
- ๋ผ์ด์ ์ค: ๊ณต๊ฐ
- ๋ค์ด๋ก๋:
huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir ./data/korean-web-collection
๐ฅ 2์์: HPLT/HPLT2.0_cleaned (ko)
- ํฌ๊ธฐ: ~30GB / ~12B ํ ํฐ
- ํน์ง: HPLT v1.2 ์ด๋ฏธ ๋ณด์ (23G) โ v2.0์ ๋ ํฌ๊ณ ์ ์ ๋จ. ์ถ๊ฐ ์์ ์ฆ๊ฐ๋ถ ์กด์ฌ
- ๋ผ์ด์ ์ค: ๊ณต๊ฐ
- ๋ค์ด๋ก๋:
python -c "from datasets import load_dataset; ds = load_dataset('HPLT/HPLT2.0_cleaned', 'ko', split='train'); ds.save_to_disk('./data/hplt2-ko')"
๐ฅ 3์์: ๋ฒ๋ฅ ๋๋ฉ์ธ ๋ฌถ์
| ๋ฐ์ดํฐ์ | ํฌ๊ธฐ | ๋ด์ฉ |
|---|---|---|
joonhok-exo-ai/korean_law_open_data_precedents |
~1-2G | ๋ฒ์ ํ๋ก ์ ๋ฌธ |
smhilee/korean-law-dataset |
~1-3G | ๋ฒ๋ น/๋ฒ๋ฅ ํ ์คํธ |
Rootpye/korean-lawdata2 |
~0.5-1G | ๋ฒ๋ฅ ๋ฐ์ดํฐ |
Rootpye/korean-lawdata4 |
~0.5-1G | ๋ฒ๋ฅ ๋ฐ์ดํฐ v4 |
ducut91/korean-constitutional-court-decisions |
~0.5G | ํ๋ฒ์ฌํ์ ๊ฒฐ์ |
- ํฉ๊ณ:
48G /12B ํ ํฐ - ์ ์ค์: ๋ฒ๋ฅ ์ ์์ ๊ณต๋ฐฑ ๋๋ฉ์ธ. ์ ๋ฐํ ํ๊ตญ์ด + ๋ ผ๋ฆฌ ๊ตฌ์กฐ โ pretrain ํ์ง ํฅ์
4์์: mc4 (ko)
- ํฌ๊ธฐ: ~50GB / ~20B ํ ํฐ
- ํน์ง: CulturaX์ ์ผ๋ถ ์ค๋ณต์ด๋ ์๋ณธ mC4 ์ถ๊ฐ ํ ์คํธ ์กด์ฌ
- ๋ผ์ด์ ์ค: ๊ณต๊ฐ
- ๋ค์ด๋ก๋:
python -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('./data/mc4-ko')"
5์์: RedPajama-Data-1T (์ฝ๋+ArXiv)
- ํฌ๊ธฐ: ์ ๋ณ
1520GB /810B ํ ํฐ - ํน์ง: ํ๊ตญ์ด ๋ชจ๋ธ์ด๋ผ๋ ์ฝ๋+๊ณผํ ์์ด ๋ฐ์ดํฐ ํ์ (cross-lingual transfer)
- ์๋ธ์
:
github(์ฝ๋ 5B) +arxiv(๊ณผํ 3B) +book(2B) - ๋ผ์ด์ ์ค: ๊ณต๊ฐ
4. ์ต๊ณ ํ๋ณด๊ตฐ โ SFT ์ฉ
๐ฅ 1: kuotient/orca-math-word-problems-193k-korean
- ํฌ๊ธฐ: 193K ์ํ
- ๋ด์ฉ: ์ํ ๋ฌธ์ ํ๊ตญ์ด, Orca Math ๊ธฐ๋ฐ
- ์: ์ํ ๋๋ฉ์ธ ์์ ๊ณต๋ฐฑ ์ฑ์. ๊ฒ์ฆ๋ ๊ณ ํ์ง
๐ฅ 2: dbdu/ShareGPT-74k-ko
- ํฌ๊ธฐ: 74K ์ํ
- ๋ด์ฉ: ChatGPT ์ค์ฌ์ฉ ๋ํ ๋ฉํฐํด ํ๊ตญ์ด ๋ฒ์ญ
- ์: ์ฑ๊ธํด ํธํฅ์ธ ํ์ฌ ๋ฐ์ดํฐ ๋ณด์, ๋ค์ํ ๋๋ฉ์ธ
๐ฅ 3: nayohan/Evol-Instruct-Code-80k-v1-ko
- ํฌ๊ธฐ: 80K ์ํ
- ๋ด์ฉ: WizardCoder ๊ธฐ๋ฐ ์ฝ๋ฉ instruction ํ๊ตญ์ด
- ์: ์ฝ๋ฉ ๋๋ฉ์ธ ํ์ฌ ~5% โ ๋ํญ ๊ฐํ
4: nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k
- ํฌ๊ธฐ: 196K ์ํ
- ๋ด์ฉ: WizardLM Evol Instruct ํ๊ตญ์ด โ ๋ณต์กํ ์ถ๋ก ํฌํจ
5: FreedomIntelligence/alpaca-gpt4-korean
- ํฌ๊ธฐ: 52K ์ํ
- ๋ด์ฉ: GPT-4 ์์ฑ Alpaca ํ๊ตญ์ด โ ๊ณ ํ์ง ์๋ต
SFT ์ถ๊ฐ ํ ์์: ํ์ฌ 162K + 595K = ~757K (4.7๋ฐฐ ์ฆ๊ฐ)
5. ์ต๊ณ ํ๋ณด๊ตฐ โ Preference/ORPO ์ฉ
๐ฅ 1: jojo0217/korean_rlhf_dataset
- ํฌ๊ธฐ: 100K+ ์
- ๋ด์ฉ: ํ๊ตญ์ด RLHF ์ข ํฉ โ ๊ฐ์ฅ ๋ฒ์ฉ์
- ์ฐ์ ์์: ์ฆ์ ๋ค์ด๋ก๋
๐ฅ 2: maywell/ko_Ultrafeedback_binarized
- ํฌ๊ธฐ: ~60K ์
- ๋ด์ฉ: UltraFeedback ํ๊ตญ์ด ๋ฒ์ญ, binarized (chosen/rejected)
- ์: ์ด๋ฏธ chosen/rejected ํ์์ผ๋ก ORPO ๋ฐ๋ก ์ฌ์ฉ ๊ฐ๋ฅ
๐ฅ 3: nayohan/preference-collection-ko-full
- ํฌ๊ธฐ: 100K+ ์
- ๋ด์ฉ: ํ๊ตญ์ด ์ข ํฉ preference ์ปฌ๋ ์
4: kuotient/orca-math-korean-dpo-pairs
- ํฌ๊ธฐ: 100K+ ์
- ๋ด์ฉ: ์ํ ํนํ DPO ์
ORPO ์ถ์ฒ ์กฐํฉ: jojo0217 + maywell + nayohan = ~260K์ โ ๋ฐ๋ก ์์ ๊ฐ๋ฅ
6. ์ธ๋ถ ์์ค (์ ์ฒญ ํ์)
| ์์ค | ์ถ์ ๋ | ํน์ง |
|---|---|---|
| AI Hub (aihub.or.kr) | ๋ด์ค, ๋ํ, ์๋ฃ, ๋ฒ๋ฅ , ๊ธ์ต ์ ๋ฌธ โ ์น์ธ ํ์, ๋น์์ ์ ๊ฐ๋ฅ | |
| NIKL ๋ชจ๋์ ๋ง๋ญ์น | ๋ฌธ์ด/๊ตฌ์ด ์ฝํผ์ค, ๋น์์ ์ ์ฐ๊ตฌ์ฉ ์ ์ฒญ | |
| ๊ตญ๊ฐ๋ฒ๋ น์ ๋ณด์ผํฐ | ํฌ๋กค๋ง ๊ฐ๋ฅ (๊ณต๊ณต ๋ฐ์ดํฐ) | |
| KCI ํ์ ๋ ผ๋ฌธ | ๋ ผ๋ฌธ ์ด๋ก, API ์ ๊ณต |
7. ๋ค์ด๋ก๋ ์คํ ํ๋ (์ฐ์ ์์์)
cd /PROJECT/0325120031_A/ghong/taketimes/llm-bang
# === Phase 1: Preference (ORPO ์ฆ์ ํ์ฑํ, ์์ฉ๋) ===
python3 -c "
from datasets import load_dataset
import os
out = 'data/preference'
os.makedirs(out, exist_ok=True)
for name in ['jojo0217/korean_rlhf_dataset', 'maywell/ko_Ultrafeedback_binarized', 'nayohan/preference-collection-ko-full', 'kuotient/orca-math-korean-dpo-pairs']:
ds = load_dataset(name, split='train')
ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl')
print(f'โ
{name}: {len(ds)} samples')
" 2>&1 | tee /tmp/preference_dl.log &
# === Phase 2: SFT ๋ณด๊ฐ (๋ํ/์ํ/์ฝ๋) ===
python3 -c "
from datasets import load_dataset
import os
out = 'data/sft_extra'
os.makedirs(out, exist_ok=True)
for name in ['kuotient/orca-math-word-problems-193k-korean','dbdu/ShareGPT-74k-ko','nayohan/Evol-Instruct-Code-80k-v1-ko','nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k','FreedomIntelligence/alpaca-gpt4-korean']:
try:
ds = load_dataset(name, split='train')
ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl')
print(f'โ
{name}: {len(ds)}')
except Exception as e:
print(f'โ {name}: {e}')
" 2>&1 | tee /tmp/sft_extra_dl.log &
# === Phase 3: ๋ฒ๋ฅ Pretrain ๋ณด๊ฐ ===
python3 -c "
from datasets import load_dataset
import os
out = 'data/korean_extra/korean_law'
os.makedirs(out, exist_ok=True)
for name in ['joonhok-exo-ai/korean_law_open_data_precedents','smhilee/korean-law-dataset','Rootpye/korean-lawdata2']:
try:
ds = load_dataset(name, split='train')
ds.to_json(f'{out}/{name.replace(\"/\",\"_\")}.jsonl')
print(f'โ
{name}: {len(ds)}')
except Exception as e:
print(f'โ {name}: {e}')
" 2>&1 | tee /tmp/law_dl.log &
# === Phase 4: ๋์ฉ๋ Pretrain (๋ฐฑ๊ทธ๋ผ์ด๋ ์ฅ์๊ฐ) ===
# mc4 Korean (~50GB)
# python3 -c "from datasets import load_dataset; ds = load_dataset('mc4', 'ko', split='train'); ds.save_to_disk('data/korean_extra/mc4_ko')"
# KORMo Web Collection
# huggingface-cli download KORMo-Team/korean-web-collection --repo-type dataset --local-dir data/korean_extra/korean_web_collection
8. ์ถ๊ฐ ํ ์์ ๋ฐ์ดํฐ ๊ตฌ์ฑ
| ์นดํ ๊ณ ๋ฆฌ | ํ์ฌ ํ ํฐ | ์ถ๊ฐ ํ | ๋น๊ณ |
|---|---|---|---|
| ํ๊ตญ์ด Pretrain | ~39B (ํ ํฐํ) | mc4+KORMo+๋ฒ๋ฅ ์ถ๊ฐ ์ | |
| SFT | 162K | ~757K | 5๊ฐ ์ถ๊ฐ ํ |
| Preference | 0 | ~260K์ | jojo+maywell+nayohan |
| ์ฝ๋/์์ด | ~0.6B | ~10B | RedPajama github+arxiv |
| ๋ฒ๋ฅ | 0 | ๋ฒ๋ฅ ๋ฌถ์ |
Chinchilla minimum (60B) ๋ฌ์ฑ ๊ฐ๋ฅ โ
๋ณด๊ณ ์ ์ ์ฅ: /PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/data_inventory/