pathcosmos's picture
Upload folder using huggingface_hub (#29)
5b1ff4d
# ๋ฐ์ดํ„ฐ ๊ฐญ ๋ถ„์„ ๋ณด๊ณ ์„œ
> ์ƒ์„ฑ์ผ: 2026-02-27 | ๋ชจ๋ธ: 3B parameter LLM
## 1. ํ˜„์žฌ ๋ฐ์ดํ„ฐ ์ธ๋ฒคํ† ๋ฆฌ
### 1.1 Pretrain ๋ฐ์ดํ„ฐ (ํ† ํฐํ™” ์™„๋ฃŒ .bin)
| ํŒŒ์ผ | ํฌ๊ธฐ | ํ† ํฐ ์ˆ˜ (uint16) |
|------|------|------------------|
| korean_train.bin | 17GB | **8.9B** |
| korean_c4_train.bin | 15GB | 7.56B |
| korean_namuwiki_train.bin | 2.1GB | 1.08B |
| korean_wiki_train.bin | 500MB | 0.26B |
| train.bin (์˜์–ด) | 1.2GB | 0.60B |
| **ํ•ฉ๊ณ„ (ํ† ํฐํ™” ์™„๋ฃŒ)** | | **~18.4B tokens** |
> โš ๏ธ `korean_train.bin`์€ c4+namuwiki+wiki์˜ ๋จธ์ง€๋ณธ์ผ ๊ฐ€๋Šฅ์„ฑ ๋†’์Œ โ†’ ์‹ค์ œ ๊ณ ์œ  ํ† ํฐ์€ **~9B** ์ˆ˜์ค€
### 1.2 ๋ฏธํ† ํฐํ™” ์›์‹œ ๋ฐ์ดํ„ฐ (korean_extra/)
| ์†Œ์Šค | ๋””์Šคํฌ ํฌ๊ธฐ | ์ถ”์ • ํ† ํฐ ์ˆ˜ | ํ’ˆ์งˆ ๋“ฑ๊ธ‰ |
|------|-----------|-------------|---------|
| CulturaX ko | 60GB | ~15B | B+ |
| HPLT ko | 23GB | ~5B | B |
| cc100 ko | 14GB | ~3.5B | C+ |
| OSCAR ko | 9.2GB | ~2.3B | B |
| korean_textbooks | 6.4GB | ~1.5B | A |
| korean_webtext | 4.2GB | ~1B | B+ |
| finepdfs_edu_ko | 2.9GB | ~0.7B | A- |
| namuwiki_extracted | 2.2GB | ~0.5B | A- |
| wikipedia_korean | 1.7GB | ~0.4B | A |
| kovast | 449MB | ~0.1B | B |
| **์†Œ๊ณ„** | **~124GB** | **~30B** | |
### 1.3 SFT ๋ฐ์ดํ„ฐ
- train.jsonl: 161,848 ์ƒ˜ํ”Œ (276MB)
- val.jsonl: 8,518 ์ƒ˜ํ”Œ (15MB)
- ์†Œ์Šค: evol_instruct_ko, korean_safe_conv ๋“ฑ
### 1.4 Preference ๋ฐ์ดํ„ฐ
- **ํ˜„์žฌ ๋ณด์œ : 0** โŒ
### ์ดํ•ฉ
| ๋‹จ๊ณ„ | ๋ณด์œ ๋Ÿ‰ |
|------|--------|
| Pretrain (ํ† ํฐํ™”) | ~9B tokens |
| Pretrain (๋ฏธ์ฒ˜๋ฆฌ) | ~30B tokens |
| **Pretrain ํ•ฉ๊ณ„** | **~39B tokens** |
| SFT | 170K ์ƒ˜ํ”Œ |
| Preference | 0 |
---
## 2. 3B ๋ชจ๋ธ ํ•™์Šต ์š”๊ตฌ๋Ÿ‰ vs ํ˜„์žฌ
### 2.1 Pretrain
| ๊ธฐ์ค€ | ํ•„์š” ํ† ํฐ | ํ˜„์žฌ | ๊ฐญ | ์ƒํƒœ |
|------|----------|------|-----|------|
| Chinchilla optimal (ร—70) | 210B | 39B | -171B | ๐Ÿ”ด ์‹ฌ๊ฐ ๋ถ€์กฑ |
| Chinchilla minimum (ร—20) | 60B | 39B | -21B | ๐ŸŸก ๋ถ€์กฑ |
| LLaMA-style (ร—33) | 100B | 39B | -61B | ๐Ÿ”ด ๋ถ€์กฑ |
| **์‹ค์šฉ์  ๋ชฉํ‘œ** | **60~80B** | **39B** | **-21~41B** | ๐ŸŸก |
**๊ฒฐ๋ก :** ์ตœ์†Œ ๊ธฐ์ค€(60B)์—๋„ **21B tokens ๋ถ€์กฑ**. ํ˜„์‹ค์ ์œผ๋กœ 60~80B ํƒ€๊ฒŸ ์‹œ ์ถ”๊ฐ€ 21~41B ํ•„์š”.
### 2.2 SFT
| ๊ธฐ์ค€ | ํ•„์š”๋Ÿ‰ | ํ˜„์žฌ | ๊ฐญ | ์ƒํƒœ |
|------|--------|------|-----|------|
| ์ตœ์†Œ ๊ณ ํ’ˆ์งˆ | 50K | 170K | ์ถฉ๋ถ„ | ๐ŸŸข |
| ์—…๊ณ„ ํ‘œ์ค€ | 100~200K | 170K | ์ถฉ๋ถ„ | ๐ŸŸข |
| ๋„๋ฉ”์ธ ๋‹ค์–‘์„ฑ | ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ | ์ œํ•œ์  | ๋ณด์™„ ํ•„์š” | ๐ŸŸก |
**๊ฒฐ๋ก :** ์–‘์ ์œผ๋กœ ์ถฉ๋ถ„ํ•˜๋‚˜ ๋„๋ฉ”์ธ ์ปค๋ฒ„๋ฆฌ์ง€(์ˆ˜ํ•™, ์ฝ”๋“œ, ์ถ”๋ก ) ๋ณด๊ฐ• ํ•„์š”.
### 2.3 Preference (ORPO/DPO)
| ๊ธฐ์ค€ | ํ•„์š”๋Ÿ‰ | ํ˜„์žฌ | ๊ฐญ | ์ƒํƒœ |
|------|--------|------|-----|------|
| ์ตœ์†Œ | 5K ์Œ | 0 | -5K | ๐Ÿ”ด |
| ์ ์ • | 20~60K ์Œ | 0 | -60K | ๐Ÿ”ด |
**๊ฒฐ๋ก :** **์‹ฌ๊ฐํ•œ ๊ฐญ**. ORPO/DPO ํ•™์Šต ์ž์ฒด๊ฐ€ ๋ถˆ๊ฐ€๋Šฅ.
---
## 3. ๊ฒฝ์Ÿ ๋ชจ๋ธ ๋Œ€๋น„ ํฌ์ง€์…”๋‹
| ๋ชจ๋ธ | ํŒŒ๋ผ๋ฏธํ„ฐ | Pretrain ํ† ํฐ | ์šฐ๋ฆฌ ๋Œ€๋น„ |
|------|---------|-------------|----------|
| Polyglot-Ko 12.8B | 12.8B | 1.2T | 30ร— |
| EXAONE 3.0 | 7.8B | 8T | 200ร— |
| HyperCLOVA X | ๋น„๊ณต๊ฐœ | ์ˆ˜๋ฐฑB~์ˆ˜T | 10~100ร— |
| Phi-3 mini 3.8B | 3.8B | 3.3T | 85ร— |
| StableLM 3B | 3B | 4T | 100ร— |
| **์šฐ๋ฆฌ (๋ชฉํ‘œ)** | **3B** | **60~80B** | **๊ธฐ์ค€** |
**๋ถ„์„:**
- ์šฐ๋ฆฌ 60~80B์€ ๋ชจ๋ธ ํฌ๊ธฐ ๋Œ€๋น„ Chinchilla minimum~์ ์ • ์ˆ˜์ค€
- ๋Œ€ํ˜• ๋ชจ๋ธ๋“ค์€ 10~100ร— ๋งŽ์€ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ๋ชจ๋ธ๋„ 2~40ร— ํผ
- **3B์— 60B tokens์€ ํ•ฉ๋ฆฌ์  ์ตœ์†Œ์น˜** โ€” ํ•™๊ณ„์—์„œ 3B๊ธ‰์€ 50~100B์—์„œ ์ข‹์€ ๊ฒฐ๊ณผ
- ํ’ˆ์งˆ ํ•„ํ„ฐ๋ง + ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต์œผ๋กœ ํšจ์œจ ๋ณด์™„ ๊ฐ€๋Šฅ
---
## 4. ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ ๋ถ„์„
### ํ˜„์žฌ ํ’ˆ์งˆ ๋ถ„ํฌ (์ถ”์ • ํ† ํฐ ๊ธฐ์ค€)
```
A๋“ฑ๊ธ‰ (๊ณ ํ’ˆ์งˆ): ~3.0B (8%) - wiki, textbooks, finepdfs_edu
B๋“ฑ๊ธ‰ (์–‘ํ˜ธ): ~24B (61%) - CulturaX, OSCAR, HPLT, webtext
C๋“ฑ๊ธ‰ (๋…ธ์ด์ฆˆ): ~12B (31%) - cc100, ๊ธฐํƒ€ ์›น ํฌ๋กค๋ง
```
**๋ฌธ์ œ์ :**
- ๊ณ ํ’ˆ์งˆ(A๊ธ‰) ๋น„์ค‘์ด **8%๋กœ ๋งค์šฐ ๋‚ฎ์Œ**
- ์ฝ”๋“œ/์ˆ˜ํ•™/๊ณผํ•™ ๋ฐ์ดํ„ฐ **์ „๋ฌด**
- ์˜์–ด ๋ฐ์ดํ„ฐ ๋น„์ค‘ ๊ทนํžˆ ์ ์Œ (0.6B) โ€” ๋‹ค๊ตญ์–ด ๋Šฅ๋ ฅ ๋ถ€์กฑ
---
## 5. ํ•ต์‹ฌ ๊ฒฐ๋ก 
### ํ˜„์žฌ ๋ฐ์ดํ„ฐ๋กœ 3B ํ•™์Šต ์ถฉ๋ถ„ํ•œ๊ฐ€?
## **No** โ€” ๋‹ค์Œ ์ด์œ ๋กœ ๋ถˆ์ถฉ๋ถ„:
1. **Pretrain ํ† ํฐ ๋ถ€์กฑ** (39B vs ์ตœ์†Œ 60B, 21B ๊ฐญ)
2. **Preference ๋ฐ์ดํ„ฐ ๋ถ€์žฌ** (ORPO ํ•™์Šต ๋ถˆ๊ฐ€)
3. **์ฝ”๋“œ/์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ ์ „๋ฌด** (๋ฒ”์šฉ ๋Šฅ๋ ฅ ์ œํ•œ)
4. **๊ณ ํ’ˆ์งˆ ๋น„์œจ ๋‚ฎ์Œ** (8%)
5. **์˜์–ด ๋ฐ์ดํ„ฐ ๋ถ€์กฑ** (cross-lingual transfer ์ œํ•œ)
### ๋ถ€์กฑํ•œ ๋ฐ์ดํ„ฐ ์œ ํ˜• ์š”์•ฝ
| ์œ ํ˜• | ์‹ฌ๊ฐ๋„ | ํ•„์š” ์กฐ์น˜ |
|------|--------|----------|
| Pretrain ํ† ํฐ | ๐ŸŸก ์ค‘๊ฐ„ | +21~41B ํ† ํฐ ํ™•๋ณด |
| ์ฝ”๋“œ ๋ฐ์ดํ„ฐ | ๐Ÿ”ด ์‹ฌ๊ฐ | ์ฝ”๋“œ ์ฝ”ํผ์Šค ์ถ”๊ฐ€ (5~10B) |
| ์ˆ˜ํ•™/๊ณผํ•™ | ๐Ÿ”ด ์‹ฌ๊ฐ | ์ „๋ฌธ ์ฝ”ํผ์Šค ์ถ”๊ฐ€ (2~5B) |
| ์˜์–ด ๋ฐ์ดํ„ฐ | ๐ŸŸก ์ค‘๊ฐ„ | ๊ณ ํ’ˆ์งˆ ์˜์–ด 10~20B ์ถ”๊ฐ€ |
| Preference | ๐Ÿ”ด ์‹ฌ๊ฐ | 20K+ ์Œ ํ™•๋ณด |
| SFT ๋‹ค์–‘์„ฑ | ๐ŸŸก ์ค‘๊ฐ„ | ์ฝ”๋“œ/์ˆ˜ํ•™/์ถ”๋ก  SFT ์ถ”๊ฐ€ |