๋ฐ์ดํฐ ๊ฐญ ๋ถ์ ๋ณด๊ณ ์
์์ฑ์ผ: 2026-02-27 | ๋ชจ๋ธ: 3B parameter LLM
1. ํ์ฌ ๋ฐ์ดํฐ ์ธ๋ฒคํ ๋ฆฌ
1.1 Pretrain ๋ฐ์ดํฐ (ํ ํฐํ ์๋ฃ .bin)
| ํ์ผ |
ํฌ๊ธฐ |
ํ ํฐ ์ (uint16) |
| korean_train.bin |
17GB |
8.9B |
| korean_c4_train.bin |
15GB |
7.56B |
| korean_namuwiki_train.bin |
2.1GB |
1.08B |
| korean_wiki_train.bin |
500MB |
0.26B |
| train.bin (์์ด) |
1.2GB |
0.60B |
| ํฉ๊ณ (ํ ํฐํ ์๋ฃ) |
|
~18.4B tokens |
โ ๏ธ korean_train.bin์ c4+namuwiki+wiki์ ๋จธ์ง๋ณธ์ผ ๊ฐ๋ฅ์ฑ ๋์ โ ์ค์ ๊ณ ์ ํ ํฐ์ ~9B ์์ค
1.2 ๋ฏธํ ํฐํ ์์ ๋ฐ์ดํฐ (korean_extra/)
| ์์ค |
๋์คํฌ ํฌ๊ธฐ |
์ถ์ ํ ํฐ ์ |
ํ์ง ๋ฑ๊ธ |
| CulturaX ko |
60GB |
~15B |
B+ |
| HPLT ko |
23GB |
~5B |
B |
| cc100 ko |
14GB |
~3.5B |
C+ |
| OSCAR ko |
9.2GB |
~2.3B |
B |
| korean_textbooks |
6.4GB |
~1.5B |
A |
| korean_webtext |
4.2GB |
~1B |
B+ |
| finepdfs_edu_ko |
2.9GB |
~0.7B |
A- |
| namuwiki_extracted |
2.2GB |
~0.5B |
A- |
| wikipedia_korean |
1.7GB |
~0.4B |
A |
| kovast |
449MB |
~0.1B |
B |
| ์๊ณ |
~124GB |
~30B |
|
1.3 SFT ๋ฐ์ดํฐ
- train.jsonl: 161,848 ์ํ (276MB)
- val.jsonl: 8,518 ์ํ (15MB)
- ์์ค: evol_instruct_ko, korean_safe_conv ๋ฑ
1.4 Preference ๋ฐ์ดํฐ
์ดํฉ
| ๋จ๊ณ |
๋ณด์ ๋ |
| Pretrain (ํ ํฐํ) |
~9B tokens |
| Pretrain (๋ฏธ์ฒ๋ฆฌ) |
~30B tokens |
| Pretrain ํฉ๊ณ |
~39B tokens |
| SFT |
170K ์ํ |
| Preference |
0 |
2. 3B ๋ชจ๋ธ ํ์ต ์๊ตฌ๋ vs ํ์ฌ
2.1 Pretrain
| ๊ธฐ์ค |
ํ์ ํ ํฐ |
ํ์ฌ |
๊ฐญ |
์ํ |
| Chinchilla optimal (ร70) |
210B |
39B |
-171B |
๐ด ์ฌ๊ฐ ๋ถ์กฑ |
| Chinchilla minimum (ร20) |
60B |
39B |
-21B |
๐ก ๋ถ์กฑ |
| LLaMA-style (ร33) |
100B |
39B |
-61B |
๐ด ๋ถ์กฑ |
| ์ค์ฉ์ ๋ชฉํ |
60~80B |
39B |
-21~41B |
๐ก |
๊ฒฐ๋ก : ์ต์ ๊ธฐ์ค(60B)์๋ 21B tokens ๋ถ์กฑ. ํ์ค์ ์ผ๋ก 6080B ํ๊ฒ ์ ์ถ๊ฐ 2141B ํ์.
2.2 SFT
| ๊ธฐ์ค |
ํ์๋ |
ํ์ฌ |
๊ฐญ |
์ํ |
| ์ต์ ๊ณ ํ์ง |
50K |
170K |
์ถฉ๋ถ |
๐ข |
| ์
๊ณ ํ์ค |
100~200K |
170K |
์ถฉ๋ถ |
๐ข |
| ๋๋ฉ์ธ ๋ค์์ฑ |
๋ค์ํ ํ์คํฌ |
์ ํ์ |
๋ณด์ ํ์ |
๐ก |
๊ฒฐ๋ก : ์์ ์ผ๋ก ์ถฉ๋ถํ๋ ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง(์ํ, ์ฝ๋, ์ถ๋ก ) ๋ณด๊ฐ ํ์.
2.3 Preference (ORPO/DPO)
| ๊ธฐ์ค |
ํ์๋ |
ํ์ฌ |
๊ฐญ |
์ํ |
| ์ต์ |
5K ์ |
0 |
-5K |
๐ด |
| ์ ์ |
20~60K ์ |
0 |
-60K |
๐ด |
๊ฒฐ๋ก : ์ฌ๊ฐํ ๊ฐญ. ORPO/DPO ํ์ต ์์ฒด๊ฐ ๋ถ๊ฐ๋ฅ.
3. ๊ฒฝ์ ๋ชจ๋ธ ๋๋น ํฌ์ง์
๋
| ๋ชจ๋ธ |
ํ๋ผ๋ฏธํฐ |
Pretrain ํ ํฐ |
์ฐ๋ฆฌ ๋๋น |
| Polyglot-Ko 12.8B |
12.8B |
1.2T |
30ร |
| EXAONE 3.0 |
7.8B |
8T |
200ร |
| HyperCLOVA X |
๋น๊ณต๊ฐ |
์๋ฐฑB~์T |
10~100ร |
| Phi-3 mini 3.8B |
3.8B |
3.3T |
85ร |
| StableLM 3B |
3B |
4T |
100ร |
| ์ฐ๋ฆฌ (๋ชฉํ) |
3B |
60~80B |
๊ธฐ์ค |
๋ถ์:
- ์ฐ๋ฆฌ 60
80B์ ๋ชจ๋ธ ํฌ๊ธฐ ๋๋น Chinchilla minimum์ ์ ์์ค
- ๋ํ ๋ชจ๋ธ๋ค์ 10
100ร ๋ง์ ๋ฐ์ดํฐ ์ฌ์ฉํ์ง๋ง, ๋ชจ๋ธ๋ 240ร ํผ
- 3B์ 60B tokens์ ํฉ๋ฆฌ์ ์ต์์น โ ํ๊ณ์์ 3B๊ธ์ 50~100B์์ ์ข์ ๊ฒฐ๊ณผ
- ํ์ง ํํฐ๋ง + ์ปค๋ฆฌํ๋ผ ํ์ต์ผ๋ก ํจ์จ ๋ณด์ ๊ฐ๋ฅ
4. ๋ฐ์ดํฐ ํ์ง ๋ถ์
ํ์ฌ ํ์ง ๋ถํฌ (์ถ์ ํ ํฐ ๊ธฐ์ค)
A๋ฑ๊ธ (๊ณ ํ์ง): ~3.0B (8%) - wiki, textbooks, finepdfs_edu
B๋ฑ๊ธ (์ํธ): ~24B (61%) - CulturaX, OSCAR, HPLT, webtext
C๋ฑ๊ธ (๋
ธ์ด์ฆ): ~12B (31%) - cc100, ๊ธฐํ ์น ํฌ๋กค๋ง
๋ฌธ์ ์ :
- ๊ณ ํ์ง(A๊ธ) ๋น์ค์ด 8%๋ก ๋งค์ฐ ๋ฎ์
- ์ฝ๋/์ํ/๊ณผํ ๋ฐ์ดํฐ ์ ๋ฌด
- ์์ด ๋ฐ์ดํฐ ๋น์ค ๊ทนํ ์ ์ (0.6B) โ ๋ค๊ตญ์ด ๋ฅ๋ ฅ ๋ถ์กฑ
5. ํต์ฌ ๊ฒฐ๋ก
ํ์ฌ ๋ฐ์ดํฐ๋ก 3B ํ์ต ์ถฉ๋ถํ๊ฐ?
No โ ๋ค์ ์ด์ ๋ก ๋ถ์ถฉ๋ถ:
- Pretrain ํ ํฐ ๋ถ์กฑ (39B vs ์ต์ 60B, 21B ๊ฐญ)
- Preference ๋ฐ์ดํฐ ๋ถ์ฌ (ORPO ํ์ต ๋ถ๊ฐ)
- ์ฝ๋/์ํ ๋ฐ์ดํฐ ์ ๋ฌด (๋ฒ์ฉ ๋ฅ๋ ฅ ์ ํ)
- ๊ณ ํ์ง ๋น์จ ๋ฎ์ (8%)
- ์์ด ๋ฐ์ดํฐ ๋ถ์กฑ (cross-lingual transfer ์ ํ)
๋ถ์กฑํ ๋ฐ์ดํฐ ์ ํ ์์ฝ
| ์ ํ |
์ฌ๊ฐ๋ |
ํ์ ์กฐ์น |
| Pretrain ํ ํฐ |
๐ก ์ค๊ฐ |
+21~41B ํ ํฐ ํ๋ณด |
| ์ฝ๋ ๋ฐ์ดํฐ |
๐ด ์ฌ๊ฐ |
์ฝ๋ ์ฝํผ์ค ์ถ๊ฐ (5~10B) |
| ์ํ/๊ณผํ |
๐ด ์ฌ๊ฐ |
์ ๋ฌธ ์ฝํผ์ค ์ถ๊ฐ (2~5B) |
| ์์ด ๋ฐ์ดํฐ |
๐ก ์ค๊ฐ |
๊ณ ํ์ง ์์ด 10~20B ์ถ๊ฐ |
| Preference |
๐ด ์ฌ๊ฐ |
20K+ ์ ํ๋ณด |
| SFT ๋ค์์ฑ |
๐ก ์ค๊ฐ |
์ฝ๋/์ํ/์ถ๋ก SFT ์ถ๊ฐ |