ํ๊ฐ ๋ณด๊ณ ์ #01 โ Perplexity ๋ถ์
๋ชจ๋ธ: korean_1b_fp8_run1
์์ฑ์ผ: 2026-02-26
ํ๊ฐ ์ ํ: Sliding-window Perplexity (์ฌ๋ผ์ด๋ฉ ์๋์ฐ ํผํ๋ ์ํฐ)
1. ์คํ ์ค์
1.1 ๋ชจ๋ธ ์ํคํ ์ฒ
| ํญ๋ชฉ | ๊ฐ |
|---|---|
| ํ๋ผ๋ฏธํฐ ์ | 1.19B (์ฝ 11.9์ต) |
| ์ดํ ํฌ๊ธฐ (vocab_size) | 64,000 |
| ํ๋ ์ฐจ์ (d_model) | 2,048 |
| ๋ ์ด์ด ์ (n_layers) | 24 |
| ์ดํ ์ ํค๋ ์ (n_heads) | 16 |
| KV ํค๋ ์ (n_kv_heads) | 4 (GQA โ Grouped Query Attention) |
| Positional Encoding | RoPE (Rotary Position Embedding) |
| ํ์ฑํ ํจ์ | SwiGLU |
GQA(Grouped Query Attention)๋ฅผ ์ ์ฉํ์ฌ n_kv_heads=4๋ก ์ค์ ํจ์ผ๋ก์จ KV ์บ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ์ค MHA(Multi-Head Attention) ๋๋น ์ฝ 75% ์ ๊ฐํ์๋ค. d_model=2048, n_layers=24 ๊ตฌ์ฑ์ GPT-3 1.3B ๊ณ์ด์ ์ํคํ ์ฒ ์ค๊ณ์ ์ ์ฌํ๋ฉฐ, ํ๊ตญ์ด ์ ์ฉ ์ดํ ํฌ๊ธฐ 64k๋ฅผ ์ฑํํ์ฌ ํ๊ตญ์ด ํ ํฌ๋์ด์ ํจ์จ์ ๋์๋ค.
1.2 ํ์ต ์ค์
| ํญ๋ชฉ | ๊ฐ |
|---|---|
| ์ด ํ์ต ์คํ | 34,000 steps |
| ์คํจ ์ํฌํฌ ์ | ์ฝ 4 ์ํฌํฌ (Muennighoff 2023 ๊ธฐ์ค ์ต์ ) |
| ์ด ์ฒ๋ฆฌ ํ ํฐ | ~35.6B tokens |
| GPU | 8ร NVIDIA B200 (192GB VRAM each) |
| ์์น ์ ๋ฐ๋ | FP8 (MXFP8BlockScaling) + BF16 autocast |
| ํ์ต๋ฅ (lr) | 2.0e-4 |
| ๋ฐฐ์น ํฌ๊ธฐ (์ ํจ) | 8 GPU ร 8 samples ร 4 accum ร 4096 seq = 1.05M tok/step |
| ์๋ฐ์ | 2,000 steps |
| ์ตํฐ๋ง์ด์ | AdamW |
| ๊ทธ๋๋์ธํธ ํด๋ฆฌํ | 1.0 |
FP8 ํ์ต์ TransformerEngine 2.10์ MXFP8BlockScaling ๋ ์ํผ๋ฅผ ์ฌ์ฉํ์๋ค. B200์ FP8 ์ฐ์ฐ์ ๋ค์ดํฐ๋ธ๋ก ์ง์ํ๋ฏ๋ก, BF16 ๋๋น ์ฝ 2๋ฐฐ์ ์ฐ์ฐ ์ฒ๋ฆฌ๋ ํฅ์์ด ๊ฐ๋ฅํ๋ค. torch.autocast(dtype=torch.bfloat16)์ te.fp8_autocast()๋ฅผ ExitStack์ผ๋ก ์ค์ฒฉํ์ฌ ์์ ์ ์ธ FP8 ํ์ต์ ๊ตฌํํ์๋ค.
1.3 ํ๊ฐ ๋ฐฉ๋ฒ๋ก
ํ๊ฐ ๋ฐฉ๋ฒ: Sliding-window Perplexity (์ฌ๋ผ์ด๋ฉ ์๋์ฐ ํผํ๋ ์ํฐ)
- ์ํ์ค ๊ธธ์ด (seq_len): 2,048 tokens
- ์คํธ๋ผ์ด๋ (stride): 512 tokens
- ์ค์ฒฉ ๋น์จ: 75% (1,536 tokens ์ค์ฒฉ, 512 tokens๋ง ์ ํจ ์์ธก)
์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ ๊ณ ์ ์๋์ฐ ๋ฐฉ์๋ณด๋ค ๋ ์ ํํ PPL ์ธก์ ์ด ๊ฐ๋ฅํ๋ค. ๋ฌธ์ ๊ฒฝ๊ณ์์ ์ปจํ ์คํธ๊ฐ ์ถฉ๋ถํ ์ฃผ์ด์ง ํ์ ์์ธก์ ์ํํ๋ฏ๋ก, ์ด๋ฐ ํ ํฐ์ cold-start ๋ฌธ์ ๋ฅผ ์ํํ๋ค. stride=512 ์ค์ ์ seq_len=2048์ 1/4๋ก, ์ถฉ๋ถํ ์ปจํ ์คํธ ์ค์ฒฉ์ ๋ณด์ฅํ๋ฉด์ ๊ณ์ฐ ๋น์ฉ์ ์ ์ ํ ์กฐ์จํ ๊ฐ์ด๋ค.
1.4 ํ๊ฐ ๋ฐ์ดํฐ์
| ๋ฐ์ดํฐ์ | ์ค๋ช |
|---|---|
korean_val |
4๊ฐ ์์ค ํตํฉ ๊ฒ์ฆ ์ธํธ |
korean_wiki_val |
ํ๊ตญ์ด ์ํค๋ฐฑ๊ณผ ๊ฒ์ฆ ์ธํธ |
korean_c4_val |
Korean C4 (Colossal Clean Crawled Corpus) ๊ฒ์ฆ ์ธํธ |
korean_namuwiki_val |
๋๋ฌด์ํค ๊ฒ์ฆ ์ธํธ |
2. Perplexity ๊ฒฐ๊ณผ
2.1 ๊ฒฐ๊ณผ ํ ์ด๋ธ
| Dataset | PPL | bits/token | ํ๊ฐ ํ ํฐ ์ |
|---|---|---|---|
korean_val (ํตํฉ) |
6.9452 | 2.7960 | 53,512,147 |
korean_wiki_val |
11.6595 | 3.5434 | 1,567,747 |
korean_c4_val |
5.6698 | 2.5033 | 45,445,722 |
korean_namuwiki_val |
25.3436 | 4.6636 | 6,488,957 |
- PPL (Perplexity): ๋ฎ์์๋ก ๋ชจ๋ธ์ด ํด๋น ํ ์คํธ๋ฅผ ๋ ์ ์์ธกํจ์ ์๋ฏธ
- bits/token:
log2(PPL)โ 1 ํ ํฐ์ ์์ธกํ๋ ๋ฐ ํ์ํ ์ ๋ณด๋(๋นํธ). ๋ฎ์์๋ก ์ข์ - ํ๊ฐ ํ ํฐ ์: ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ผ๋ก ์ ํจํ๊ฒ ํ๊ฐ๋ ์ด ํ ํฐ ์
2.2 ๋ฐ์ดํฐ์ ๋ณ ํ ํฐ ๋น์จ
korean_c4_val โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ 84.97% (45,445,722 tokens)
korean_namuwiki_val โโโโโโ 12.13% ( 6,488,957 tokens)
korean_wiki_val โโ 2.93% ( 1,567,747 tokens)
ํตํฉ korean_val์ PPL์ C4๊ฐ ์ ์ฒด ํ๊ฐ ํ ํฐ์ ์ฝ 85%๋ฅผ ์ฐจ์งํ๋ฏ๋ก, C4 PPL(5.67)์ ๊ฐํ๊ฒ ํธํฅ๋ ๊ฐ์ค ํ๊ท ์ผ๋ก ์ดํดํด์ผ ํ๋ค.
3. ๋ถ์ ๋ฐ ํด์
3.1 Korean C4 โ PPL 5.6698 (๊ฐ์ฅ ๋ฎ์)
C4(Colossal Clean Crawled Corpus)๋ Common Crawl์ ํ์ง ํํฐ๋งํ ์ผ๋ฐ ์น ํ ์คํธ ๋ฐ์ดํฐ์ ์ด๋ค.
๋ฎ์ PPL์ ์ฃผ์ ์์ธ:
- ํ์ต ๋ฐ์ดํฐ ๋น์ค: Korean C4๋ ํ์ต ์ฝํผ์ค์์ ๊ฐ์ฅ ํฐ ๋น์ค์ ์ฐจ์งํ๋ค(์ฝ 15M tokens ์ด์). ๋ชจ๋ธ์ด ์ด ๋๋ฉ์ธ์ ํ ์คํธ ๋ถํฌ๋ฅผ ๊ฐ์ฅ ๋ง์ด ํ์ตํ์ฌ ํ๊ฐ ์ธํธ์์ ๋ถํฌ ๊ฐ๊ฒฉ(distribution gap)์ด ์ต์ํ๋๋ค.
- ํ ์คํธ ํจํด์ ์์ธก ๊ฐ๋ฅ์ฑ: ์ผ๋ฐ ์น ๋ฌธ์๋ ๋ด์ค ๊ธฐ์ฌ, ๋ธ๋ก๊ทธ, ์ ํ ์ค๋ช ๋ฑ ๋น๊ต์ ์ ํํ๋ ์์ ํจํด์ ๋ฐ๋ฅธ๋ค. ์ดํ ๋ค์์ฑ๋ณด๋ค ๋ฐ๋ณต์ ํํ์ด ๋ง์ ๋ค์ ํ ํฐ ์์ธก์ด ์๋์ ์ผ๋ก ์ฉ์ดํ๋ค.
- ํํฐ๋ง ํ์ง: C4๋ ๊ณต๊ฒฉ์ ์ธ ํ์ง ํํฐ๋ง(์ธ์ด ๊ฐ์ง, ์ค๋ณต ์ ๊ฑฐ, ์งง์ ๋ฌธ์ฅ ์ ๊ฑฐ ๋ฑ)์ ๊ฑฐ์น ๊ณ ํ์ง ๋ฐ์ดํฐ๋ค. ๋ ธ์ด์ฆ๊ฐ ์ ๊ณ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฏ๋ก ์ธ์ด ๋ชจ๋ธ์ด ํ์ตํ๊ธฐ ์ข์ ๋ถํฌ๋ฅผ ํ์ฑํ๋ค.
- bits/token = 2.50: 1 ํ ํฐ ์์ธก์ ํ๊ท 2.5๋นํธ์ ์ ๋ณด๋์ด ํ์ํ๋ค๋ ๋ป์ผ๋ก, ๋ชจ๋ธ์ด ์ค์ง์ ์ผ๋ก ๋์ ์์ธก ์ ํ๋๋ฅผ ๋ฌ์ฑํ๊ณ ์์์ ์๋ฏธํ๋ค.
3.2 Korean Wikipedia โ PPL 11.6595
์ํค๋ฐฑ๊ณผ๋ ๋ฐฑ๊ณผ์ฌ์ ์ ์์ ๋ฐฉ์์ ๊ณ ํ์ง ํ ์คํธ๋ค.
์ค๊ฐ ์์ค PPL์ ์ฃผ์ ์์ธ:
- ์ฌ์ค ๊ธฐ๋ฐ ๊ณ ์ ๋ช
์ฌ์ ๋ถํ์ค์ฑ: ์ํค๋ฐฑ๊ณผ ํ
์คํธ์๋ ์ธ๋ฌผ๋ช
, ์ง๋ช
, ๋ ์ง, ์์น, ํ์ ์ฉ์ด ๋ฑ ๊ณ ์ ๋ช
์ฌ์ ํน์ ์ ๋ณด๊ฐ ๋ฐ์ง๋์ด ์๋ค. ์ด๋ค์ ๋ฌธ๋ฒ์ ์ผ๋ก๋ ์์ธก ๊ฐ๋ฅํ ์์น์ ์๋๋ผ๋, ์ค์ ๊ฐ์ ๋ค์ ํ ํฐ ์์ธก์ด ์ด๋ ค์ด high-entropy ์์น๋ฅผ ๊ตฌ์ฑํ๋ค.
- ์: "์ด ์ฌ๊ฑด์ ___๋ ์ ๋ฐ์ํ์๋ค" โ ์ฐ๋๋ ๋ฌธ๋ฒ์ ์ผ๋ก ๋ช ์ฌ ์์น์ง๋ง ์ด๋ค ์ซ์์ธ์ง๋ ์์ธก์ด ์ด๋ ค์
- ๋ฌธ์ฒด์ ์ด์ค์ฑ: ์ํค๋ฐฑ๊ณผ๋ ๋ฌธ๋ฒ์ ์ผ๋ก๋ ์ ํํ๋ ๋ฐฑ๊ณผ์ฌ์ ์์ ์ฒด(์์ธก ์ฌ์)์ด์ง๋ง, ๊ฐ๋ณ ํฉํธ(์ฌ์ค)๋ ์์์ (์์ธก ์ด๋ ค์)์ด๋ค. ์ด ๋ ์์ธ์ด ์์๋์ด ์ค๊ฐ ์์ค์ PPL์ ๋ณด์ธ๋ค.
- ๋ฎ์ ํ ํฐ ๋น์จ(2.93%): ์ํค๋ฐฑ๊ณผ ๋ฐ์ดํฐ๊ฐ ํ์ต ์ฝํผ์ค์์ ์ฐจ์งํ๋ ๋น์จ์ด ์๋์ ์ผ๋ก ์์, ๋๋ฉ์ธ ์ ์์ด C4 ๋๋น ๋ถ์กฑํ ์ ์๋ค.
- bits/token = 3.54: C4(2.50) ๋๋น ์ฝ 1๋นํธ ๋ ํ์ํ๋ฉฐ, ์ด๋ ํฉํธ ๊ธฐ๋ฐ ํ ์คํธ์ ๋ณธ์ง์ ๋ถํ์ค์ฑ์ ๋ฐ์ํ๋ค.
3.3 Korean Namuwiki โ PPL 25.3436 (๊ฐ์ฅ ๋์)
๋๋ฌด์ํค๋ ๋ํ๋ฏผ๊ตญ์ ๋น๊ณต์ ์ํค ์ฌ์ดํธ๋ก, ์ผ๋ฐ ์ํค๋ฐฑ๊ณผ์๋ ๋งค์ฐ ๋ค๋ฅธ ํ ์คํธ ํน์ฑ์ ๊ฐ์ง๋ค.
๋์ PPL์ ์ฃผ์ ์์ธ:
- ๋น์ ํ ํ ์คํธ ํฌ๋งท: ๋๋ฌด์ํค๋ ์์ฒด์ ์ธ ๋งํฌ์ ๋ฌธ๋ฒ, ํ, ์ ๊ธฐ(fold), ์ธ์ฉ๊ตฌ ๋ฑ ๋นํ์ค ์์์ด ํผ์ฌํ๋ค. ๋ชจ๋ธ์ด ์ด ํน์ํ ํฌ๋งท ํจํด์ ์ถฉ๋ถํ ํ์ตํ์ง ๋ชปํ์ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
- ๋ฐ, ์ธํฐ๋ท ์ฉ์ด, ์ ์กฐ์ด: ๋๋ฌด์ํค๋ ๋์์ธ์ฌ์ด๋, ํธ์ํฐ ๋ฑ ์ปค๋ฎค๋ํฐ ๋ฌธํ์์ ํ์๋ ๋ฐ, ์์ด, ์ค์๋ง์ด ๋๋ ํฌํจ๋์ด ์๋ค. ์ด๋ฌํ ์ธ์ด๋ ํ์ค ํ๊ตญ์ด ๋ง๋ญ์น์์ ๋ฑ์ฅ ๋น๋๊ฐ ๋ฎ์ ๋ชจ๋ธ์ด ์์ธกํ๊ธฐ ์ด๋ ต๋ค.
- ํฌ ๋ฌธํ ๋ฐ ์๋ธ์ปฌ์ฒ ์ฝํ ์ธ : ์ ๋๋ฉ์ด์ , ๊ฒ์, ์์ด๋ ๋ฑ ๋งค์ฐ ํนํ๋ ๋๋ฉ์ธ ์ง์์ด ๋ง๋ค. ๊ณ ์ ๋ช ์ฌ(์บ๋ฆญํฐ๋ช , ์ํ๋ช ๋ฑ)์ ๋ฐ๋๊ฐ ๋์ next-token prediction ๋์ด๋๊ฐ ๋๋ค.
- ํน์๋ฌธ์ ๋ฐ ํผํฉ ์ธ์ด: ์์ด, ์ผ๋ณธ์ด, ํน์๋ฌธ์๊ฐ ํ๊ตญ์ด์ ํผ์ฌํ์ฌ ํ ํฌ๋์ด์ ์ฒ๋ฆฌ์ ๋ชจ๋ธ ์์ธก ๋ชจ๋ ๋ณต์กํด์ง๋ค.
- ํ์ต ๋ฐ์ดํฐ์์์ ์๋์ ๋ฎ์ ๋น์ค: ์ ์ฒด ํ์ต ๋ฐ์ดํฐ์์ ๋๋ฌด์ํค์ ๋น์จ์ด ๋ฎ์ ๊ฒฝ์ฐ, ์ด ๋๋ฉ์ธ์ ๋ํ ๋๋ฉ์ธ ์ ์์ด ๋ถ์กฑํ์ฌ PPL์ด ๋๊ฒ ๋ํ๋๋ค.
- bits/token = 4.66: 1 ํ ํฐ ์์ธก์ ํ๊ท 4.66๋นํธ๊ฐ ํ์ํ์ฌ, ๋ชจ๋ธ ์ ์ฅ์์ ๋๋ฌด์ํค ํ ์คํธ๋ ์๋นํ ๋ถํ์คํ ๋๋ฉ์ธ์์ ๋ํ๋ธ๋ค.
3.4 Korean Val (ํตํฉ) โ PPL 6.9452
ํตํฉ ๊ฒ์ฆ ์ธํธ์ PPL์ ๊ฐ ์์ค ๋ฐ์ดํฐ์ ์ ํ ํฐ ์ ๊ฐ์ค ํ๊ท ์ ๊ฐ๊น๊ฒ ํ์ฑ๋๋ค.
ํตํฉ PPL ๊ณ์ฐ ๊ทผ๊ฑฐ:
์ ์ฒด 53.5M ํ ํฐ ์ค C4๊ฐ 45.4M(84.97%)์ ์ฐจ์งํ๋ฏ๋ก, ํตํฉ PPL์ C4 PPL(5.67)์ ๊ฐํ๊ฒ ํธํฅ๋๋ค. ๋๋ฌด์ํค(12.13%, PPL 25.34)์ ์ํค(2.93%, PPL 11.66)์ ๊ธฐ์ฌ๋ก ํตํฉ PPL์ด C4 PPL๋ณด๋ค ๋ค์ ๋์ 6.95 ์์ค์ด ๋๋ค.
๋ก๊ทธ ๊ณต๊ฐ์์์ ๋จ์ ๊ฐ์ค ํฉ์ฐ์ผ๋ก ์ถ์ :
log(PPL_ํตํฉ) โ 0.8497 ร log(5.67) + 0.1213 ร log(25.34) + 0.0293 ร log(11.66)
โ 0.8497 ร 1.736 + 0.1213 ร 3.232 + 0.0293 ร 2.456
โ 1.476 + 0.392 + 0.072
โ 1.940 โ exp(1.940) โ 6.96 (์ค์ธก 6.95์ ๊ทผ์ )
์ด ๊ณ์ฐ์ ์ค์ธก๊ฐ 6.9452์ ๋งค์ฐ ์ ์ผ์นํ๋ฉฐ, ํ๊ฐ ํ์ดํ๋ผ์ธ์ ์ผ๊ด์ฑ์ ๊ฒ์ฆํ๋ค.
4. 1B ๋ชจ๋ธ ๊ธฐ์ค ์ ์ PPL ๋ฒ์ ๋น๊ต
4.1 ์์ด ๊ธฐ์ค ๋ ํผ๋ฐ์ค ๋ชจ๋ธ๊ณผ ๋น๊ต
| ๋ชจ๋ธ | ํ๋ผ๋ฏธํฐ | ํ๊ฐ ๋ฐ์ดํฐ | PPL |
|---|---|---|---|
| GPT-2 (OpenAI) | 1.5B | WebText (์์ด) | ~15โ20 |
| OPT-1.3B (Meta) | 1.3B | WikiText-103 (์์ด) | ~14โ16 |
| LLaMA-1 1.3B (Meta) | 1.3B | WikiText-103 (์์ด) | ~9.8 |
| ์ฐ๋ฆฌ ๋ชจ๋ธ | 1.19B | Korean Wiki | 11.66 |
| ์ฐ๋ฆฌ ๋ชจ๋ธ | 1.19B | Korean C4 | 5.67 |
| ์ฐ๋ฆฌ ๋ชจ๋ธ | 1.19B | Korean ํตํฉ | 6.95 |
4.2 ํด์
๊ธ์ ์ ์ ํธ:
- Korean Wiki PPL=11.66์ ๋๊ธ ์์ด ๋ชจ๋ธ(OPT-1.3B ~14โ16)๊ณผ ๋น๊ตํด๋ ๊ฒฝ์๋ ฅ ์๋ ์์ค์ด๋ค. ๋จ, ์ด ๋น๊ต๋ ์ธ์ด, ํ๊ฐ ๋ฐ์ดํฐ์ , ํ ํฌ๋์ด์ ๊ฐ ๋ชจ๋ ๋ค๋ฅด๋ฏ๋ก ์ง์ ๋น๊ต์๋ ์ฃผ์๊ฐ ํ์ํ๋ค.
- Korean C4 PPL=5.67์ ๋งค์ฐ ๋ฎ์ ์์น๋ก, ํ์ต ๋ฐ์ดํฐ์ ์ ์ฌํ ๋๋ฉ์ธ์์ ๋ชจ๋ธ์ด ํจ๊ณผ์ ์ผ๋ก ํ๊ตญ์ด ํจํด์ ํ์ตํ์์ ์์ฌํ๋ค.
- LLaMA-1 1.3B์ WikiText PPL ~9.8๊ณผ ๋น๊ต ์, ์ฐ๋ฆฌ ๋ชจ๋ธ์ Korean Wiki PPL 11.66์ ํฉ๋ฆฌ์ ์ธ ์์ค์ด๋ค.
์ฃผ์์ฌํญ โ ์ง์ ๋น๊ต์ ํ๊ณ:
- ํ ํฌ๋์ด์ ์ฐจ์ด: ํ๊ตญ์ด๋ ๊ต์ฐฉ์ด๋ก, BPE ํ ํฌ๋์ด์ ๊ฐ ํ๊ตญ์ด๋ฅผ ์์ด๋ณด๋ค ๋ ๋ง์ ํ ํฐ์ผ๋ก ๋ถ๋ฆฌํ๋ ๊ฒฝํฅ์ด ์๋ค. ๋์ผํ ํ ์คํธ๋ผ๋ ํ๊ตญ์ด ๋ชจ๋ธ์ PPL์ด ์์ด ๋ชจ๋ธ๋ณด๋ค ๋๊ฑฐ๋ ๋ฎ๊ฒ ๋์ฌ ์ ์์ผ๋ฉฐ, bits/char ๋๋ bits/word ๋จ์ ๋น๊ต๊ฐ ๋ ๊ณต์ ํ๋ค.
- ํ์ต ๋ฐ์ดํฐ ๋ถํฌ: C4 PPL=5.67์ด ํนํ ๋ฎ์ ์ด์ ๋ ํ๊ฐ ๋ฐ์ดํฐ๊ฐ ํ์ต ๋ฐ์ดํฐ์ **๊ฐ์ ์์ค(C4)**์์ ์ถ์ถ๋์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ ๋ชจ๋ธ์ ์ค์ ์ผ๋ฐํ ๋ฅ๋ ฅ๋ณด๋ค ํ์ต-ํ๊ฐ ๋ฐ์ดํฐ์ ๋ถํฌ ์ผ์น์ ๊ธฐ์ธํ๋ค.
- ๋ฐ์ดํฐ ์ค์ผ ์ํ: ์ถฉ๋ถํ ๋ฐ์ดํฐ ์ค๋ณต ์ ๊ฑฐ(deduplication)๊ฐ ์๋ค๋ฉด, ํ๊ฐ ์ธํธ๊ฐ ํ์ต ์ธํธ์ ์ค๋ณต๋ ์ํ์ด ์๋ค. ๊ฒฐ๊ณผ ํด์ ์ ์ด ์ ์ ์ ์ํด์ผ ํ๋ค.
4.3 PPL ๊ฑด๊ฐ ์ง๋จ ์์ฝ
๋๋ฉ์ธ PPL ํ์
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
C4 (์น ํ
์คํธ) 5.67 ๋งค์ฐ ์ํธ โ ํ์ต ๋๋ฉ์ธ๊ณผ ์ผ์น
Wiki (๋ฐฑ๊ณผ์ฌ์ ) 11.66 ์ํธ โ 1B ๊ท๋ชจ ๊ธฐ์ค ๊ฒฝ์๋ ฅ ์์
Namuwiki (์ปค๋ฎค๋ํฐ) 25.34 ๊ฐ์ ํ์ โ ๋๋ฉ์ธ ์ ์ ๋ถ์กฑ
ํตํฉ 6.95 ์ ๋ฐ์ ์ผ๋ก ๊ฑด๊ฐํ ์์ค
์ ๋ฐ์ ์ผ๋ก 1B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ ํ๊ตญ์ด ๋ชจ๋ธ๋ก์ ๊ฑด๊ฐํ PPL ๋ฒ์์ ์ํ๋ค๊ณ ํ๊ฐํ๋ค.
5. ๊ฐ์ ๋ฐฉํฅ
5.1 Namuwiki ๋๋ฉ์ธ ์ฑ๋ฅ ๊ฐ์ (์ฐ์ ์์: ๋์)
๋๋ฌด์ํค PPL(25.34)์ด ๋ค๋ฅธ ๋๋ฉ์ธ ๋๋น ์๋ฑํ ๋๋ค. ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํ ์ ๊ทผ๋ฒ:
- ํ์ต ๋ฐ์ดํฐ ๋น์ค ์กฐ์ : ๋๋ฌด์ํค ๋ฐ์ดํฐ์ ํ์ต ๋ฐ์ดํฐ ๋น์จ์ ๋์ธ๋ค. ํ์ฌ ๋น์ค์ด ๋ฎ์ ๊ฒฝ์ฐ, ๋๋ฌด์ํค ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ฅผ 2โ3๋ฐฐ ์ ์ํ๋งํ๋ ๊ฒ์ ๊ณ ๋ คํ๋ค.
- ๋๋ฉ์ธ ์ ์ ํ์ธํ๋ (Domain Adaptive Pretraining, DAPT): ๊ธฐํ์ต๋ ์ฒดํฌํฌ์ธํธ์์ ๋๋ฌด์ํค ๋ฐ์ดํฐ๋ก ์ถ๊ฐ ์ฌ์ ํ์ต์ ์ํํ๋ค. ์ ์ฒด ์ฌํ์ต ์์ด ํน์ ๋๋ฉ์ธ ์ฑ๋ฅ์ ๋น ๋ฅด๊ฒ ๊ฐ์ ํ ์ ์๋ค.
- ํ ํฌ๋์ด์ ๊ฐ์ : ๋๋ฌด์ํค ํน์ ์ ์ดํ(๋ฐ, ์์ด, ์ ์กฐ์ด)๋ฅผ ์ดํ ์ฌ์ ์ ์ถ๊ฐํ๊ฑฐ๋, ๋๋ฌด์ํค ์ฝํผ์ค๋ฅผ ํฌํจํ์ฌ ํ ํฌ๋์ด์ ๋ฅผ ์ฌํ์ตํ๋ค.
- ๋ฐ์ดํฐ ์ ์ : ๋๋ฌด์ํค์ ๋งํฌ์ ๋ฌธ๋ฒ์ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ๋ ์ฒ ์ ํ ์ ๊ฑฐํ๊ฑฐ๋, ๋งํฌ์ ํจํด์ ์ธ์ํ ์ ์๋๋ก ํน์ ํ ํฐ์ ๋์ ํ๋ค.
5.2 Wiki ๋๋ฉ์ธ ์ฑ๋ฅ ๊ฐ์ (์ฐ์ ์์: ์ค๊ฐ)
Wikipedia PPL(11.66)์ ์ ์ ๋ฒ์์ด์ง๋ง, ์ฌ์ค ์ง์(factual knowledge) ์ฑ๋ฅ ๊ฐ์ ์๋ ๊ทผ๋ณธ์ ํ๊ณ๊ฐ ์๋ค.
- ๋ชจ๋ธ ๊ท๋ชจ ํ๋: ์ฌ์ค ์ง์ ์๊ธฐ ๋ฅ๋ ฅ(memorization capacity)์ ํ๋ผ๋ฏธํฐ ์์ ๋น๋กํ๋ค. 1B โ 3B ๋๋ 7B ๊ท๋ชจ๋ก ํ๋ํ๋ฉด ์ํค PPL์ด ์ ์๋ฏธํ๊ฒ ํ๋ฝํ ๊ฒ์ผ๋ก ์์๋๋ค.
- ์ํค๋ฐฑ๊ณผ ๋ฐ์ดํฐ ์ ์ํ๋ง: ํ์ฌ ์ํค๋ฐฑ๊ณผ๊ฐ ์ ์ฒด ํ๊ฐ ํ ํฐ์ 2.93%์ ๋ถ๊ณผํ ๊ฒ์ฒ๋ผ, ํ์ต ๋ฐ์ดํฐ์์๋ ๋น์ค์ด ๋ฎ์ ๊ฐ๋ฅ์ฑ์ด ์๋ค. ์ํค๋ฐฑ๊ณผ ๋ฐ์ดํฐ๋ฅผ 3โ5๋ฐฐ ์ ์ํ๋งํ๋ฉด ๋๋ฉ์ธ ์ ์์ด ๊ฐ์ ๋๋ค.
- RAG(Retrieval-Augmented Generation) ์ ๊ทผ: ์์ ํ๋ผ๋ฏธํฐ ๊ธฐ์ต ์ธ์ ๊ฒ์ ๊ธฐ๋ฐ ๋ณด๊ฐ์ ํตํด ์ฌ์ค ์ง์ ํ๊ณ๋ฅผ ์ฐํํ๋ ๋ฐฉ๋ฒ๋ ๊ณ ๋ คํ ์ ์๋ค (ํ์ธํ๋ ์ดํ ๋จ๊ณ).
5.3 ์ ๋ฐ์ ์ฑ๋ฅ ๊ฐ์ ๋ฐฉํฅ
- ๋ ๋ง์ ํ ํฐ ํ์ต: ํ์ฌ 34k steps (~35.6B tokens, 4 ์ํฌํฌ). Chinchilla ์ค์ผ์ผ๋ง ๋ฒ์น์ ๋ฐ๋ฅด๋ฉด 1.19B ๋ชจ๋ธ์ ์ต์ ํ์ต ํ ํฐ์ ์ฝ 24B์ด์ง๋ง, ๋ฐ์ดํฐ ๋ค์์ฑ๊ณผ ๋๋ฉ์ธ ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ๋์ด๊ธฐ ์ํด ์ถ๊ฐ ์ฝํผ์ค ํ๋ณด๊ฐ ์ ๋ฆฌํ๋ค.
- Instruction Tuning / RLHF: ์ฌ์ ํ์ต ์๋ฃ ํ ์ง์๋ฌธ ๋ฐ๋ฅด๊ธฐ(instruction following) ๋ฐ์ดํฐ๋ก ํ์ธํ๋ํ๋ฉด ์ค์ ํ์ฉ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋๋ค.
- ํ๊ฐ ๋ฒ์ ํ๋: PPL ์ธ์ KoBEST, KLUE ๋ฑ ํ๊ตญ์ด ๋ค์ด์คํธ๋ฆผ ๋ฒค์น๋งํฌ์์ ์ ์ฑ์ ํ๊ฐ๋ฅผ ์ถ๊ฐํ๋ค. PPL๊ณผ downstream task ์ฑ๋ฅ์ด ํญ์ ์๊ด๊ด๊ณ๋ฅผ ๊ฐ์ง๋ ์์ผ๋ฏ๋ก ๋ค๊ฐ๋ ํ๊ฐ๊ฐ ํ์ํ๋ค.
6. ๊ฒฐ๋ก
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๋ชจ๋ธ | korean_1b_fp8_run1 (1.19B params) |
| ํ์ต ์๋ฃ | 34,000 steps, 8รB200, FP8 |
| ํตํฉ PPL | 6.9452 (bits/token: 2.7960) |
| ์ต๊ณ ์ฑ๋ฅ ๋๋ฉ์ธ | Korean C4 โ PPL 5.6698 |
| ์ต์ ์ฑ๋ฅ ๋๋ฉ์ธ | Korean Namuwiki โ PPL 25.3436 |
| ์ ๋ฐ ํ๊ฐ | 1B ๊ท๋ชจ ํ๊ตญ์ด ๋ชจ๋ธ๋ก์ ๊ฑด๊ฐํ ์์ค |
์ด๋ฒ ํ๊ฐ๋ฅผ ํตํด korean_1b_fp8_run1์ ํ์ต ๋๋ฉ์ธ(C4)์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ฌ์ค ์ง์์ด ํ๋ถํ ์ํค๋ฐฑ๊ณผ ๋๋ฉ์ธ์์๋ ๊ฒฝ์๋ ฅ ์๋ PPL์ ๋ฌ์ฑํ์์์ ํ์ธํ์๋ค. ๋๋ฌด์ํค ๋๋ฉ์ธ์ ๋์ PPL์ ํ์ต ๋ฐ์ดํฐ ๋น์ค ๋ถ์กฑ ๋ฐ ๋๋ฉ์ธ ํน์์ฑ์ ๊ธฐ์ธํ๋ฉฐ, ๋๋ฉ์ธ ์ ์ ์ฌ์ ํ์ต(DAPT)์ ํตํด ๊ฐ์ ๊ฐ๋ฅํ๋ค. ์ ๋ฐ์ ์ผ๋ก FP8 ํ์ต๊ณผ MXFP8BlockScaling ๋ ์ํผ๊ฐ 1B ๊ท๋ชจ ํ๊ตญ์ด ๋ชจ๋ธ ํ์ต์ ์ฑ๊ณต์ ์ผ๋ก ์ ์ฉ๋์์์ ํ์ธํ์๋ค.
์ด ๋ณด๊ณ ์๋ korean_1b_fp8_run1 ์ฒดํฌํฌ์ธํธ์ Sliding-window Perplexity ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ ๋ฌธ์์
๋๋ค.
ํ๊ฐ ํ์ดํ๋ผ์ธ: eval/perplexity.py, ๋ณด๊ณ ์ ์์ฑ์ผ: 2026-02-26