korean_1b_fp8_run1 ์ข ํฉ ํ๊ฐ ๋ฆฌํฌํธ
ํ๊ฐ ๋ ์ง: 2026-02-26 ํ๊ฐ ํ๊ฒฝ: NVIDIA B200 ร1 (์ถ๋ก ), BF16, ํ๊ฐ ์์ ์๊ฐ ์ฝ 15๋ถ
๋ชจ๋ธ ์ ๋ณด
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๋ชจ๋ธ๋ช | korean_1b_fp8_run1 |
| ํ๋ผ๋ฏธํฐ | 1,189.7M (1.19B) |
| ์ํคํ ์ฒ | Decoder-only Transformer, LLaMA-style |
| vocab_size | 64,000 |
| d_model | 2,048 |
| n_layers | 24 |
| n_heads | 16 |
| n_kv_heads (GQA) | 4 |
| d_ffn | 5,472 |
| ์์น ์ธ์ฝ๋ฉ | RoPE (theta=500,000) |
| ์ ๊ทํ | RMSNorm |
| ํ์ฑํ ํจ์ | SwiGLU |
| ๊ธฐํ | Weight Tying, FlashAttention-2, TransformerEngine FP8 (MXFP8BlockScaling) |
ํ์ต ์ค์
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ํ์ต ๋จ๊ณ | 34,000 steps |
| GPU ํ๊ฒฝ | 8ร NVIDIA B200 |
| ํ์ต ์ ๋ฐ๋ | FP8 + BF16 ํผํฉ |
| ํ์ต๋ฅ | 2.0e-4 |
| ๋ฐฐ์น ํฌ๊ธฐ | 1.05M tok/step (8GPU ร 8batch ร 4accum ร 4096seq) |
| ์์ | 2,000 steps |
| ํ์ต ๋ฐ์ดํฐ | ํ๊ตญ์ด ์ํค๋ฐฑ๊ณผ + C4 ํ๊ตญ์ด + ๋๋ฌด์ํค (์ด ~8.91B tokens, ~4 ์ํฌํฌ) |
ํต์ฌ ํ๊ฐ ๊ฒฐ๊ณผ ์์ฝ
| ํ๊ฐ ์์ญ | ํต์ฌ ์งํ | ํ์ |
|---|---|---|
| Perplexity (ํตํฉ) | PPL=6.95, bits/tok=2.80 | Good (1B ๊ธฐ์ค) |
| Perplexity (C4) | PPL=5.67, bits/tok=2.50 | Excellent |
| Perplexity (Wiki) | PPL=11.66, bits/tok=3.54 | Acceptable |
| Perplexity (Namuwiki) | PPL=25.34, bits/tok=4.66 | Needs improvement |
| Top-1 Accuracy | 56.18% | Good |
| Top-5 Accuracy | 72.35% | Good |
| Top-10 Accuracy | 77.75% | Good |
| Mean Entropy | 2.24 nats (3.23 bits) | Healthy |
| ์์ฑ ํ์ง | ํ๊ตญ์ด ๋ฌธ๋ฒ ์ํธ, ์ฌ์ค ๋ถ๋ถ์ | Expected for 1B |
| ๋ฐ๋ณต ํดํ | 3/10 degenerate (30%) | Needs mitigation |
| ์ฝ๋/์ํ | ๋งค์ฐ ์ ํ์ | Expected |
์์ธ ๋ฆฌํฌํธ ๋ชฉ๋ก
| ํ์ผ | ๋ด์ฉ |
|---|---|
01_perplexity_report.md |
๋ฐ์ดํฐ ์์ค๋ณ Perplexity ์์ธ ๋ถ์ |
02_generation_report.md |
10๊ฐ ํ๋กฌํํธ ์์ฑ ํ์ง ์์ธ ๋ถ์ |
03_repetition_calibration_report.md |
๋ฐ๋ณต ๋ถ์ + ์บ๋ฆฌ๋ธ๋ ์ด์ ์ ๊ฒ |
04_token_analysis_comparison_report.md |
ํ ํฐ ์์ค NLL ๋ถ์ + ์จ๋๋ณ ๋น๊ต |
Perplexity ๋ถ์ ์์ฝ
๋ฐ์ดํฐ ์์ค๋ณ PPL
C4 ํ๊ตญ์ด (์ผ๋ฐ ์น ํ
์คํธ): PPL = 5.67 bits/tok = 2.50 โ Excellent
์ํค๋ฐฑ๊ณผ: PPL = 11.66 bits/tok = 3.54 โ Acceptable
๋๋ฌด์ํค: PPL = 25.34 bits/tok = 4.66 โ Needs improvement
ํตํฉ (๊ฐ์ค ํ๊ท ): PPL = 6.95 bits/tok = 2.80 โ Good
C4์์์ ๋ฎ์ PPL์ ์ผ์์ ์น ํ ์คํธ ๋ถํฌ์ ์ ์ ์ํ์์ ๋ํ๋ธ๋ค. ์ํค๋ฐฑ๊ณผ PPL์ด ๋๋ฌด์ํค๋ณด๋ค ๋ฎ์ ๊ฒ์ ์ํค๋ฐฑ๊ณผ ํน์ ์ ์ ํํ๋ ๋ฌธ์ฒด๊ฐ ํ์ต ๋ฐ์ดํฐ๋ก ๋ ๋ง์ด ํฌํจ๋์๊ธฐ ๋๋ฌธ์ผ๋ก ํด์๋๋ค. ๋๋ฌด์ํค์ ๋์ PPL์ ๊ตฌ์ด์ฒด, ์์ด, ์ ์กฐ์ด, ํ ํ์ ๋ฑ ๋น์ ํ ํ ์คํธ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ด๋ฉฐ, 1B ๊ท๋ชจ์ ๋ชจ๋ธ์์๋ ์ผ๋ฐ์ ์ธ ๊ฒฐ๊ณผ์ด๋ค.
๋น๊ต ๊ธฐ์ค (์ฐธ๊ณ )
| ๋ชจ๋ธ | ๊ท๋ชจ | ํ๊ตญ์ด PPL (์ฐธ๊ณ ์น) |
|---|---|---|
| GPT-2 Small | 125M | ~30โ40 (์์ด ๊ธฐ์ค) |
| small_fp8_run1 (๋ณธ ํ๋ก์ ํธ) | 125M | ~18โ22 (์ถ์ ) |
| korean_1b_fp8_run1 (๋ณธ ๋ชจ๋ธ) | 1.19B | 6.95 (ํตํฉ) |
| LLaMA-2 7B (ํ๊ตญ์ด ์ ์ ์์) | 7B | โ |
125M โ 1.19B ์ค์ผ์ผ์ ์์ PPL์ด ์ฝ 2.5๋ฐฐ ์ด์ ๊ฐ์ ๋ ์ ์ ์ค์ผ์ผ๋ง ๋ฒ์น(Chinchilla)๊ณผ ์ผ์นํ๋ ๊ฒฐ๊ณผ์ด๋ค.
์์ฑ ํ์ง ๋ถ์ ์์ฝ
10๊ฐ ํ๋กฌํํธ์ ๋ํ greedy decoding ๊ฒฐ๊ณผ ๊ธฐ์ค:
์์ฑ ์ฑ๊ณต ์ฌ๋ก (7/10)
- ์ผ์ ๋ํ / ์ค๋ช ๋ฌธ: ์์ฐ์ค๋ฌ์ด ํ๊ตญ์ด ๋ฌธ์ฅ ๊ตฌ์ฑ, ์กฐ์ฌยท์ด๋ฏธ ์ฒ๋ฆฌ ์์ ์
- ์ฌ์ ์ ์ ์ ์์ฒญ: ๋จ์ด ์ค๋ช ํ์์ ์ ๋ฐ๋ผ๊ฐ๋ ๊ฒฝํฅ
- ๊ฐ๋จํ ๋ชฉ๋ก ์์ฑ: ํญ๋ชฉ ๋์ด ํจํด ํ์
๋ฌธ์ ์ฌ๋ก (3/10)
- ๋ฐ๋ณต ํดํ (Repetition Degeneration): ๊ฐ์ ๊ตฌ์ ์ด ๋ฐ๋ณต๋๋ฉฐ ๋ฌธ์ฅ์ด ์๋ ดํ์ง ์์. Greedy decoding์์ ํนํ ๋ฐ์ํ๊ธฐ ์ฌ์ด ํจํด์ผ๋ก, temperature sampling ๋๋ repetition penalty ์ ์ฉ์ผ๋ก ์ํ ๊ฐ๋ฅ
- ์ฌ์ค ์ค๋ฅ: ์ธ์ข ๋์ ๊ด๋ จ ์ฐ๋, ๊น์น์ฐ๊ฐ ๋ ์ํผ ๋น์จ ๋ฑ์์ ๋ถ์ ํํ ๋ด์ฉ ์์ฑ โ 1B ํ๋ผ๋ฏธํฐ๋ก๋ ์ธ๋ฐํ ์ฌ์ค ๊ธฐ์ต ๋ฅ๋ ฅ์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ ์์๋ ๊ฒฐ๊ณผ
- ์ฝ๋/์ํ: ํ์ด์ฌ ์ฝ๋ ์์ฑ ๋ฐ ์์ ๊ณ์ฐ์์ ๋งค์ฐ ์ ํ์ ์ธ ์ฑ๋ฅ โ ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ์ฝ๋/์ํ ๋ฐ์ดํฐ๊ฐ ํฌํจ๋์ง ์์์ผ๋ฏ๋ก ์์๋ ๊ฒฐ๊ณผ
์บ๋ฆฌ๋ธ๋ ์ด์ ๋ถ์ ์์ฝ
Top-K Accuracy
| K | Accuracy |
|---|---|
| Top-1 | 56.18% |
| Top-5 | 72.35% |
| Top-10 | 77.75% |
Top-1 ์ ํ๋ 56%๋ ์ธ์ด ๋ชจ๋ธ๋ก์ ๊ฑด๊ฐํ ์์ค์ด๋ค. ๋ชจ๋ธ์ด ์ฌ๋ฐ๋ฅธ ๋ค์ ํ ํฐ์ ํ๋ฅ ์์ 1์๋ก ์์ธกํ๋ ๋น์จ์ด 56%๋ผ๋ ๊ฒ์ ๊ณผ๋ํ ํ์ (overconfidence)์ด๋ ๊ณผ์ํ ํ์ (underconfidence) ์์ด ๊ท ํ ์กํ ์์ธก ๋ถํฌ๋ฅผ ๊ฐ์ง์ ์์ฌํ๋ค.
์ํธ๋กํผ ๋ถ์
Mean Entropy: 2.24 nats (3.23 bits)
์ํธ๋กํผ 2.24 nats๋ ๋ชจ๋ธ์ด ์์ธก ์ ์ฝ 9.4๊ฐ ํ ํฐ์ ๊ฑธ์ณ ํ๋ฅ ์ ๋ถ์ฐ์ํจ๋ค๋ ์๋ฏธ์ด๋ค (e^2.24 โ 9.4). ์ด ๊ฐ์ ๋๋ฌด ๋พฐ์กฑํ์ง๋(greedy collapse ์ํ) ๋๋ฌด ํํํ์ง๋(๋ฌด์์ ์ถ๋ ฅ ์ํ) ์์ ๊ฑด๊ฐํ ๋ถํฌ๋ฅผ ๋ํ๋ธ๋ค.
๊ฒฐ๋ก
์ ์ฒด ํ๊ฐ
1B ํ๊ตญ์ด ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก์ ์ ๋ฐ์ ์ผ๋ก ์ํธํ ์ฑ๋ฅ.
์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ์ํค๋ฐฑ๊ณผ, C4 ํ๊ตญ์ด, ๋๋ฌด์ํค ์ฝ 8.91B ํ ํฐ์ผ๋ก ํ์ต๋ 1.19B ํ๋ผ๋ฏธํฐ Decoder-only ๋ชจ๋ธ์ด๋ค. 8ร B200 GPU ํ๊ฒฝ์์ FP8 + BF16 ํผํฉ ์ ๋ฐ๋๋ก 34,000 steps ํ์ตํ์์ผ๋ฉฐ, Chinchilla ์ต์ ๊ณ์ฐ๋์ ๊ทผ์ฌํ ์ค์ ์ด๋ค.
๊ฐ์
- C4 PPL=5.67: ์ผ๋ฐ ์น ํ ์คํธ์ ๋ํ ์ฐ์ํ ์ธ์ด ๋ชจ๋ธ๋ง ์ฑ๋ฅ. ํ๊ตญ์ด ์ผ์ ํ ์คํธ์ ํจํด์ ์ ํ์ตํจ
- Top-1 Accuracy 56%: ๊ณผ๋ํ ํ์ ์์ด ๊ฑด๊ฐํ ์บ๋ฆฌ๋ธ๋ ์ด์ ์ํ๋ฅผ ์ ์งํจ
- ํ๊ตญ์ด ๋ฌธ๋ฒ ์ฒ๋ฆฌ: ์กฐ์ฌ(์/๋/์ด/๊ฐ/์/๋ฅผ), ์ด๋ฏธ(
ํ๋ค/ํฉ๋๋ค/~์ด๋ค) ์ฒ๋ฆฌ๊ฐ ์์ ์ ์ด๋ฉฐ ๋ฌธ๋ฒ์ ์ผ๋ก ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ ์์ฑ - ์ผ์์ ํ๋กฌํํธ ๋์: ์ค๋ช , ์ ์, ๋ชฉ๋ก ๋ฑ ๊ธฐ๋ณธ์ ์ธ ํ ์คํธ ์์ฑ ํจํด ํ์
์ฝ์
- Namuwiki PPL=25.34: ๋น์ ํ ํ ์คํธ(๊ตฌ์ด์ฒด, ์์ด, ์ ์กฐ์ด, ํ ํ์)์ ์๋์ ์ผ๋ก ์ฝํจ. ๋๋ฉ์ธ ๋ถ๊ท ํ์์ ๋น๋กฏ๋จ
- ๋ฐ๋ณต ํดํ 30%: 10๊ฐ ์์ฑ ์ค 3๊ฐ์์ repetition degeneration ๋ฐ์. Greedy decoding ํ๊ฒฝ์์ ํนํ ๋๋๋ฌ์ง๋ฉฐ, SFT ๋๋ RLHF ๋จ๊ณ์์ ๊ฐ์ ์์
- ์ฌ์ค ์ ํ๋ ์ ํ: ์ธ์ข ๋์ ์ฐ๋, ์์ ๋ ์ํผ ๋ฑ ๊ตฌ์ฒด์ ์ฌ์ค ๊ธฐ์ต ๋ฅ๋ ฅ์ด ๋ฎ์. 1B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ๊ณ ์ ํ ํ๊ณ์ด๋ฉฐ, 7B ์ด์ ์ค์ผ์ผ์์ ๊ฐ์ ์์
- ์ฝ๋/์ํ ๊ฑฐ์ ๋ถ๊ฐ: ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ์ฝ๋/์ํ์ด ํฌํจ๋์ง ์์ ์์๋ ๊ฒฐ๊ณผ. ์ ๋ฌธ ํ์ธํ๋ ํ์
๋ค์ ๋จ๊ณ ๊ถ์ฅ
| ์ฐ์ ์์ | ์์ | ๊ธฐ๋ ํจ๊ณผ |
|---|---|---|
| 1 | Instruction Tuning (SFT) | ๋ฐ๋ณต ํดํ ์ํ, ์ง์๋ฌธ ๋ฐ๋ฅด๊ธฐ ๋ฅ๋ ฅ ๋ถ์ฌ |
| 2 | DPO/RLHF | ์์ฑ ํ์ง + ์ฌ์ค ์ ํ๋ ๊ฐ์ |
| 3 | ๋๋ฉ์ธ ์ ์ | ๋๋ฌด์ํค/์ ๋ฌธ ๋๋ฉ์ธ ์ถ๊ฐ ๋ฐ์ดํฐ๋ก PPL ๊ฐ์ |
| 4 | ์ค์ผ์ผ์ (7B) | ์ฌ์ค ๊ธฐ์ต, ๋ฐ๋ณต ๋ฌธ์ ๋์ ๊ฐ์ ์์ |
| 5 | ์์ํ + ๋ฐฐํฌ | GGUF Q4_K_M + Ollama ์๋น (Phase B ํ์ดํ๋ผ์ธ ํ์ฉ ๊ฐ๋ฅ) |
ํ๊ฐ ํ๊ฒฝ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| GPU | NVIDIA B200 ร1 (์ถ๋ก ) |
| ์ถ๋ก dtype | BF16 |
| ํ๊ฐ ์์ ์๊ฐ | ์ฝ 15๋ถ (์ ์ฒด 6๊ฐ ์น์ ) |
| ํ๊ฐ ๋ ์ง | 2026-02-26 |
| ํ๊ฐ ์คํฌ๋ฆฝํธ | eval/comprehensive_eval.py |