frankenstallm / source /eval /reports /02_generation_report.md
pathcosmos's picture
Upload folder using huggingface_hub (#29)
5b1ff4d
# 02. ์ƒ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€ ๋ณด๊ณ ์„œ
**๋ชจ๋ธ**: `korean_1b_fp8_run1` (1.19B ํŒŒ๋ผ๋ฏธํ„ฐ, 34,000 steps)
**ํ‰๊ฐ€์ผ**: 2026-02-26
**ํ‰๊ฐ€์ž**: llm-bang ์‹คํ—˜ํŒ€
---
## 1. ์‹คํ—˜ ์„ค์ •
| ํ•ญ๋ชฉ | ๊ฐ’ |
|------|----|
| ๋ชจ๋ธ | korean_1b_fp8_run1 (์ฒดํฌํฌ์ธํŠธ: step-34000) |
| ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ | ~1.19B |
| ์ถ”๋ก  dtype | BF16 |
| ํ•˜๋“œ์›จ์–ด | 1ร— NVIDIA B200 (192GB VRAM) |
| temperature | 0.8 |
| top_p | 0.9 |
| top_k | 50 |
| max_new_tokens | 200 |
| ํ…Œ์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ ์ˆ˜ | 10๊ฐœ |
| ํ”„๋กฌํ”„ํŠธ ์นดํ…Œ๊ณ ๋ฆฌ | ์‚ฌ์‹ค ์ง€์‹, ์ฐฝ์˜ ์ƒ์„ฑ, ์ฝ”๋“œ, ์ˆ˜ํ•™, ์š”๋ฆฌ, ์—ญ์‚ฌ |
> **์ฐธ๊ณ **: ์ด ๋ณด๊ณ ์„œ๋Š” ์‚ฌ์ „ํ•™์Šต(pretraining)๋งŒ ์™„๋ฃŒ๋œ base ๋ชจ๋ธ์„ ๋Œ€์ƒ์œผ๋กœ ํ•œ๋‹ค. Instruction tuning(SFT) ๋ฐ RLHF๋Š” ์ ์šฉ๋˜์ง€ ์•Š์•˜๋‹ค.
---
## 2. ์ƒ์„ฑ ๊ฒฐ๊ณผ
### ํ”„๋กฌํ”„ํŠธ 1: ์‚ฌ์‹ค ์ง€์‹ โ€” ์ˆ˜๋„
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
ํ•œ๊ตญ์˜ ์ˆ˜๋„๋Š”
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> ํ•œ๊ตญ์˜ ์ˆ˜๋„๋Š”์„œ์šธ์ž…๋‹ˆ๋‹ค.'์„œ์šธ'์ด๋ผ๋Š” ๋„์‹œ๋Š” ๋Œ€ํ•œ๋ฏผ๊ตญ ์ˆ˜๋„์ด์ž, '์„œ์šธ'์ด๋ผ๋Š” ๋„์‹œ์˜ ์ด๋ฆ„์€ ๋Œ€ํ•œ๋ฏผ๊ตญ ์ˆ˜๋„์ด์ž, ์„œ์šธ์˜ ์˜›์ด๋ฆ„์ด๊ธฐ๋„ ํ•œ 'ํ•œ์„ฑ'์ž…๋‹ˆ๋‹ค.'ํ•œ์„ฑ'์€ ์„œ์šธ์˜ ์˜› ์ด๋ฆ„์ด๊ณ , 'ํ•œ์„ฑ'์€ ์ˆ˜๋„ ์„œ์šธ์˜ ์˜› ์ด๋ฆ„์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. (์ดํ›„ ๋ฐ˜๋ณต...)
**๋ถ„์„**:
- ์„œ์šธ์ด ์ˆ˜๋„๋ผ๋Š” ํ•ต์‹ฌ ์‚ฌ์‹ค์€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ƒ์„ฑํ•จ.
- 'ํ•œ์„ฑ'์ด ์„œ์šธ์˜ ์˜› ์ด๋ฆ„์ด๋ผ๋Š” ์‚ฌ์‹ค๋„ ๋งž์ง€๋งŒ, ์ดํ›„ ๋™์ผ ์„ค๋ช…์ด ๋ฐ˜๋ณต์ ์œผ๋กœ ๋‚˜์—ด๋˜๋ฉฐ ํ‡ดํ™”ํ•จ.
- ์‚ฌ์‹ค ์ •ํ™•๋„๋Š” ๋ถ€๋ถ„์ (Partial). ๋ฐ˜๋ณต ํ‡ดํ™”(repetition degeneration) ์ง•ํ›„ ์กด์žฌ.
---
### ํ”„๋กฌํ”„ํŠธ 2: ๊ฐœ๋… ์„ค๋ช… โ€” ์ธ๊ณต์ง€๋Šฅ
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
์ธ๊ณต์ง€๋Šฅ์ด๋ž€
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> ์ธ๊ณต์ง€๋Šฅ์ด๋ž€?1. '์ธ๊ณต์ง€๋Šฅ(AI)'์˜ ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ 2. ์ธ๊ณต์ง€๋Šฅ์ด ๊ฐ€์ง„ ํŠน์ง• 3. ์ธ๊ณต์ง€๋Šฅ์˜ ๊ธฐ๋Šฅ 4. ์ธ๊ณต์ง€๋Šฅ์˜ ๋ฌธ์ œ์  5. ์ธ๊ณต์ง€๋Šฅ์˜ ๋ฏธ๋ž˜... (๋ชฉ์ฐจ ๊ตฌ์กฐ ๋ฐ˜๋ณต)
**๋ถ„์„**:
- ๋ ˆํฌํŠธ ๋˜๋Š” ์—์„ธ์ด์˜ ๋ชฉ์ฐจ ๊ตฌ์กฐ๋ฅผ ์ƒ์„ฑํ•จ. ์‹ค์ œ ๋‚ด์šฉ ์—†์ด ๋ชฉ์ฐจ๋งŒ ๋‚˜์—ด.
- ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋ ˆํฌํŠธ/๋ชฉ์ฐจ ํ˜•์‹์˜ ๋ฌธ์„œ๊ฐ€ ์ƒ๋‹น ๋น„์œจ ํฌํ•จ๋˜์–ด ์žˆ์Œ์„ ์‹œ์‚ฌ.
- ๋ฐ˜๋ณต์€ ์—†์œผ๋‚˜ ์ •๋ณด ๋ฐ€๋„๊ฐ€ ๋งค์šฐ ๋‚ฎ์Œ. ์˜๋ฏธ ์žˆ๋Š” ๋‹ต๋ณ€์œผ๋กœ ๋ณด๊ธฐ ์–ด๋ ค์›€.
---
### ํ”„๋กฌํ”„ํŠธ 3: ์ฐฝ์˜ ์ƒ์„ฑ โ€” ์ผ์ƒ ์„œ์ˆ 
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
์˜ค๋Š˜ ๋‚ ์”จ๊ฐ€ ์ข‹์•„์„œ
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> ๋” ์—ด์‹ฌํžˆ ํ–ˆ์–ด์š”..์ด๋ฒˆ์—๋Š” ์—ฌ๋ฆ„์„ ์ฃผ์ œ๋กœ ํ•œ ๋…ธ๋ž˜๋“ค์„ ๋ชจ์•„์„œ ์†Œ๊ฐœํ•ด๋“œ๋ฆฌ๋ ค๊ณ  ํ•ด์š”..'SUMMER SONIC'์„ ๊ฐ€์ ธ์™”์–ด์š”...
**๋ถ„์„**:
- ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ ํ†ค์œผ๋กœ ์ƒ์„ฑ๋จ.
- ๋‚ ์”จ ์ด์•ผ๊ธฐ์—์„œ ๋…ธ๋ž˜ ์ถ”์ฒœ์œผ๋กœ ์ „ํ™˜๋˜์—ˆ์œผ๋ฉฐ, ์ฐฝ์˜์ ์ด์ง€๋งŒ ๋งฅ๋ฝ์ด ๋‹ค์†Œ ๋ฒ—์–ด๋‚จ.
- 10๊ฐœ ํ”„๋กฌํ”„ํŠธ ์ค‘ ๋ฐ˜๋ณต์ด ์—†๋Š” ๊ฐ€์žฅ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ƒ์„ฑ ์‚ฌ๋ก€ ์ค‘ ํ•˜๋‚˜.
- ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ์ผ์ƒ ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ ์Šคํƒ€์ผ์ด ๋ชจ๋ธ์— ์ž˜ ํก์ˆ˜๋œ ๊ฒƒ์œผ๋กœ ๋ณด์ž„.
---
### ํ”„๋กฌํ”„ํŠธ 4: ์‚ฌ์‹ค ์ง€์‹ โ€” ์—ญ์‚ฌ์  ์‚ฌ๊ฑด
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์—ญ์‚ฌ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์‚ฌ๊ฑด์€
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> ๋Œ€ํ•œ๋ฏผ๊ตญ ์ž„์‹œ์ •๋ถ€ ์ˆ˜๋ฆฝ์ž…๋‹ˆ๋‹ค. (์ดํ›„ ๊ฐ™์€ ๋ฌธ์žฅ 11๋ฒˆ ์ด์ƒ ๋ฐ˜๋ณต)
**๋ถ„์„**:
- '๋Œ€ํ•œ๋ฏผ๊ตญ ์ž„์‹œ์ •๋ถ€ ์ˆ˜๋ฆฝ'์ด๋ผ๋Š” ํ•ต์‹ฌ ์‚ฌ์‹ค ์ž์ฒด๋Š” ์—ญ์‚ฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ๋‹ต๋ณ€์ž„.
- ๊ทธ๋Ÿฌ๋‚˜ ์ดํ›„ ๋™์ผ ๋ฌธ์žฅ์ด 11๋ฒˆ ์ด์ƒ ๋ฐ˜๋ณต๋˜๋Š” ์‹ฌ๊ฐํ•œ ๋ฐ˜๋ณต ํ‡ดํ™”๊ฐ€ ๋ฐœ์ƒํ•จ.
- Trigram repetition ๋น„์œจ: **87.7%** โ€” ๊ฐ€์žฅ ์‹ฌ๊ฐํ•œ ๋ฐ˜๋ณต ํ‡ดํ™” ์‚ฌ๋ก€.
- Beam search ๋˜๋Š” repetition penalty ์—†์ด greedy/top-p ์ƒ˜ํ”Œ๋ง๋งŒ์œผ๋กœ๋Š” ์ด๋Ÿฌํ•œ ํ‡ดํ™”๊ฐ€ ๋นˆ๋ฒˆํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚จ.
---
### ํ”„๋กฌํ”„ํŠธ 5: ์‹ค์šฉ ์ •๋ณด โ€” ๊ตํ†ต
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
์„œ์šธ์—์„œ ๋ถ€์‚ฐ๊นŒ์ง€ ๊ฐ€๋Š” ๋ฐฉ๋ฒ•์€
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> KTX์™€ SRT ๋‘ ๊ฐ€์ง€. ์š”๊ธˆ ์ •๋ณด ์ œ๊ณต (๋ถ€์ •ํ™•ํ•œ ์ˆ˜์น˜).
**๋ถ„์„**:
- ๊ตฌ์กฐ์ ์œผ๋กœ ์ •๋ˆ๋œ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•จ.
- KTX์™€ SRT๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์€ ์ •ํ™•ํ•จ.
- ๊ทธ๋Ÿฌ๋‚˜ ์š”๊ธˆ ์ˆ˜์น˜๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฆ„ โ€” ์ˆ˜์น˜์  ์‚ฌ์‹ค(hallucination) ๋ฌธ์ œ ๋ฐœ์ƒ.
- 1B ๋ชจ๋ธ์˜ ์‚ฌ์‹ค ๊ธฐ์–ต ํ•œ๊ณ„๊ฐ€ ๋“œ๋Ÿฌ๋‚˜๋Š” ์ „ํ˜•์ ์ธ ์‚ฌ๋ก€.
---
### ํ”„๋กฌํ”„ํŠธ 6: ์ฝ”๋“œ ์ƒ์„ฑ โ€” Python
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
๋‹ค์Œ์€ ํŒŒ์ด์ฌ ์ฝ”๋“œ์ž…๋‹ˆ๋‹ค:
def hello():
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> print("Hello World!"); ์ดํ›„ ๋ฐ˜๋ณต ํ‡ดํ™”.
**๋ถ„์„**:
- ๊ธฐ์ดˆ์ ์ธ `print("Hello World!")` ์™„์„ฑ์€ ๊ฐ€๋Šฅํ•จ.
- ์ดํ›„ ์˜๋ฏธ ์žˆ๋Š” ์ฝ”๋“œ ์ƒ์„ฑ ์—†์ด ๋ฐ˜๋ณต ํ‡ดํ™”๋กœ ์ง„์ž….
- ์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ์€ ๋งค์šฐ ์ œํ•œ์ ์ž„.
- 1B ํ•œ๊ตญ์–ด ํŠนํ™” ๋ชจ๋ธ์˜ ํŠน์„ฑ์ƒ ์ฝ”๋“œ ํ•™์Šต ๋ฐ์ดํ„ฐ ๋น„์œจ์ด ๋‚ฎ์•„ ์ฝ”๋“œ ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž„.
---
### ํ”„๋กฌํ”„ํŠธ 7: ์ˆ˜ํ•™ โ€” ์‚ฐ์ˆ 
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
1 + 1 = 2์ด๊ณ , 2 + 2 =
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> 4์ธ๋ฐ, ์ดํ›„ n + 2 = ... ํŒจํ„ด ๋ฐ˜๋ณตํ•˜๋ฉฐ ์ ์  ์˜ค๋‹ต. 21 + 2 = 40, 22 + 2 = 44 ๋“ฑ.
**๋ถ„์„**:
- `2 + 2 = 4`๋Š” ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ƒ์„ฑํ•จ.
- ์ดํ›„ ๋ง์…ˆ ํŒจํ„ด์„ ๊ณ„์† ์ด์–ด๊ฐ€์ง€๋งŒ ์ˆ˜์น˜๊ฐ€ ์ ์  ํ‹€๋ ค์ง (์˜ˆ: `21 + 2 = 40`, `22 + 2 = 44`).
- ์‹ค์ œ ์‚ฐ์ˆ  ์—ฐ์‚ฐ ๋Šฅ๋ ฅ์€ ์—†์œผ๋ฉฐ, ์ˆซ์ž ํŒจํ„ด์„ ํ‘œ๋ฉด์ ์œผ๋กœ ๋ชจ๋ฐฉํ•˜๋Š” ์ˆ˜์ค€์ž„.
- ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์€ pretrain๋งŒ์œผ๋กœ๋Š” ํ˜•์„ฑ๋˜๊ธฐ ์–ด๋ ค์šฐ๋ฉฐ, ์ˆ˜์‹ ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ ๋ฐ chain-of-thought ํ•™์Šต์ด ํ•„์š”ํ•จ.
---
### ํ”„๋กฌํ”„ํŠธ 8: ์ฐฝ์˜ ์ƒ์„ฑ โ€” ์‹œ์  ์„œ์ˆ 
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
๋ด„์ด ์˜ค๋ฉด ๊ฝƒ์ด ํ”ผ๊ณ 
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> ๊ฝƒ์ด ์ง€๋ฉด ์—ด๋งค๊ฐ€ ์—ด๋ฆฐ๋‹ค... ๋งŒ๋ฌผ์ด ์†Œ์ƒํ•˜๋Š” ๋ด„... (๋ฐ˜๋ณต)
**๋ถ„์„**:
- ์‹œ์ ยท์„œ์ •์  ์„œ์ˆ  ํ†ค์„ ์ž˜ ํฌ์ฐฉํ•จ.
- ํ•œ๊ตญ์–ด ๋ฌธํ•™์  ํ‘œํ˜„ ํŒจํ„ด(๊ณ„์ ˆ ๋ฌ˜์‚ฌ, ์ž์—ฐ ์ˆœํ™˜)์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด์–ด๊ฐ.
- ํ›„๋ฐ˜๋ถ€์—์„œ ๋ฐ˜๋ณต ํ‡ดํ™”๋กœ ์ง„์ž…ํ•˜์ง€๋งŒ, ์ดˆ๋ฐ˜๋ถ€ ์ƒ์„ฑ ํ’ˆ์งˆ์€ ์–‘ํ˜ธํ•จ.
- ํ•œ๊ตญ์–ด ๋ฌธํ•™ ๋ฐ ์ˆ˜ํ•„ ์Šคํƒ€์ผ ํ•™์Šต์ด ์ž˜ ๋˜์–ด ์žˆ์Œ์„ ์‹œ์‚ฌ.
---
### ํ”„๋กฌํ”„ํŠธ 9: ์‹ค์šฉ ์ง€์‹ โ€” ์š”๋ฆฌ ๋ ˆ์‹œํ”ผ
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
๋ง›์žˆ๋Š” ๊น€์น˜์ฐŒ๊ฐœ๋ฅผ ๋งŒ๋“ค๋ ค๋ฉด
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> ์ฐน์Œ€์„ ๋ถˆ๋ ค์•ผ ํ•ฉ๋‹ˆ๋‹ค... (์ž˜๋ชป๋œ ๋ ˆ์‹œํ”ผ)
**๋ถ„์„**:
- ๋ ˆ์‹œํ”ผ ํ˜•์‹(์žฌ๋ฃŒ ๋‚˜์—ด, ์ˆœ์„œ ์„ค๋ช…)์€ ๋งž์ถ”๊ณ  ์žˆ์Œ.
- ๋‚ด์šฉ์ด ๋ถ€์ •ํ™•ํ•จ: ๊น€์น˜์ฐŒ๊ฐœ ๋ ˆ์‹œํ”ผ์— ์ฐน์Œ€์€ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ.
- ๋„๋ฉ”์ธ ํŠนํ™” ์ง€์‹์—์„œ์˜ hallucination์ด ๋ช…ํ™•ํ•˜๊ฒŒ ๋“œ๋Ÿฌ๋‚˜๋Š” ์‚ฌ๋ก€.
- 1B ๋ชจ๋ธ์ด ๋ ˆ์‹œํ”ผ ํ˜•์‹์€ ํ•™์Šตํ–ˆ์œผ๋‚˜ ์‹ค์ œ ์š”๋ฆฌ ์ง€์‹์˜ ์ •ํ™•์„ฑ์€ ๋‹ด๋ณด๋˜์ง€ ์•Š์Œ.
---
### ํ”„๋กฌํ”„ํŠธ 10: ์‚ฌ์‹ค ์ง€์‹ โ€” ์—ญ์‚ฌ ์ธ๋ฌผ
**์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ**:
```
์„ธ์ข…๋Œ€์™•์€
```
**์ƒ์„ฑ ๊ฒฐ๊ณผ**:
> ์กฐ์„ ์„ ๊ฑด๊ตญํ•˜๊ณ ... (์„ธ์ข…์ด ์•„๋‹ˆ๋ผ ํƒœ์กฐ์˜ ์—…์ ์„ ์„œ์ˆ ). ์‚ฌ์‹ค ์˜ค๋ฅ˜ ๋‹ค์ˆ˜.
**๋ถ„์„**:
- ์„ธ์ข…๋Œ€์™•์˜ ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ์—…์ ์ธ ํ›ˆ๋ฏผ์ •์Œ ์ฐฝ์ œ๋ฅผ ์–ธ๊ธ‰ํ•˜์ง€ ์•Š์Œ.
- ์กฐ์„  ๊ฑด๊ตญ์€ ํƒœ์กฐ ์ด์„ฑ๊ณ„์˜ ์—…์ ์œผ๋กœ, ์„ธ์ข…๋Œ€์™•๊ณผ ํ˜ผ๋™ํ•˜๋Š” ์‹ฌ๊ฐํ•œ ์‚ฌ์‹ค ์˜ค๋ฅ˜.
- ์—ญ์‚ฌ ์ธ๋ฌผ ๊ด€๋ จ ์‚ฌ์‹ค ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์Œ.
- 1B ๋ชจ๋ธ์˜ ์‚ฌ์‹ค ๊ธฐ์–ต ๋ฐ ๊ฐœ์ฒด ๊ตฌ๋ถ„ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ๋Š” ์‚ฌ๋ก€.
---
## 3. ์ข…ํ•ฉ ๋ถ„์„
### 3.1 ์ •๋Ÿ‰ ์ง€ํ‘œ ์š”์•ฝ
| ํ”„๋กฌํ”„ํŠธ | ์นดํ…Œ๊ณ ๋ฆฌ | ๋ฐ˜๋ณต ํ‡ดํ™” | ์‚ฌ์‹ค ์ •ํ™•๋„ | ์ž์—ฐ์Šค๋Ÿฌ์›€ |
|----------|----------|-----------|-------------|-----------|
| 1. ํ•œ๊ตญ์˜ ์ˆ˜๋„๋Š” | ์‚ฌ์‹ค ์ง€์‹ | ์ค‘๊ฐ„ | ๋ถ€๋ถ„์  | ๋ณดํ†ต |
| 2. ์ธ๊ณต์ง€๋Šฅ์ด๋ž€ | ๊ฐœ๋… ์„ค๋ช… | ์—†์Œ | ๋‚ฎ์Œ (๋ฌด๋‚ด์šฉ) | ๋‚ฎ์Œ |
| 3. ์˜ค๋Š˜ ๋‚ ์”จ๊ฐ€ ์ข‹์•„์„œ | ์ฐฝ์˜ ์ƒ์„ฑ | ์—†์Œ | N/A | ๋†’์Œ |
| 4. ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์—ญ์‚ฌ | ์‚ฌ์‹ค ์ง€์‹ | ์‹ฌ๊ฐ (87.7%) | ๋ถ€๋ถ„์  | ๋‚ฎ์Œ |
| 5. ์„œ์šธโ†’๋ถ€์‚ฐ ๊ตํ†ต | ์‹ค์šฉ ์ •๋ณด | ์—†์Œ | ๋ถ€๋ถ„์  | ๋†’์Œ |
| 6. ํŒŒ์ด์ฌ ์ฝ”๋“œ | ์ฝ”๋“œ ์ƒ์„ฑ | ์ค‘๊ฐ„ | ๋‚ฎ์Œ | ๋‚ฎ์Œ |
| 7. 1+1=2, 2+2= | ์ˆ˜ํ•™ | ์ค‘๊ฐ„ | ๋‚ฎ์Œ | ๋‚ฎ์Œ |
| 8. ๋ด„์ด ์˜ค๋ฉด | ์ฐฝ์˜/์‹œ์  | ๊ฒฝ๋ฏธ | N/A | ๋†’์Œ |
| 9. ๊น€์น˜์ฐŒ๊ฐœ ๋ ˆ์‹œํ”ผ | ์‹ค์šฉ ์ง€์‹ | ์—†์Œ | ๋‚ฎ์Œ | ๋ณดํ†ต |
| 10. ์„ธ์ข…๋Œ€์™•์€ | ์—ญ์‚ฌ ์ธ๋ฌผ | ์—†์Œ | ๋งค์šฐ ๋‚ฎ์Œ | ๋ณดํ†ต |
### 3.2 ๊ฐ•์ 
1. **ํ•œ๊ตญ์–ด ๋ฌธ๋ฒ• ๋ฐ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ ์ƒ์„ฑ**: ๋ฌธ๋ฒ•์ ์œผ๋กœ ์˜ฌ๋ฐ”๋ฅธ ํ•œ๊ตญ์–ด ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ๋ธ”๋กœ๊ทธยท์ผ์ƒ ์„œ์ˆ  ํ†ค์—์„œ ํŠนํžˆ ์ž์—ฐ์Šค๋Ÿฝ๋‹ค.
2. **๋ฌธํ•™์ ยท์„œ์ •์  ํ‘œํ˜„**: ์‹œ์  ์„œ์ˆ  ํ”„๋กฌํ”„ํŠธ(ํ”„๋กฌํ”„ํŠธ 8)์—์„œ ํ•œ๊ตญ์–ด ๋ฌธํ•™ ์Šคํƒ€์ผ์„ ์ž˜ ํฌ์ฐฉํ•˜์˜€๋‹ค.
3. **๊ตฌ์กฐ์  ํ˜•์‹ ํ•™์Šต**: ๋ ˆ์‹œํ”ผ, ๋ชฉ์ฐจ, ๊ตํ†ต ์ •๋ณด ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌธ์„œ ํ˜•์‹์„ ์ธ์‹ํ•˜๊ณ  ํ•ด๋‹น ๊ตฌ์กฐ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์žˆ๋‹ค.
4. **๊ธฐ์ดˆ ์‚ฌ์‹ค ์ธ์‹**: ์„œ์šธ์ด ์ˆ˜๋„, KTX/SRT ๊ตฌ๋ถ„, ์ž„์‹œ์ •๋ถ€ ์ˆ˜๋ฆฝ ๋“ฑ ๊ธฐ์ดˆ์ ์ธ ์‚ฌ์‹ค์€ ๋ถ€๋ถ„์ ์œผ๋กœ ๋งž์ถ”๊ณ  ์žˆ๋‹ค.
### 3.3 ์•ฝ์ 
1. **๋ฐ˜๋ณต ํ‡ดํ™” (Repetition Degeneration)**
- 10๊ฐœ ํ”„๋กฌํ”„ํŠธ ์ค‘ 3๊ฐœ(ํ”„๋กฌํ”„ํŠธ 1, 4, 8)์—์„œ ์ค‘๊ฐ„ ์ด์ƒ์˜ ๋ฐ˜๋ณต ํ‡ดํ™” ๋ฐœ์ƒ.
- ํ”„๋กฌํ”„ํŠธ 4์˜ ๊ฒฝ์šฐ trigram ๋ฐ˜๋ณต๋ฅ  87.7%๋กœ ๊ฐ€์žฅ ์‹ฌ๊ฐ.
- Base pretrain ๋ชจ๋ธ์—์„œ repetition penalty ์—†์ด greedy/top-p ์ƒ˜ํ”Œ๋ง ์‹œ ๋‚˜ํƒ€๋‚˜๋Š” ์ผ๋ฐ˜์ ์ธ ํ˜„์ƒ์ด๋‚˜, ํ˜„์žฌ ์ˆ˜์ค€์€ ๊ฐœ์„ ์ด ํ•„์š”ํ•จ.
2. **์‚ฌ์‹ค ์ •ํ™•๋„ (Factual Accuracy)**
- ์ˆ˜์น˜ ์ •๋ณด(๊ตํ†ต ์š”๊ธˆ), ์—ญ์‚ฌ ์ธ๋ฌผ ์—…์ , ์š”๋ฆฌ ๋ ˆ์‹œํ”ผ ๋“ฑ ๋””ํ…Œ์ผ์—์„œ hallucination ๋นˆ๋ฐœ.
- ํŠนํžˆ ์—ญ์‚ฌ ์ธ๋ฌผ(์„ธ์ข…๋Œ€์™• vs. ํƒœ์กฐ ํ˜ผ๋™)์—์„œ ๊ฐœ์ฒด ๊ตฌ๋ถ„ ์˜ค๋ฅ˜๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง.
- 1B ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ์˜ base ๋ชจ๋ธ๋กœ์„œ ์˜ˆ์ƒ ๋ฒ”์œ„ ๋‚ด์˜ ํ•œ๊ณ„์ด๋‚˜, ์‹ค์‚ฌ์šฉ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Œ.
3. **์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ**
- ๊ธฐ์ดˆ์ ์ธ ์ฝ”๋“œ ์™„์„ฑ ์™ธ ์‹ค์งˆ์ ์ธ ์ฝ”๋“œ ์ƒ์„ฑ ๋ถˆ๊ฐ€.
- ํ•œ๊ตญ์–ด ํŠนํ™” ํ•™์Šต ๋ฐ์ดํ„ฐ ํŠน์„ฑ์ƒ ์ฝ”๋“œ ๋น„์œจ์ด ๋‚ฎ์€ ๊ฒƒ์ด ์ฃผ์š” ์›์ธ.
4. **์ˆ˜ํ•™ ๋ฐ ์‚ฐ์ˆ  ๋Šฅ๋ ฅ**
- `2 + 2 = 4` ์ˆ˜์ค€์˜ ๋‹จ์ˆœ ์—ฐ์‚ฐ๋งŒ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์ดํ›„ ์‚ฐ์ˆ  ํŒจํ„ด ๋ชจ๋ฐฉ์œผ๋กœ๋งŒ ๋™์ž‘.
- ์‹ค์งˆ์ ์ธ ์ˆ˜์น˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ์—†์Œ.
5. **์ „๋ฌธ ์ง€์‹ ์ •ํ™•๋„**
- ๋ ˆ์‹œํ”ผ, ์š”๊ธˆ ๋“ฑ ์ „๋ฌธ/์‹ค์šฉ ์ง€์‹ ๋„๋ฉ”์ธ์—์„œ ํ˜•์‹์€ ๋งž์ถ”๋‚˜ ๋‚ด์šฉ์˜ ์ •ํ™•์„ฑ์ด ๋‚ฎ์Œ.
### 3.4 1B Base ๋ชจ๋ธ ๊ด€์ ์—์„œ์˜ ์ข…ํ•ฉ ํ‰๊ฐ€
์‚ฌ์ „ํ•™์Šต(pretraining)๋งŒ ์™„๋ฃŒ๋œ 1.19B base ๋ชจ๋ธ๋กœ์„œ, ์ด๋ฒˆ ์ƒ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” **์˜ˆ์ƒ ๋ฒ”์œ„ ๋‚ด**์— ํ•ด๋‹นํ•œ๋‹ค.
- ๋™์ผ ๊ทœ๋ชจ์˜ ํƒ€ ์˜คํ”ˆ์†Œ์Šค 1B base ๋ชจ๋ธ(์˜ˆ: TinyLlama-1.1B, EXAONE-3.0-1.2B ์ดˆ๊ธฐ ๋ฒ„์ „ ๋“ฑ)๊ณผ ๋น„๊ต ์‹œ ํ•œ๊ตญ์–ด ์œ ์ฐฝ์„ฑ ์ธก๋ฉด์—์„œ๋Š” ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์ˆ˜์ค€.
- Instruction tuning(SFT) ๋ฐ RLHF ์—†์ด ๋ฐ˜๋ณต ํ‡ดํ™”๊ฐ€ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒƒ์€ GPT-2, LLaMA-1 ๋“ฑ base ๋ชจ๋ธ์—์„œ๋„ ๊ณตํ†ต์ ์œผ๋กœ ๊ด€์ฐฐ๋˜๋Š” ํ˜„์ƒ์ž„.
- ์‚ฌ์‹ค ์ •ํ™•๋„์˜ ํ•œ๊ณ„๋Š” 1B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ตฌ์กฐ์  ์ œ์•ฝ์œผ๋กœ, 7B+ ๋ชจ๋ธ์—์„œ ๊ฐœ์„ ์ด ๊ธฐ๋Œ€๋จ.
---
## 4. ๊ฐœ์„  ๋ฐฉํ–ฅ
### 4.1 ๋‹จ๊ธฐ ๊ฐœ์„  (ํ˜„์žฌ ๋ชจ๋ธ์— ์ฆ‰์‹œ ์ ์šฉ ๊ฐ€๋Šฅ)
| ๋ฐฉ๋ฒ• | ํšจ๊ณผ | ์ ์šฉ ๋‚œ์ด๋„ |
|------|------|------------|
| `repetition_penalty=1.1~1.3` ์ ์šฉ | ๋ฐ˜๋ณต ํ‡ดํ™” ์™„ํ™” | ๋‚ฎ์Œ (์ถ”๋ก  ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •) |
| `no_repeat_ngram_size=3` ์ ์šฉ | n-gram ๋ฐ˜๋ณต ์ฐจ๋‹จ | ๋‚ฎ์Œ (์ถ”๋ก  ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •) |
| temperature ์กฐ์ • (0.7~0.75) | ์ƒ์„ฑ ์•ˆ์ •์„ฑ ํ–ฅ์ƒ | ๋‚ฎ์Œ |
### 4.2 ์ค‘๊ธฐ ๊ฐœ์„  (์ถ”๊ฐ€ ํ•™์Šต ํ•„์š”)
1. **SFT (Supervised Fine-Tuning)**
- ์ง€์‹œ๋ฌธ ๋”ฐ๋ฅด๊ธฐ(instruction-following) ๋Šฅ๋ ฅ ๋ถ€์—ฌ
- ๋ฐ˜๋ณต ํ‡ดํ™” ๊ทผ๋ณธ์  ์™„ํ™”
- ์ถ”์ฒœ ๋ฐ์ดํ„ฐ: Open-Platypus-ko, KoAlpaca, LIMA-ko ๋“ฑ
2. **์ฝ”๋“œ ๋ฐ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ pretraining**
- Python/์ฝ”๋“œ ๋ฐ์ดํ„ฐ(The Stack, CodeSearchNet ๋“ฑ) ํ˜ผํ•ฉ ํ•™์Šต
- ์ˆ˜์‹ ๋ฐ chain-of-thought ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€
- ๊ถŒ์žฅ ๋น„์œจ: ์ฝ”๋“œ 10~15%, ์ผ๋ฐ˜ ํ•œ๊ตญ์–ด 85~90%
3. **RLHF / DPO**
- ์‚ฌ์‹ค ์ •ํ™•๋„ ๋ฐ ์ง€์‹œ ์ค€์ˆ˜ ์ถ”๊ฐ€ ๊ฐœ์„ 
- 1B ๊ทœ๋ชจ์—์„œ๋Š” DPO(Direct Preference Optimization)๊ฐ€ ๋น„์šฉ ๋Œ€๋น„ ํšจ๊ณผ์ 
### 4.3 ์žฅ๊ธฐ ๊ฐœ์„  (๋ชจ๋ธ ๊ทœ๋ชจ ํ™•์žฅ)
- **7B+ ๋ชจ๋ธ**๋กœ ํ™•์žฅ ์‹œ ์‚ฌ์‹ค ์ •ํ™•๋„, ์ฝ”๋“œ ์ƒ์„ฑ, ์ˆ˜ํ•™ ์ถ”๋ก  ๋Šฅ๋ ฅ ์ „๋ฐ˜์ ์œผ๋กœ ํ–ฅ์ƒ ๊ธฐ๋Œ€.
- ํ˜„์žฌ ํ•˜๋“œ์›จ์–ด(8ร— B200, ~1.47TB VRAM)๋กœ 7B FSDP ํ•™์Šต ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅ.
- ํ•œ๊ตญ์–ด ํŠนํ™” 7B ๋ชจ๋ธ pretraining ํ›„ SFT โ†’ DPO ํŒŒ์ดํ”„๋ผ์ธ ์ ์šฉ ๊ถŒ์žฅ.
---
## 5. ๊ฒฐ๋ก 
`korean_1b_fp8_run1` ๋ชจ๋ธ(1.19B, 34k steps)์€ ํ•œ๊ตญ์–ด ๋ฌธ๋ฒ• ๋ฐ ๋ฌธ์ฒด ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ base ๋ชจ๋ธ๋กœ์„œ์˜ ๊ธฐ๋ณธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค. ๋ธ”๋กœ๊ทธยท์ผ์ƒยท์„œ์ •์  ํ…์ŠคํŠธ ์ƒ์„ฑ์—์„œ ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, FP8 + DDP ํ™˜๊ฒฝ์˜ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์ด ์•ˆ์ •์ ์œผ๋กœ ๋™์ž‘ํ–ˆ์Œ์„ ํ™•์ธํ•˜์˜€๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ ์‚ฌ์‹ค ์ •ํ™•๋„, ๋ฐ˜๋ณต ํ‡ดํ™”, ์ฝ”๋“œ/์ˆ˜ํ•™ ๋Šฅ๋ ฅ ๋ถ€์žฌ๋Š” ํ˜„์žฌ ๋ชจ๋ธ์˜ ๋ช…ํ™•ํ•œ ํ•œ๊ณ„์ด๋‹ค. ์ด๋Š” 1B base ๋ชจ๋ธ์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ธฐ๋Œ€๋˜๋Š” ์ˆ˜์ค€์ด๋ฉฐ, SFT โ†’ DPO ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์ƒ๋‹น ๋ถ€๋ถ„ ๊ฐœ์„  ๊ฐ€๋Šฅํ•˜๋‹ค. ์ถ”ํ›„ 7B ๊ทœ๋ชจ๋กœ์˜ ํ™•์žฅ์„ ํ†ตํ•ด ์‚ฌ์‹ค ์ •ํ™•๋„์™€ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ๊ทผ๋ณธ์ ์ธ ํ–ฅ์ƒ์„ ๋„๋ชจํ•˜๋Š” ๊ฒƒ์ด ๊ถŒ์žฅ๋œ๋‹ค.
---
*์ด ๋ณด๊ณ ์„œ๋Š” `eval/generate.py`๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋œ ๊ฒฐ๊ณผ๋ฅผ ์ˆ˜๋™์œผ๋กœ ๋ถ„์„ํ•œ ๊ฒƒ์ด๋‹ค.*
*๊ด€๋ จ ํ‰๊ฐ€ ์Šคํฌ๋ฆฝํŠธ: `/PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/generate.py`*