02. ์์ฑ ํ์ง ํ๊ฐ ๋ณด๊ณ ์
๋ชจ๋ธ: korean_1b_fp8_run1 (1.19B ํ๋ผ๋ฏธํฐ, 34,000 steps)
ํ๊ฐ์ผ: 2026-02-26
ํ๊ฐ์: llm-bang ์คํํ
1. ์คํ ์ค์
| ํญ๋ชฉ | ๊ฐ |
|---|---|
| ๋ชจ๋ธ | korean_1b_fp8_run1 (์ฒดํฌํฌ์ธํธ: step-34000) |
| ํ๋ผ๋ฏธํฐ ์ | ~1.19B |
| ์ถ๋ก dtype | BF16 |
| ํ๋์จ์ด | 1ร NVIDIA B200 (192GB VRAM) |
| temperature | 0.8 |
| top_p | 0.9 |
| top_k | 50 |
| max_new_tokens | 200 |
| ํ ์คํธ ํ๋กฌํํธ ์ | 10๊ฐ |
| ํ๋กฌํํธ ์นดํ ๊ณ ๋ฆฌ | ์ฌ์ค ์ง์, ์ฐฝ์ ์์ฑ, ์ฝ๋, ์ํ, ์๋ฆฌ, ์ญ์ฌ |
์ฐธ๊ณ : ์ด ๋ณด๊ณ ์๋ ์ฌ์ ํ์ต(pretraining)๋ง ์๋ฃ๋ base ๋ชจ๋ธ์ ๋์์ผ๋ก ํ๋ค. Instruction tuning(SFT) ๋ฐ RLHF๋ ์ ์ฉ๋์ง ์์๋ค.
2. ์์ฑ ๊ฒฐ๊ณผ
ํ๋กฌํํธ 1: ์ฌ์ค ์ง์ โ ์๋
์ ๋ ฅ ํ๋กฌํํธ:
ํ๊ตญ์ ์๋๋
์์ฑ ๊ฒฐ๊ณผ:
ํ๊ตญ์ ์๋๋์์ธ์ ๋๋ค.'์์ธ'์ด๋ผ๋ ๋์๋ ๋ํ๋ฏผ๊ตญ ์๋์ด์, '์์ธ'์ด๋ผ๋ ๋์์ ์ด๋ฆ์ ๋ํ๋ฏผ๊ตญ ์๋์ด์, ์์ธ์ ์์ด๋ฆ์ด๊ธฐ๋ ํ 'ํ์ฑ'์ ๋๋ค.'ํ์ฑ'์ ์์ธ์ ์ ์ด๋ฆ์ด๊ณ , 'ํ์ฑ'์ ์๋ ์์ธ์ ์ ์ด๋ฆ์ด๊ธฐ๋ ํฉ๋๋ค. (์ดํ ๋ฐ๋ณต...)
๋ถ์:
- ์์ธ์ด ์๋๋ผ๋ ํต์ฌ ์ฌ์ค์ ์ฌ๋ฐ๋ฅด๊ฒ ์์ฑํจ.
- 'ํ์ฑ'์ด ์์ธ์ ์ ์ด๋ฆ์ด๋ผ๋ ์ฌ์ค๋ ๋ง์ง๋ง, ์ดํ ๋์ผ ์ค๋ช ์ด ๋ฐ๋ณต์ ์ผ๋ก ๋์ด๋๋ฉฐ ํดํํจ.
- ์ฌ์ค ์ ํ๋๋ ๋ถ๋ถ์ (Partial). ๋ฐ๋ณต ํดํ(repetition degeneration) ์งํ ์กด์ฌ.
ํ๋กฌํํธ 2: ๊ฐ๋ ์ค๋ช โ ์ธ๊ณต์ง๋ฅ
์ ๋ ฅ ํ๋กฌํํธ:
์ธ๊ณต์ง๋ฅ์ด๋
์์ฑ ๊ฒฐ๊ณผ:
์ธ๊ณต์ง๋ฅ์ด๋?1. '์ธ๊ณต์ง๋ฅ(AI)'์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ 2. ์ธ๊ณต์ง๋ฅ์ด ๊ฐ์ง ํน์ง 3. ์ธ๊ณต์ง๋ฅ์ ๊ธฐ๋ฅ 4. ์ธ๊ณต์ง๋ฅ์ ๋ฌธ์ ์ 5. ์ธ๊ณต์ง๋ฅ์ ๋ฏธ๋... (๋ชฉ์ฐจ ๊ตฌ์กฐ ๋ฐ๋ณต)
๋ถ์:
- ๋ ํฌํธ ๋๋ ์์ธ์ด์ ๋ชฉ์ฐจ ๊ตฌ์กฐ๋ฅผ ์์ฑํจ. ์ค์ ๋ด์ฉ ์์ด ๋ชฉ์ฐจ๋ง ๋์ด.
- ํ์ต ๋ฐ์ดํฐ์ ๋ ํฌํธ/๋ชฉ์ฐจ ํ์์ ๋ฌธ์๊ฐ ์๋น ๋น์จ ํฌํจ๋์ด ์์์ ์์ฌ.
- ๋ฐ๋ณต์ ์์ผ๋ ์ ๋ณด ๋ฐ๋๊ฐ ๋งค์ฐ ๋ฎ์. ์๋ฏธ ์๋ ๋ต๋ณ์ผ๋ก ๋ณด๊ธฐ ์ด๋ ค์.
ํ๋กฌํํธ 3: ์ฐฝ์ ์์ฑ โ ์ผ์ ์์
์ ๋ ฅ ํ๋กฌํํธ:
์ค๋ ๋ ์จ๊ฐ ์ข์์
์์ฑ ๊ฒฐ๊ณผ:
๋ ์ด์ฌํ ํ์ด์..์ด๋ฒ์๋ ์ฌ๋ฆ์ ์ฃผ์ ๋ก ํ ๋ ธ๋๋ค์ ๋ชจ์์ ์๊ฐํด๋๋ฆฌ๋ ค๊ณ ํด์..'SUMMER SONIC'์ ๊ฐ์ ธ์์ด์...
๋ถ์:
- ์์ฐ์ค๋ฌ์ด ๋ธ๋ก๊ทธ ํฌ์คํธ ํค์ผ๋ก ์์ฑ๋จ.
- ๋ ์จ ์ด์ผ๊ธฐ์์ ๋ ธ๋ ์ถ์ฒ์ผ๋ก ์ ํ๋์์ผ๋ฉฐ, ์ฐฝ์์ ์ด์ง๋ง ๋งฅ๋ฝ์ด ๋ค์ ๋ฒ์ด๋จ.
- 10๊ฐ ํ๋กฌํํธ ์ค ๋ฐ๋ณต์ด ์๋ ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ์์ฑ ์ฌ๋ก ์ค ํ๋.
- ํ์ต ๋ฐ์ดํฐ์์ ์ผ์ ๋ธ๋ก๊ทธ ํฌ์คํธ ์คํ์ผ์ด ๋ชจ๋ธ์ ์ ํก์๋ ๊ฒ์ผ๋ก ๋ณด์.
ํ๋กฌํํธ 4: ์ฌ์ค ์ง์ โ ์ญ์ฌ์ ์ฌ๊ฑด
์ ๋ ฅ ํ๋กฌํํธ:
๋ํ๋ฏผ๊ตญ์ ์ญ์ฌ์์ ๊ฐ์ฅ ์ค์ํ ์ฌ๊ฑด์
์์ฑ ๊ฒฐ๊ณผ:
๋ํ๋ฏผ๊ตญ ์์์ ๋ถ ์๋ฆฝ์ ๋๋ค. (์ดํ ๊ฐ์ ๋ฌธ์ฅ 11๋ฒ ์ด์ ๋ฐ๋ณต)
๋ถ์:
- '๋ํ๋ฏผ๊ตญ ์์์ ๋ถ ์๋ฆฝ'์ด๋ผ๋ ํต์ฌ ์ฌ์ค ์์ฒด๋ ์ญ์ฌ์ ์ผ๋ก ํ๋นํ ๋ต๋ณ์.
- ๊ทธ๋ฌ๋ ์ดํ ๋์ผ ๋ฌธ์ฅ์ด 11๋ฒ ์ด์ ๋ฐ๋ณต๋๋ ์ฌ๊ฐํ ๋ฐ๋ณต ํดํ๊ฐ ๋ฐ์ํจ.
- Trigram repetition ๋น์จ: 87.7% โ ๊ฐ์ฅ ์ฌ๊ฐํ ๋ฐ๋ณต ํดํ ์ฌ๋ก.
- Beam search ๋๋ repetition penalty ์์ด greedy/top-p ์ํ๋ง๋ง์ผ๋ก๋ ์ด๋ฌํ ํดํ๊ฐ ๋น๋ฒํ๊ฒ ๋ํ๋จ.
ํ๋กฌํํธ 5: ์ค์ฉ ์ ๋ณด โ ๊ตํต
์ ๋ ฅ ํ๋กฌํํธ:
์์ธ์์ ๋ถ์ฐ๊น์ง ๊ฐ๋ ๋ฐฉ๋ฒ์
์์ฑ ๊ฒฐ๊ณผ:
KTX์ SRT ๋ ๊ฐ์ง. ์๊ธ ์ ๋ณด ์ ๊ณต (๋ถ์ ํํ ์์น).
๋ถ์:
- ๊ตฌ์กฐ์ ์ผ๋ก ์ ๋๋ ๋ต๋ณ์ ์์ฑํจ.
- KTX์ SRT๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ์ ์ ํํจ.
- ๊ทธ๋ฌ๋ ์๊ธ ์์น๊ฐ ์ค์ ์ ๋ค๋ฆ โ ์์น์ ์ฌ์ค(hallucination) ๋ฌธ์ ๋ฐ์.
- 1B ๋ชจ๋ธ์ ์ฌ์ค ๊ธฐ์ต ํ๊ณ๊ฐ ๋๋ฌ๋๋ ์ ํ์ ์ธ ์ฌ๋ก.
ํ๋กฌํํธ 6: ์ฝ๋ ์์ฑ โ Python
์ ๋ ฅ ํ๋กฌํํธ:
๋ค์์ ํ์ด์ฌ ์ฝ๋์
๋๋ค:
def hello():
์์ฑ ๊ฒฐ๊ณผ:
print("Hello World!"); ์ดํ ๋ฐ๋ณต ํดํ.
๋ถ์:
- ๊ธฐ์ด์ ์ธ
print("Hello World!")์์ฑ์ ๊ฐ๋ฅํจ. - ์ดํ ์๋ฏธ ์๋ ์ฝ๋ ์์ฑ ์์ด ๋ฐ๋ณต ํดํ๋ก ์ง์ .
- ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ๋งค์ฐ ์ ํ์ ์.
- 1B ํ๊ตญ์ด ํนํ ๋ชจ๋ธ์ ํน์ฑ์ ์ฝ๋ ํ์ต ๋ฐ์ดํฐ ๋น์จ์ด ๋ฎ์ ์ฝ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ ๊ฒ์ผ๋ก ๋ณด์.
ํ๋กฌํํธ 7: ์ํ โ ์ฐ์
์ ๋ ฅ ํ๋กฌํํธ:
1 + 1 = 2์ด๊ณ , 2 + 2 =
์์ฑ ๊ฒฐ๊ณผ:
4์ธ๋ฐ, ์ดํ n + 2 = ... ํจํด ๋ฐ๋ณตํ๋ฉฐ ์ ์ ์ค๋ต. 21 + 2 = 40, 22 + 2 = 44 ๋ฑ.
๋ถ์:
2 + 2 = 4๋ ์ฌ๋ฐ๋ฅด๊ฒ ์์ฑํจ.- ์ดํ ๋ง์
ํจํด์ ๊ณ์ ์ด์ด๊ฐ์ง๋ง ์์น๊ฐ ์ ์ ํ๋ ค์ง (์:
21 + 2 = 40,22 + 2 = 44). - ์ค์ ์ฐ์ ์ฐ์ฐ ๋ฅ๋ ฅ์ ์์ผ๋ฉฐ, ์ซ์ ํจํด์ ํ๋ฉด์ ์ผ๋ก ๋ชจ๋ฐฉํ๋ ์์ค์.
- ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ pretrain๋ง์ผ๋ก๋ ํ์ฑ๋๊ธฐ ์ด๋ ค์ฐ๋ฉฐ, ์์ ๋ฐ์ดํฐ ์ถ๊ฐ ๋ฐ chain-of-thought ํ์ต์ด ํ์ํจ.
ํ๋กฌํํธ 8: ์ฐฝ์ ์์ฑ โ ์์ ์์
์ ๋ ฅ ํ๋กฌํํธ:
๋ด์ด ์ค๋ฉด ๊ฝ์ด ํผ๊ณ
์์ฑ ๊ฒฐ๊ณผ:
๊ฝ์ด ์ง๋ฉด ์ด๋งค๊ฐ ์ด๋ฆฐ๋ค... ๋ง๋ฌผ์ด ์์ํ๋ ๋ด... (๋ฐ๋ณต)
๋ถ์:
- ์์ ยท์์ ์ ์์ ํค์ ์ ํฌ์ฐฉํจ.
- ํ๊ตญ์ด ๋ฌธํ์ ํํ ํจํด(๊ณ์ ๋ฌ์ฌ, ์์ฐ ์ํ)์ ์์ฐ์ค๋ฝ๊ฒ ์ด์ด๊ฐ.
- ํ๋ฐ๋ถ์์ ๋ฐ๋ณต ํดํ๋ก ์ง์ ํ์ง๋ง, ์ด๋ฐ๋ถ ์์ฑ ํ์ง์ ์ํธํจ.
- ํ๊ตญ์ด ๋ฌธํ ๋ฐ ์ํ ์คํ์ผ ํ์ต์ด ์ ๋์ด ์์์ ์์ฌ.
ํ๋กฌํํธ 9: ์ค์ฉ ์ง์ โ ์๋ฆฌ ๋ ์ํผ
์ ๋ ฅ ํ๋กฌํํธ:
๋ง์๋ ๊น์น์ฐ๊ฐ๋ฅผ ๋ง๋ค๋ ค๋ฉด
์์ฑ ๊ฒฐ๊ณผ:
์ฐน์์ ๋ถ๋ ค์ผ ํฉ๋๋ค... (์๋ชป๋ ๋ ์ํผ)
๋ถ์:
- ๋ ์ํผ ํ์(์ฌ๋ฃ ๋์ด, ์์ ์ค๋ช )์ ๋ง์ถ๊ณ ์์.
- ๋ด์ฉ์ด ๋ถ์ ํํจ: ๊น์น์ฐ๊ฐ ๋ ์ํผ์ ์ฐน์์ ์ฌ์ฉํ์ง ์์.
- ๋๋ฉ์ธ ํนํ ์ง์์์์ hallucination์ด ๋ช ํํ๊ฒ ๋๋ฌ๋๋ ์ฌ๋ก.
- 1B ๋ชจ๋ธ์ด ๋ ์ํผ ํ์์ ํ์ตํ์ผ๋ ์ค์ ์๋ฆฌ ์ง์์ ์ ํ์ฑ์ ๋ด๋ณด๋์ง ์์.
ํ๋กฌํํธ 10: ์ฌ์ค ์ง์ โ ์ญ์ฌ ์ธ๋ฌผ
์ ๋ ฅ ํ๋กฌํํธ:
์ธ์ข
๋์์
์์ฑ ๊ฒฐ๊ณผ:
์กฐ์ ์ ๊ฑด๊ตญํ๊ณ ... (์ธ์ข ์ด ์๋๋ผ ํ์กฐ์ ์ ์ ์ ์์ ). ์ฌ์ค ์ค๋ฅ ๋ค์.
๋ถ์:
- ์ธ์ข ๋์์ ๊ฐ์ฅ ๋ํ์ ์ธ ์ ์ ์ธ ํ๋ฏผ์ ์ ์ฐฝ์ ๋ฅผ ์ธ๊ธํ์ง ์์.
- ์กฐ์ ๊ฑด๊ตญ์ ํ์กฐ ์ด์ฑ๊ณ์ ์ ์ ์ผ๋ก, ์ธ์ข ๋์๊ณผ ํผ๋ํ๋ ์ฌ๊ฐํ ์ฌ์ค ์ค๋ฅ.
- ์ญ์ฌ ์ธ๋ฌผ ๊ด๋ จ ์ฌ์ค ์ ํ๋๊ฐ ๋ฎ์.
- 1B ๋ชจ๋ธ์ ์ฌ์ค ๊ธฐ์ต ๋ฐ ๊ฐ์ฒด ๊ตฌ๋ถ ํ๊ณ๋ฅผ ๋ช ํํ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก.
3. ์ข ํฉ ๋ถ์
3.1 ์ ๋ ์งํ ์์ฝ
| ํ๋กฌํํธ | ์นดํ ๊ณ ๋ฆฌ | ๋ฐ๋ณต ํดํ | ์ฌ์ค ์ ํ๋ | ์์ฐ์ค๋ฌ์ |
|---|---|---|---|---|
| 1. ํ๊ตญ์ ์๋๋ | ์ฌ์ค ์ง์ | ์ค๊ฐ | ๋ถ๋ถ์ | ๋ณดํต |
| 2. ์ธ๊ณต์ง๋ฅ์ด๋ | ๊ฐ๋ ์ค๋ช | ์์ | ๋ฎ์ (๋ฌด๋ด์ฉ) | ๋ฎ์ |
| 3. ์ค๋ ๋ ์จ๊ฐ ์ข์์ | ์ฐฝ์ ์์ฑ | ์์ | N/A | ๋์ |
| 4. ๋ํ๋ฏผ๊ตญ์ ์ญ์ฌ | ์ฌ์ค ์ง์ | ์ฌ๊ฐ (87.7%) | ๋ถ๋ถ์ | ๋ฎ์ |
| 5. ์์ธโ๋ถ์ฐ ๊ตํต | ์ค์ฉ ์ ๋ณด | ์์ | ๋ถ๋ถ์ | ๋์ |
| 6. ํ์ด์ฌ ์ฝ๋ | ์ฝ๋ ์์ฑ | ์ค๊ฐ | ๋ฎ์ | ๋ฎ์ |
| 7. 1+1=2, 2+2= | ์ํ | ์ค๊ฐ | ๋ฎ์ | ๋ฎ์ |
| 8. ๋ด์ด ์ค๋ฉด | ์ฐฝ์/์์ | ๊ฒฝ๋ฏธ | N/A | ๋์ |
| 9. ๊น์น์ฐ๊ฐ ๋ ์ํผ | ์ค์ฉ ์ง์ | ์์ | ๋ฎ์ | ๋ณดํต |
| 10. ์ธ์ข ๋์์ | ์ญ์ฌ ์ธ๋ฌผ | ์์ | ๋งค์ฐ ๋ฎ์ | ๋ณดํต |
3.2 ๊ฐ์
- ํ๊ตญ์ด ๋ฌธ๋ฒ ๋ฐ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ ์์ฑ: ๋ฌธ๋ฒ์ ์ผ๋ก ์ฌ๋ฐ๋ฅธ ํ๊ตญ์ด ๋ฌธ์ฅ์ ์์ฑํ๋ฉฐ, ๋ธ๋ก๊ทธยท์ผ์ ์์ ํค์์ ํนํ ์์ฐ์ค๋ฝ๋ค.
- ๋ฌธํ์ ยท์์ ์ ํํ: ์์ ์์ ํ๋กฌํํธ(ํ๋กฌํํธ 8)์์ ํ๊ตญ์ด ๋ฌธํ ์คํ์ผ์ ์ ํฌ์ฐฉํ์๋ค.
- ๊ตฌ์กฐ์ ํ์ ํ์ต: ๋ ์ํผ, ๋ชฉ์ฐจ, ๊ตํต ์ ๋ณด ๋ฑ ๋ค์ํ ๋ฌธ์ ํ์์ ์ธ์ํ๊ณ ํด๋น ๊ตฌ์กฐ๋ก ์์ฑํ๋ ๋ฅ๋ ฅ์ด ์๋ค.
- ๊ธฐ์ด ์ฌ์ค ์ธ์: ์์ธ์ด ์๋, KTX/SRT ๊ตฌ๋ถ, ์์์ ๋ถ ์๋ฆฝ ๋ฑ ๊ธฐ์ด์ ์ธ ์ฌ์ค์ ๋ถ๋ถ์ ์ผ๋ก ๋ง์ถ๊ณ ์๋ค.
3.3 ์ฝ์
๋ฐ๋ณต ํดํ (Repetition Degeneration)
- 10๊ฐ ํ๋กฌํํธ ์ค 3๊ฐ(ํ๋กฌํํธ 1, 4, 8)์์ ์ค๊ฐ ์ด์์ ๋ฐ๋ณต ํดํ ๋ฐ์.
- ํ๋กฌํํธ 4์ ๊ฒฝ์ฐ trigram ๋ฐ๋ณต๋ฅ 87.7%๋ก ๊ฐ์ฅ ์ฌ๊ฐ.
- Base pretrain ๋ชจ๋ธ์์ repetition penalty ์์ด greedy/top-p ์ํ๋ง ์ ๋ํ๋๋ ์ผ๋ฐ์ ์ธ ํ์์ด๋, ํ์ฌ ์์ค์ ๊ฐ์ ์ด ํ์ํจ.
์ฌ์ค ์ ํ๋ (Factual Accuracy)
- ์์น ์ ๋ณด(๊ตํต ์๊ธ), ์ญ์ฌ ์ธ๋ฌผ ์ ์ , ์๋ฆฌ ๋ ์ํผ ๋ฑ ๋ํ ์ผ์์ hallucination ๋น๋ฐ.
- ํนํ ์ญ์ฌ ์ธ๋ฌผ(์ธ์ข ๋์ vs. ํ์กฐ ํผ๋)์์ ๊ฐ์ฒด ๊ตฌ๋ถ ์ค๋ฅ๊ฐ ๋๋๋ฌ์ง.
- 1B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ base ๋ชจ๋ธ๋ก์ ์์ ๋ฒ์ ๋ด์ ํ๊ณ์ด๋, ์ค์ฌ์ฉ์๋ ์ ํฉํ์ง ์์.
์ฝ๋ ์์ฑ ๋ฅ๋ ฅ
- ๊ธฐ์ด์ ์ธ ์ฝ๋ ์์ฑ ์ธ ์ค์ง์ ์ธ ์ฝ๋ ์์ฑ ๋ถ๊ฐ.
- ํ๊ตญ์ด ํนํ ํ์ต ๋ฐ์ดํฐ ํน์ฑ์ ์ฝ๋ ๋น์จ์ด ๋ฎ์ ๊ฒ์ด ์ฃผ์ ์์ธ.
์ํ ๋ฐ ์ฐ์ ๋ฅ๋ ฅ
2 + 2 = 4์์ค์ ๋จ์ ์ฐ์ฐ๋ง ๊ฐ๋ฅํ๋ฉฐ ์ดํ ์ฐ์ ํจํด ๋ชจ๋ฐฉ์ผ๋ก๋ง ๋์.- ์ค์ง์ ์ธ ์์น ์ถ๋ก ๋ฅ๋ ฅ ์์.
์ ๋ฌธ ์ง์ ์ ํ๋
- ๋ ์ํผ, ์๊ธ ๋ฑ ์ ๋ฌธ/์ค์ฉ ์ง์ ๋๋ฉ์ธ์์ ํ์์ ๋ง์ถ๋ ๋ด์ฉ์ ์ ํ์ฑ์ด ๋ฎ์.
3.4 1B Base ๋ชจ๋ธ ๊ด์ ์์์ ์ข ํฉ ํ๊ฐ
์ฌ์ ํ์ต(pretraining)๋ง ์๋ฃ๋ 1.19B base ๋ชจ๋ธ๋ก์, ์ด๋ฒ ์์ฑ ํ์ง ํ๊ฐ ๊ฒฐ๊ณผ๋ ์์ ๋ฒ์ ๋ด์ ํด๋นํ๋ค.
- ๋์ผ ๊ท๋ชจ์ ํ ์คํ์์ค 1B base ๋ชจ๋ธ(์: TinyLlama-1.1B, EXAONE-3.0-1.2B ์ด๊ธฐ ๋ฒ์ ๋ฑ)๊ณผ ๋น๊ต ์ ํ๊ตญ์ด ์ ์ฐฝ์ฑ ์ธก๋ฉด์์๋ ๊ฒฝ์๋ ฅ ์๋ ์์ค.
- Instruction tuning(SFT) ๋ฐ RLHF ์์ด ๋ฐ๋ณต ํดํ๊ฐ ๋ํ๋๋ ๊ฒ์ GPT-2, LLaMA-1 ๋ฑ base ๋ชจ๋ธ์์๋ ๊ณตํต์ ์ผ๋ก ๊ด์ฐฐ๋๋ ํ์์.
- ์ฌ์ค ์ ํ๋์ ํ๊ณ๋ 1B ํ๋ผ๋ฏธํฐ์ ๊ตฌ์กฐ์ ์ ์ฝ์ผ๋ก, 7B+ ๋ชจ๋ธ์์ ๊ฐ์ ์ด ๊ธฐ๋๋จ.
4. ๊ฐ์ ๋ฐฉํฅ
4.1 ๋จ๊ธฐ ๊ฐ์ (ํ์ฌ ๋ชจ๋ธ์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅ)
| ๋ฐฉ๋ฒ | ํจ๊ณผ | ์ ์ฉ ๋์ด๋ |
|---|---|---|
repetition_penalty=1.1~1.3 ์ ์ฉ |
๋ฐ๋ณต ํดํ ์ํ | ๋ฎ์ (์ถ๋ก ํ๋ผ๋ฏธํฐ ์กฐ์ ) |
no_repeat_ngram_size=3 ์ ์ฉ |
n-gram ๋ฐ๋ณต ์ฐจ๋จ | ๋ฎ์ (์ถ๋ก ํ๋ผ๋ฏธํฐ ์กฐ์ ) |
| temperature ์กฐ์ (0.7~0.75) | ์์ฑ ์์ ์ฑ ํฅ์ | ๋ฎ์ |
4.2 ์ค๊ธฐ ๊ฐ์ (์ถ๊ฐ ํ์ต ํ์)
SFT (Supervised Fine-Tuning)
- ์ง์๋ฌธ ๋ฐ๋ฅด๊ธฐ(instruction-following) ๋ฅ๋ ฅ ๋ถ์ฌ
- ๋ฐ๋ณต ํดํ ๊ทผ๋ณธ์ ์ํ
- ์ถ์ฒ ๋ฐ์ดํฐ: Open-Platypus-ko, KoAlpaca, LIMA-ko ๋ฑ
์ฝ๋ ๋ฐ ์ํ ๋ฐ์ดํฐ ์ถ๊ฐ pretraining
- Python/์ฝ๋ ๋ฐ์ดํฐ(The Stack, CodeSearchNet ๋ฑ) ํผํฉ ํ์ต
- ์์ ๋ฐ chain-of-thought ๋ฐ์ดํฐ ์ถ๊ฐ
- ๊ถ์ฅ ๋น์จ: ์ฝ๋ 10
15%, ์ผ๋ฐ ํ๊ตญ์ด 8590%
RLHF / DPO
- ์ฌ์ค ์ ํ๋ ๋ฐ ์ง์ ์ค์ ์ถ๊ฐ ๊ฐ์
- 1B ๊ท๋ชจ์์๋ DPO(Direct Preference Optimization)๊ฐ ๋น์ฉ ๋๋น ํจ๊ณผ์
4.3 ์ฅ๊ธฐ ๊ฐ์ (๋ชจ๋ธ ๊ท๋ชจ ํ์ฅ)
- 7B+ ๋ชจ๋ธ๋ก ํ์ฅ ์ ์ฌ์ค ์ ํ๋, ์ฝ๋ ์์ฑ, ์ํ ์ถ๋ก ๋ฅ๋ ฅ ์ ๋ฐ์ ์ผ๋ก ํฅ์ ๊ธฐ๋.
- ํ์ฌ ํ๋์จ์ด(8ร B200, ~1.47TB VRAM)๋ก 7B FSDP ํ์ต ์ถฉ๋ถํ ๊ฐ๋ฅ.
- ํ๊ตญ์ด ํนํ 7B ๋ชจ๋ธ pretraining ํ SFT โ DPO ํ์ดํ๋ผ์ธ ์ ์ฉ ๊ถ์ฅ.
5. ๊ฒฐ๋ก
korean_1b_fp8_run1 ๋ชจ๋ธ(1.19B, 34k steps)์ ํ๊ตญ์ด ๋ฌธ๋ฒ ๋ฐ ๋ฌธ์ฒด ์์ฑ ๋ฅ๋ ฅ์ ๊ฐ์ถ base ๋ชจ๋ธ๋ก์์ ๊ธฐ๋ณธ ์ญํ ์ ์ํํ๊ณ ์๋ค. ๋ธ๋ก๊ทธยท์ผ์ยท์์ ์ ํ
์คํธ ์์ฑ์์ ์์ฐ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, FP8 + DDP ํ๊ฒฝ์ ํ์ต ํ์ดํ๋ผ์ธ์ด ์์ ์ ์ผ๋ก ๋์ํ์์ ํ์ธํ์๋ค.
๊ทธ๋ฌ๋ ์ฌ์ค ์ ํ๋, ๋ฐ๋ณต ํดํ, ์ฝ๋/์ํ ๋ฅ๋ ฅ ๋ถ์ฌ๋ ํ์ฌ ๋ชจ๋ธ์ ๋ช ํํ ํ๊ณ์ด๋ค. ์ด๋ 1B base ๋ชจ๋ธ์์ ์ผ๋ฐ์ ์ผ๋ก ๊ธฐ๋๋๋ ์์ค์ด๋ฉฐ, SFT โ DPO ํ์ดํ๋ผ์ธ์ ํตํด ์๋น ๋ถ๋ถ ๊ฐ์ ๊ฐ๋ฅํ๋ค. ์ถํ 7B ๊ท๋ชจ๋ก์ ํ์ฅ์ ํตํด ์ฌ์ค ์ ํ๋์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ทผ๋ณธ์ ์ธ ํฅ์์ ๋๋ชจํ๋ ๊ฒ์ด ๊ถ์ฅ๋๋ค.
์ด ๋ณด๊ณ ์๋ eval/generate.py๋ฅผ ํตํด ์์ฑ๋ ๊ฒฐ๊ณผ๋ฅผ ์๋์ผ๋ก ๋ถ์ํ ๊ฒ์ด๋ค.
๊ด๋ จ ํ๊ฐ ์คํฌ๋ฆฝํธ: /PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/generate.py