| # 02. ์์ฑ ํ์ง ํ๊ฐ ๋ณด๊ณ ์ |
|
|
| **๋ชจ๋ธ**: `korean_1b_fp8_run1` (1.19B ํ๋ผ๋ฏธํฐ, 34,000 steps) |
| **ํ๊ฐ์ผ**: 2026-02-26 |
| **ํ๊ฐ์**: llm-bang ์คํํ |
|
|
| --- |
|
|
| ## 1. ์คํ ์ค์ |
|
|
| | ํญ๋ชฉ | ๊ฐ | |
| |------|----| |
| | ๋ชจ๋ธ | korean_1b_fp8_run1 (์ฒดํฌํฌ์ธํธ: step-34000) | |
| | ํ๋ผ๋ฏธํฐ ์ | ~1.19B | |
| | ์ถ๋ก dtype | BF16 | |
| | ํ๋์จ์ด | 1ร NVIDIA B200 (192GB VRAM) | |
| | temperature | 0.8 | |
| | top_p | 0.9 | |
| | top_k | 50 | |
| | max_new_tokens | 200 | |
| | ํ
์คํธ ํ๋กฌํํธ ์ | 10๊ฐ | |
| | ํ๋กฌํํธ ์นดํ
๊ณ ๋ฆฌ | ์ฌ์ค ์ง์, ์ฐฝ์ ์์ฑ, ์ฝ๋, ์ํ, ์๋ฆฌ, ์ญ์ฌ | |
| |
| > **์ฐธ๊ณ **: ์ด ๋ณด๊ณ ์๋ ์ฌ์ ํ์ต(pretraining)๋ง ์๋ฃ๋ base ๋ชจ๋ธ์ ๋์์ผ๋ก ํ๋ค. Instruction tuning(SFT) ๋ฐ RLHF๋ ์ ์ฉ๋์ง ์์๋ค. |
| |
| --- |
| |
| ## 2. ์์ฑ ๊ฒฐ๊ณผ |
| |
| ### ํ๋กฌํํธ 1: ์ฌ์ค ์ง์ โ ์๋ |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ํ๊ตญ์ ์๋๋ |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > ํ๊ตญ์ ์๋๋์์ธ์
๋๋ค.'์์ธ'์ด๋ผ๋ ๋์๋ ๋ํ๋ฏผ๊ตญ ์๋์ด์, '์์ธ'์ด๋ผ๋ ๋์์ ์ด๋ฆ์ ๋ํ๋ฏผ๊ตญ ์๋์ด์, ์์ธ์ ์์ด๋ฆ์ด๊ธฐ๋ ํ 'ํ์ฑ'์
๋๋ค.'ํ์ฑ'์ ์์ธ์ ์ ์ด๋ฆ์ด๊ณ , 'ํ์ฑ'์ ์๋ ์์ธ์ ์ ์ด๋ฆ์ด๊ธฐ๋ ํฉ๋๋ค. (์ดํ ๋ฐ๋ณต...) |
| |
| **๋ถ์**: |
| - ์์ธ์ด ์๋๋ผ๋ ํต์ฌ ์ฌ์ค์ ์ฌ๋ฐ๋ฅด๊ฒ ์์ฑํจ. |
| - 'ํ์ฑ'์ด ์์ธ์ ์ ์ด๋ฆ์ด๋ผ๋ ์ฌ์ค๋ ๋ง์ง๋ง, ์ดํ ๋์ผ ์ค๋ช
์ด ๋ฐ๋ณต์ ์ผ๋ก ๋์ด๋๋ฉฐ ํดํํจ. |
| - ์ฌ์ค ์ ํ๋๋ ๋ถ๋ถ์ (Partial). ๋ฐ๋ณต ํดํ(repetition degeneration) ์งํ ์กด์ฌ. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 2: ๊ฐ๋
์ค๋ช
โ ์ธ๊ณต์ง๋ฅ |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ์ธ๊ณต์ง๋ฅ์ด๋ |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > ์ธ๊ณต์ง๋ฅ์ด๋?1. '์ธ๊ณต์ง๋ฅ(AI)'์ ๋ฑ์ฅ ๋ฐฐ๊ฒฝ 2. ์ธ๊ณต์ง๋ฅ์ด ๊ฐ์ง ํน์ง 3. ์ธ๊ณต์ง๋ฅ์ ๊ธฐ๋ฅ 4. ์ธ๊ณต์ง๋ฅ์ ๋ฌธ์ ์ 5. ์ธ๊ณต์ง๋ฅ์ ๋ฏธ๋... (๋ชฉ์ฐจ ๊ตฌ์กฐ ๋ฐ๋ณต) |
| |
| **๋ถ์**: |
| - ๋ ํฌํธ ๋๋ ์์ธ์ด์ ๋ชฉ์ฐจ ๊ตฌ์กฐ๋ฅผ ์์ฑํจ. ์ค์ ๋ด์ฉ ์์ด ๋ชฉ์ฐจ๋ง ๋์ด. |
| - ํ์ต ๋ฐ์ดํฐ์ ๋ ํฌํธ/๋ชฉ์ฐจ ํ์์ ๋ฌธ์๊ฐ ์๋น ๋น์จ ํฌํจ๋์ด ์์์ ์์ฌ. |
| - ๋ฐ๋ณต์ ์์ผ๋ ์ ๋ณด ๋ฐ๋๊ฐ ๋งค์ฐ ๋ฎ์. ์๋ฏธ ์๋ ๋ต๋ณ์ผ๋ก ๋ณด๊ธฐ ์ด๋ ค์. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 3: ์ฐฝ์ ์์ฑ โ ์ผ์ ์์ |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ์ค๋ ๋ ์จ๊ฐ ์ข์์ |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > ๋ ์ด์ฌํ ํ์ด์..์ด๋ฒ์๋ ์ฌ๋ฆ์ ์ฃผ์ ๋ก ํ ๋
ธ๋๋ค์ ๋ชจ์์ ์๊ฐํด๋๋ฆฌ๋ ค๊ณ ํด์..'SUMMER SONIC'์ ๊ฐ์ ธ์์ด์... |
| |
| **๋ถ์**: |
| - ์์ฐ์ค๋ฌ์ด ๋ธ๋ก๊ทธ ํฌ์คํธ ํค์ผ๋ก ์์ฑ๋จ. |
| - ๋ ์จ ์ด์ผ๊ธฐ์์ ๋
ธ๋ ์ถ์ฒ์ผ๋ก ์ ํ๋์์ผ๋ฉฐ, ์ฐฝ์์ ์ด์ง๋ง ๋งฅ๋ฝ์ด ๋ค์ ๋ฒ์ด๋จ. |
| - 10๊ฐ ํ๋กฌํํธ ์ค ๋ฐ๋ณต์ด ์๋ ๊ฐ์ฅ ์์ฐ์ค๋ฌ์ด ์์ฑ ์ฌ๋ก ์ค ํ๋. |
| - ํ์ต ๋ฐ์ดํฐ์์ ์ผ์ ๋ธ๋ก๊ทธ ํฌ์คํธ ์คํ์ผ์ด ๋ชจ๋ธ์ ์ ํก์๋ ๊ฒ์ผ๋ก ๋ณด์. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 4: ์ฌ์ค ์ง์ โ ์ญ์ฌ์ ์ฌ๊ฑด |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ๋ํ๋ฏผ๊ตญ์ ์ญ์ฌ์์ ๊ฐ์ฅ ์ค์ํ ์ฌ๊ฑด์ |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > ๋ํ๋ฏผ๊ตญ ์์์ ๋ถ ์๋ฆฝ์
๋๋ค. (์ดํ ๊ฐ์ ๋ฌธ์ฅ 11๋ฒ ์ด์ ๋ฐ๋ณต) |
| |
| **๋ถ์**: |
| - '๋ํ๋ฏผ๊ตญ ์์์ ๋ถ ์๋ฆฝ'์ด๋ผ๋ ํต์ฌ ์ฌ์ค ์์ฒด๋ ์ญ์ฌ์ ์ผ๋ก ํ๋นํ ๋ต๋ณ์. |
| - ๊ทธ๋ฌ๋ ์ดํ ๋์ผ ๋ฌธ์ฅ์ด 11๋ฒ ์ด์ ๋ฐ๋ณต๋๋ ์ฌ๊ฐํ ๋ฐ๋ณต ํดํ๊ฐ ๋ฐ์ํจ. |
| - Trigram repetition ๋น์จ: **87.7%** โ ๊ฐ์ฅ ์ฌ๊ฐํ ๋ฐ๋ณต ํดํ ์ฌ๋ก. |
| - Beam search ๋๋ repetition penalty ์์ด greedy/top-p ์ํ๋ง๋ง์ผ๋ก๋ ์ด๋ฌํ ํดํ๊ฐ ๋น๋ฒํ๊ฒ ๋ํ๋จ. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 5: ์ค์ฉ ์ ๋ณด โ ๊ตํต |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ์์ธ์์ ๋ถ์ฐ๊น์ง ๊ฐ๋ ๋ฐฉ๋ฒ์ |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > KTX์ SRT ๋ ๊ฐ์ง. ์๊ธ ์ ๋ณด ์ ๊ณต (๋ถ์ ํํ ์์น). |
| |
| **๋ถ์**: |
| - ๊ตฌ์กฐ์ ์ผ๋ก ์ ๋๋ ๋ต๋ณ์ ์์ฑํจ. |
| - KTX์ SRT๋ฅผ ๊ตฌ๋ถํ๋ ๊ฒ์ ์ ํํจ. |
| - ๊ทธ๋ฌ๋ ์๊ธ ์์น๊ฐ ์ค์ ์ ๋ค๋ฆ โ ์์น์ ์ฌ์ค(hallucination) ๋ฌธ์ ๋ฐ์. |
| - 1B ๋ชจ๋ธ์ ์ฌ์ค ๊ธฐ์ต ํ๊ณ๊ฐ ๋๋ฌ๋๋ ์ ํ์ ์ธ ์ฌ๋ก. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 6: ์ฝ๋ ์์ฑ โ Python |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ๋ค์์ ํ์ด์ฌ ์ฝ๋์
๋๋ค: |
| def hello(): |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > print("Hello World!"); ์ดํ ๋ฐ๋ณต ํดํ. |
| |
| **๋ถ์**: |
| - ๊ธฐ์ด์ ์ธ `print("Hello World!")` ์์ฑ์ ๊ฐ๋ฅํจ. |
| - ์ดํ ์๋ฏธ ์๋ ์ฝ๋ ์์ฑ ์์ด ๋ฐ๋ณต ํดํ๋ก ์ง์
. |
| - ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ๋งค์ฐ ์ ํ์ ์. |
| - 1B ํ๊ตญ์ด ํนํ ๋ชจ๋ธ์ ํน์ฑ์ ์ฝ๋ ํ์ต ๋ฐ์ดํฐ ๋น์จ์ด ๋ฎ์ ์ฝ๋ ๋ฅ๋ ฅ์ด ๋ถ์กฑํ ๊ฒ์ผ๋ก ๋ณด์. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 7: ์ํ โ ์ฐ์ |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| 1 + 1 = 2์ด๊ณ , 2 + 2 = |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > 4์ธ๋ฐ, ์ดํ n + 2 = ... ํจํด ๋ฐ๋ณตํ๋ฉฐ ์ ์ ์ค๋ต. 21 + 2 = 40, 22 + 2 = 44 ๋ฑ. |
| |
| **๋ถ์**: |
| - `2 + 2 = 4`๋ ์ฌ๋ฐ๋ฅด๊ฒ ์์ฑํจ. |
| - ์ดํ ๋ง์
ํจํด์ ๊ณ์ ์ด์ด๊ฐ์ง๋ง ์์น๊ฐ ์ ์ ํ๋ ค์ง (์: `21 + 2 = 40`, `22 + 2 = 44`). |
| - ์ค์ ์ฐ์ ์ฐ์ฐ ๋ฅ๋ ฅ์ ์์ผ๋ฉฐ, ์ซ์ ํจํด์ ํ๋ฉด์ ์ผ๋ก ๋ชจ๋ฐฉํ๋ ์์ค์. |
| - ์ํ์ ์ถ๋ก ๋ฅ๋ ฅ์ pretrain๋ง์ผ๋ก๋ ํ์ฑ๋๊ธฐ ์ด๋ ค์ฐ๋ฉฐ, ์์ ๋ฐ์ดํฐ ์ถ๊ฐ ๋ฐ chain-of-thought ํ์ต์ด ํ์ํจ. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 8: ์ฐฝ์ ์์ฑ โ ์์ ์์ |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ๋ด์ด ์ค๋ฉด ๊ฝ์ด ํผ๊ณ |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > ๊ฝ์ด ์ง๋ฉด ์ด๋งค๊ฐ ์ด๋ฆฐ๋ค... ๋ง๋ฌผ์ด ์์ํ๋ ๋ด... (๋ฐ๋ณต) |
| |
| **๋ถ์**: |
| - ์์ ยท์์ ์ ์์ ํค์ ์ ํฌ์ฐฉํจ. |
| - ํ๊ตญ์ด ๋ฌธํ์ ํํ ํจํด(๊ณ์ ๋ฌ์ฌ, ์์ฐ ์ํ)์ ์์ฐ์ค๋ฝ๊ฒ ์ด์ด๊ฐ. |
| - ํ๋ฐ๋ถ์์ ๋ฐ๋ณต ํดํ๋ก ์ง์
ํ์ง๋ง, ์ด๋ฐ๋ถ ์์ฑ ํ์ง์ ์ํธํจ. |
| - ํ๊ตญ์ด ๋ฌธํ ๋ฐ ์ํ ์คํ์ผ ํ์ต์ด ์ ๋์ด ์์์ ์์ฌ. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 9: ์ค์ฉ ์ง์ โ ์๋ฆฌ ๋ ์ํผ |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ๋ง์๋ ๊น์น์ฐ๊ฐ๋ฅผ ๋ง๋ค๋ ค๋ฉด |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > ์ฐน์์ ๋ถ๋ ค์ผ ํฉ๋๋ค... (์๋ชป๋ ๋ ์ํผ) |
| |
| **๋ถ์**: |
| - ๋ ์ํผ ํ์(์ฌ๋ฃ ๋์ด, ์์ ์ค๋ช
)์ ๋ง์ถ๊ณ ์์. |
| - ๋ด์ฉ์ด ๋ถ์ ํํจ: ๊น์น์ฐ๊ฐ ๋ ์ํผ์ ์ฐน์์ ์ฌ์ฉํ์ง ์์. |
| - ๋๋ฉ์ธ ํนํ ์ง์์์์ hallucination์ด ๋ช
ํํ๊ฒ ๋๋ฌ๋๋ ์ฌ๋ก. |
| - 1B ๋ชจ๋ธ์ด ๋ ์ํผ ํ์์ ํ์ตํ์ผ๋ ์ค์ ์๋ฆฌ ์ง์์ ์ ํ์ฑ์ ๋ด๋ณด๋์ง ์์. |
| |
| --- |
| |
| ### ํ๋กฌํํธ 10: ์ฌ์ค ์ง์ โ ์ญ์ฌ ์ธ๋ฌผ |
| |
| **์
๋ ฅ ํ๋กฌํํธ**: |
| ``` |
| ์ธ์ข
๋์์ |
| ``` |
| |
| **์์ฑ ๊ฒฐ๊ณผ**: |
| |
| > ์กฐ์ ์ ๊ฑด๊ตญํ๊ณ ... (์ธ์ข
์ด ์๋๋ผ ํ์กฐ์ ์
์ ์ ์์ ). ์ฌ์ค ์ค๋ฅ ๋ค์. |
| |
| **๋ถ์**: |
| - ์ธ์ข
๋์์ ๊ฐ์ฅ ๋ํ์ ์ธ ์
์ ์ธ ํ๋ฏผ์ ์ ์ฐฝ์ ๋ฅผ ์ธ๊ธํ์ง ์์. |
| - ์กฐ์ ๊ฑด๊ตญ์ ํ์กฐ ์ด์ฑ๊ณ์ ์
์ ์ผ๋ก, ์ธ์ข
๋์๊ณผ ํผ๋ํ๋ ์ฌ๊ฐํ ์ฌ์ค ์ค๋ฅ. |
| - ์ญ์ฌ ์ธ๋ฌผ ๊ด๋ จ ์ฌ์ค ์ ํ๋๊ฐ ๋ฎ์. |
| - 1B ๋ชจ๋ธ์ ์ฌ์ค ๊ธฐ์ต ๋ฐ ๊ฐ์ฒด ๊ตฌ๋ถ ํ๊ณ๋ฅผ ๋ช
ํํ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก. |
| |
| --- |
| |
| ## 3. ์ข
ํฉ ๋ถ์ |
| |
| ### 3.1 ์ ๋ ์งํ ์์ฝ |
| |
| | ํ๋กฌํํธ | ์นดํ
๊ณ ๋ฆฌ | ๋ฐ๋ณต ํดํ | ์ฌ์ค ์ ํ๋ | ์์ฐ์ค๋ฌ์ | |
| |----------|----------|-----------|-------------|-----------| |
| | 1. ํ๊ตญ์ ์๋๋ | ์ฌ์ค ์ง์ | ์ค๊ฐ | ๋ถ๋ถ์ | ๋ณดํต | |
| | 2. ์ธ๊ณต์ง๋ฅ์ด๋ | ๊ฐ๋
์ค๋ช
| ์์ | ๋ฎ์ (๋ฌด๋ด์ฉ) | ๋ฎ์ | |
| | 3. ์ค๋ ๋ ์จ๊ฐ ์ข์์ | ์ฐฝ์ ์์ฑ | ์์ | N/A | ๋์ | |
| | 4. ๋ํ๋ฏผ๊ตญ์ ์ญ์ฌ | ์ฌ์ค ์ง์ | ์ฌ๊ฐ (87.7%) | ๋ถ๋ถ์ | ๋ฎ์ | |
| | 5. ์์ธโ๋ถ์ฐ ๊ตํต | ์ค์ฉ ์ ๋ณด | ์์ | ๋ถ๋ถ์ | ๋์ | |
| | 6. ํ์ด์ฌ ์ฝ๋ | ์ฝ๋ ์์ฑ | ์ค๊ฐ | ๋ฎ์ | ๋ฎ์ | |
| | 7. 1+1=2, 2+2= | ์ํ | ์ค๊ฐ | ๋ฎ์ | ๋ฎ์ | |
| | 8. ๋ด์ด ์ค๋ฉด | ์ฐฝ์/์์ | ๊ฒฝ๋ฏธ | N/A | ๋์ | |
| | 9. ๊น์น์ฐ๊ฐ ๋ ์ํผ | ์ค์ฉ ์ง์ | ์์ | ๋ฎ์ | ๋ณดํต | |
| | 10. ์ธ์ข
๋์์ | ์ญ์ฌ ์ธ๋ฌผ | ์์ | ๋งค์ฐ ๋ฎ์ | ๋ณดํต | |
| |
| ### 3.2 ๊ฐ์ |
| |
| 1. **ํ๊ตญ์ด ๋ฌธ๋ฒ ๋ฐ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ ์์ฑ**: ๋ฌธ๋ฒ์ ์ผ๋ก ์ฌ๋ฐ๋ฅธ ํ๊ตญ์ด ๋ฌธ์ฅ์ ์์ฑํ๋ฉฐ, ๋ธ๋ก๊ทธยท์ผ์ ์์ ํค์์ ํนํ ์์ฐ์ค๋ฝ๋ค. |
| 2. **๋ฌธํ์ ยท์์ ์ ํํ**: ์์ ์์ ํ๋กฌํํธ(ํ๋กฌํํธ 8)์์ ํ๊ตญ์ด ๋ฌธํ ์คํ์ผ์ ์ ํฌ์ฐฉํ์๋ค. |
| 3. **๊ตฌ์กฐ์ ํ์ ํ์ต**: ๋ ์ํผ, ๋ชฉ์ฐจ, ๊ตํต ์ ๋ณด ๋ฑ ๋ค์ํ ๋ฌธ์ ํ์์ ์ธ์ํ๊ณ ํด๋น ๊ตฌ์กฐ๋ก ์์ฑํ๋ ๋ฅ๋ ฅ์ด ์๋ค. |
| 4. **๊ธฐ์ด ์ฌ์ค ์ธ์**: ์์ธ์ด ์๋, KTX/SRT ๊ตฌ๋ถ, ์์์ ๋ถ ์๋ฆฝ ๋ฑ ๊ธฐ์ด์ ์ธ ์ฌ์ค์ ๋ถ๋ถ์ ์ผ๋ก ๋ง์ถ๊ณ ์๋ค. |
| |
| ### 3.3 ์ฝ์ |
| |
| 1. **๋ฐ๋ณต ํดํ (Repetition Degeneration)** |
| - 10๊ฐ ํ๋กฌํํธ ์ค 3๊ฐ(ํ๋กฌํํธ 1, 4, 8)์์ ์ค๊ฐ ์ด์์ ๋ฐ๋ณต ํดํ ๋ฐ์. |
| - ํ๋กฌํํธ 4์ ๊ฒฝ์ฐ trigram ๋ฐ๋ณต๋ฅ 87.7%๋ก ๊ฐ์ฅ ์ฌ๊ฐ. |
| - Base pretrain ๋ชจ๋ธ์์ repetition penalty ์์ด greedy/top-p ์ํ๋ง ์ ๋ํ๋๋ ์ผ๋ฐ์ ์ธ ํ์์ด๋, ํ์ฌ ์์ค์ ๊ฐ์ ์ด ํ์ํจ. |
| |
| 2. **์ฌ์ค ์ ํ๋ (Factual Accuracy)** |
| - ์์น ์ ๋ณด(๊ตํต ์๊ธ), ์ญ์ฌ ์ธ๋ฌผ ์
์ , ์๋ฆฌ ๋ ์ํผ ๋ฑ ๋ํ
์ผ์์ hallucination ๋น๋ฐ. |
| - ํนํ ์ญ์ฌ ์ธ๋ฌผ(์ธ์ข
๋์ vs. ํ์กฐ ํผ๋)์์ ๊ฐ์ฒด ๊ตฌ๋ถ ์ค๋ฅ๊ฐ ๋๋๋ฌ์ง. |
| - 1B ํ๋ผ๋ฏธํฐ ๊ท๋ชจ์ base ๋ชจ๋ธ๋ก์ ์์ ๋ฒ์ ๋ด์ ํ๊ณ์ด๋, ์ค์ฌ์ฉ์๋ ์ ํฉํ์ง ์์. |
| |
| 3. **์ฝ๋ ์์ฑ ๋ฅ๋ ฅ** |
| - ๊ธฐ์ด์ ์ธ ์ฝ๋ ์์ฑ ์ธ ์ค์ง์ ์ธ ์ฝ๋ ์์ฑ ๋ถ๊ฐ. |
| - ํ๊ตญ์ด ํนํ ํ์ต ๋ฐ์ดํฐ ํน์ฑ์ ์ฝ๋ ๋น์จ์ด ๋ฎ์ ๊ฒ์ด ์ฃผ์ ์์ธ. |
| |
| 4. **์ํ ๋ฐ ์ฐ์ ๋ฅ๋ ฅ** |
| - `2 + 2 = 4` ์์ค์ ๋จ์ ์ฐ์ฐ๋ง ๊ฐ๋ฅํ๋ฉฐ ์ดํ ์ฐ์ ํจํด ๋ชจ๋ฐฉ์ผ๋ก๋ง ๋์. |
| - ์ค์ง์ ์ธ ์์น ์ถ๋ก ๋ฅ๋ ฅ ์์. |
| |
| 5. **์ ๋ฌธ ์ง์ ์ ํ๋** |
| - ๋ ์ํผ, ์๊ธ ๋ฑ ์ ๋ฌธ/์ค์ฉ ์ง์ ๋๋ฉ์ธ์์ ํ์์ ๋ง์ถ๋ ๋ด์ฉ์ ์ ํ์ฑ์ด ๋ฎ์. |
| |
| ### 3.4 1B Base ๋ชจ๋ธ ๊ด์ ์์์ ์ข
ํฉ ํ๊ฐ |
| |
| ์ฌ์ ํ์ต(pretraining)๋ง ์๋ฃ๋ 1.19B base ๋ชจ๋ธ๋ก์, ์ด๋ฒ ์์ฑ ํ์ง ํ๊ฐ ๊ฒฐ๊ณผ๋ **์์ ๋ฒ์ ๋ด**์ ํด๋นํ๋ค. |
| |
| - ๋์ผ ๊ท๋ชจ์ ํ ์คํ์์ค 1B base ๋ชจ๋ธ(์: TinyLlama-1.1B, EXAONE-3.0-1.2B ์ด๊ธฐ ๋ฒ์ ๋ฑ)๊ณผ ๋น๊ต ์ ํ๊ตญ์ด ์ ์ฐฝ์ฑ ์ธก๋ฉด์์๋ ๊ฒฝ์๋ ฅ ์๋ ์์ค. |
| - Instruction tuning(SFT) ๋ฐ RLHF ์์ด ๋ฐ๋ณต ํดํ๊ฐ ๋ํ๋๋ ๊ฒ์ GPT-2, LLaMA-1 ๋ฑ base ๋ชจ๋ธ์์๋ ๊ณตํต์ ์ผ๋ก ๊ด์ฐฐ๋๋ ํ์์. |
| - ์ฌ์ค ์ ํ๋์ ํ๊ณ๋ 1B ํ๋ผ๋ฏธํฐ์ ๊ตฌ์กฐ์ ์ ์ฝ์ผ๋ก, 7B+ ๋ชจ๋ธ์์ ๊ฐ์ ์ด ๊ธฐ๋๋จ. |
| |
| --- |
| |
| ## 4. ๊ฐ์ ๋ฐฉํฅ |
| |
| ### 4.1 ๋จ๊ธฐ ๊ฐ์ (ํ์ฌ ๋ชจ๋ธ์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅ) |
| |
| | ๋ฐฉ๋ฒ | ํจ๊ณผ | ์ ์ฉ ๋์ด๋ | |
| |------|------|------------| |
| | `repetition_penalty=1.1~1.3` ์ ์ฉ | ๋ฐ๋ณต ํดํ ์ํ | ๋ฎ์ (์ถ๋ก ํ๋ผ๋ฏธํฐ ์กฐ์ ) | |
| | `no_repeat_ngram_size=3` ์ ์ฉ | n-gram ๋ฐ๋ณต ์ฐจ๋จ | ๋ฎ์ (์ถ๋ก ํ๋ผ๋ฏธํฐ ์กฐ์ ) | |
| | temperature ์กฐ์ (0.7~0.75) | ์์ฑ ์์ ์ฑ ํฅ์ | ๋ฎ์ | |
|
|
| ### 4.2 ์ค๊ธฐ ๊ฐ์ (์ถ๊ฐ ํ์ต ํ์) |
|
|
| 1. **SFT (Supervised Fine-Tuning)** |
| - ์ง์๋ฌธ ๋ฐ๋ฅด๊ธฐ(instruction-following) ๋ฅ๋ ฅ ๋ถ์ฌ |
| - ๋ฐ๋ณต ํดํ ๊ทผ๋ณธ์ ์ํ |
| - ์ถ์ฒ ๋ฐ์ดํฐ: Open-Platypus-ko, KoAlpaca, LIMA-ko ๋ฑ |
|
|
| 2. **์ฝ๋ ๋ฐ ์ํ ๋ฐ์ดํฐ ์ถ๊ฐ pretraining** |
| - Python/์ฝ๋ ๋ฐ์ดํฐ(The Stack, CodeSearchNet ๋ฑ) ํผํฉ ํ์ต |
| - ์์ ๋ฐ chain-of-thought ๋ฐ์ดํฐ ์ถ๊ฐ |
| - ๊ถ์ฅ ๋น์จ: ์ฝ๋ 10~15%, ์ผ๋ฐ ํ๊ตญ์ด 85~90% |
|
|
| 3. **RLHF / DPO** |
| - ์ฌ์ค ์ ํ๋ ๋ฐ ์ง์ ์ค์ ์ถ๊ฐ ๊ฐ์ |
| - 1B ๊ท๋ชจ์์๋ DPO(Direct Preference Optimization)๊ฐ ๋น์ฉ ๋๋น ํจ๊ณผ์ |
|
|
| ### 4.3 ์ฅ๊ธฐ ๊ฐ์ (๋ชจ๋ธ ๊ท๋ชจ ํ์ฅ) |
|
|
| - **7B+ ๋ชจ๋ธ**๋ก ํ์ฅ ์ ์ฌ์ค ์ ํ๋, ์ฝ๋ ์์ฑ, ์ํ ์ถ๋ก ๋ฅ๋ ฅ ์ ๋ฐ์ ์ผ๋ก ํฅ์ ๊ธฐ๋. |
| - ํ์ฌ ํ๋์จ์ด(8ร B200, ~1.47TB VRAM)๋ก 7B FSDP ํ์ต ์ถฉ๋ถํ ๊ฐ๋ฅ. |
| - ํ๊ตญ์ด ํนํ 7B ๋ชจ๋ธ pretraining ํ SFT โ DPO ํ์ดํ๋ผ์ธ ์ ์ฉ ๊ถ์ฅ. |
|
|
| --- |
|
|
| ## 5. ๊ฒฐ๋ก |
|
|
| `korean_1b_fp8_run1` ๋ชจ๋ธ(1.19B, 34k steps)์ ํ๊ตญ์ด ๋ฌธ๋ฒ ๋ฐ ๋ฌธ์ฒด ์์ฑ ๋ฅ๋ ฅ์ ๊ฐ์ถ base ๋ชจ๋ธ๋ก์์ ๊ธฐ๋ณธ ์ญํ ์ ์ํํ๊ณ ์๋ค. ๋ธ๋ก๊ทธยท์ผ์ยท์์ ์ ํ
์คํธ ์์ฑ์์ ์์ฐ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, FP8 + DDP ํ๊ฒฝ์ ํ์ต ํ์ดํ๋ผ์ธ์ด ์์ ์ ์ผ๋ก ๋์ํ์์ ํ์ธํ์๋ค. |
|
|
| ๊ทธ๋ฌ๋ ์ฌ์ค ์ ํ๋, ๋ฐ๋ณต ํดํ, ์ฝ๋/์ํ ๋ฅ๋ ฅ ๋ถ์ฌ๋ ํ์ฌ ๋ชจ๋ธ์ ๋ช
ํํ ํ๊ณ์ด๋ค. ์ด๋ 1B base ๋ชจ๋ธ์์ ์ผ๋ฐ์ ์ผ๋ก ๊ธฐ๋๋๋ ์์ค์ด๋ฉฐ, SFT โ DPO ํ์ดํ๋ผ์ธ์ ํตํด ์๋น ๋ถ๋ถ ๊ฐ์ ๊ฐ๋ฅํ๋ค. ์ถํ 7B ๊ท๋ชจ๋ก์ ํ์ฅ์ ํตํด ์ฌ์ค ์ ํ๋์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ทผ๋ณธ์ ์ธ ํฅ์์ ๋๋ชจํ๋ ๊ฒ์ด ๊ถ์ฅ๋๋ค. |
|
|
| --- |
|
|
| *์ด ๋ณด๊ณ ์๋ `eval/generate.py`๋ฅผ ํตํด ์์ฑ๋ ๊ฒฐ๊ณผ๋ฅผ ์๋์ผ๋ก ๋ถ์ํ ๊ฒ์ด๋ค.* |
| *๊ด๋ จ ํ๊ฐ ์คํฌ๋ฆฝํธ: `/PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/generate.py`* |
|
|