frankenstallm / source /eval /reports /02_generation_report.md
pathcosmos's picture
Upload folder using huggingface_hub (#29)
5b1ff4d

02. ์ƒ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€ ๋ณด๊ณ ์„œ

๋ชจ๋ธ: korean_1b_fp8_run1 (1.19B ํŒŒ๋ผ๋ฏธํ„ฐ, 34,000 steps) ํ‰๊ฐ€์ผ: 2026-02-26 ํ‰๊ฐ€์ž: llm-bang ์‹คํ—˜ํŒ€


1. ์‹คํ—˜ ์„ค์ •

ํ•ญ๋ชฉ ๊ฐ’
๋ชจ๋ธ korean_1b_fp8_run1 (์ฒดํฌํฌ์ธํŠธ: step-34000)
ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜ ~1.19B
์ถ”๋ก  dtype BF16
ํ•˜๋“œ์›จ์–ด 1ร— NVIDIA B200 (192GB VRAM)
temperature 0.8
top_p 0.9
top_k 50
max_new_tokens 200
ํ…Œ์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ ์ˆ˜ 10๊ฐœ
ํ”„๋กฌํ”„ํŠธ ์นดํ…Œ๊ณ ๋ฆฌ ์‚ฌ์‹ค ์ง€์‹, ์ฐฝ์˜ ์ƒ์„ฑ, ์ฝ”๋“œ, ์ˆ˜ํ•™, ์š”๋ฆฌ, ์—ญ์‚ฌ

์ฐธ๊ณ : ์ด ๋ณด๊ณ ์„œ๋Š” ์‚ฌ์ „ํ•™์Šต(pretraining)๋งŒ ์™„๋ฃŒ๋œ base ๋ชจ๋ธ์„ ๋Œ€์ƒ์œผ๋กœ ํ•œ๋‹ค. Instruction tuning(SFT) ๋ฐ RLHF๋Š” ์ ์šฉ๋˜์ง€ ์•Š์•˜๋‹ค.


2. ์ƒ์„ฑ ๊ฒฐ๊ณผ

ํ”„๋กฌํ”„ํŠธ 1: ์‚ฌ์‹ค ์ง€์‹ โ€” ์ˆ˜๋„

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

ํ•œ๊ตญ์˜ ์ˆ˜๋„๋Š”

์ƒ์„ฑ ๊ฒฐ๊ณผ:

ํ•œ๊ตญ์˜ ์ˆ˜๋„๋Š”์„œ์šธ์ž…๋‹ˆ๋‹ค.'์„œ์šธ'์ด๋ผ๋Š” ๋„์‹œ๋Š” ๋Œ€ํ•œ๋ฏผ๊ตญ ์ˆ˜๋„์ด์ž, '์„œ์šธ'์ด๋ผ๋Š” ๋„์‹œ์˜ ์ด๋ฆ„์€ ๋Œ€ํ•œ๋ฏผ๊ตญ ์ˆ˜๋„์ด์ž, ์„œ์šธ์˜ ์˜›์ด๋ฆ„์ด๊ธฐ๋„ ํ•œ 'ํ•œ์„ฑ'์ž…๋‹ˆ๋‹ค.'ํ•œ์„ฑ'์€ ์„œ์šธ์˜ ์˜› ์ด๋ฆ„์ด๊ณ , 'ํ•œ์„ฑ'์€ ์ˆ˜๋„ ์„œ์šธ์˜ ์˜› ์ด๋ฆ„์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. (์ดํ›„ ๋ฐ˜๋ณต...)

๋ถ„์„:

  • ์„œ์šธ์ด ์ˆ˜๋„๋ผ๋Š” ํ•ต์‹ฌ ์‚ฌ์‹ค์€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ƒ์„ฑํ•จ.
  • 'ํ•œ์„ฑ'์ด ์„œ์šธ์˜ ์˜› ์ด๋ฆ„์ด๋ผ๋Š” ์‚ฌ์‹ค๋„ ๋งž์ง€๋งŒ, ์ดํ›„ ๋™์ผ ์„ค๋ช…์ด ๋ฐ˜๋ณต์ ์œผ๋กœ ๋‚˜์—ด๋˜๋ฉฐ ํ‡ดํ™”ํ•จ.
  • ์‚ฌ์‹ค ์ •ํ™•๋„๋Š” ๋ถ€๋ถ„์ (Partial). ๋ฐ˜๋ณต ํ‡ดํ™”(repetition degeneration) ์ง•ํ›„ ์กด์žฌ.

ํ”„๋กฌํ”„ํŠธ 2: ๊ฐœ๋… ์„ค๋ช… โ€” ์ธ๊ณต์ง€๋Šฅ

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

์ธ๊ณต์ง€๋Šฅ์ด๋ž€

์ƒ์„ฑ ๊ฒฐ๊ณผ:

์ธ๊ณต์ง€๋Šฅ์ด๋ž€?1. '์ธ๊ณต์ง€๋Šฅ(AI)'์˜ ๋“ฑ์žฅ ๋ฐฐ๊ฒฝ 2. ์ธ๊ณต์ง€๋Šฅ์ด ๊ฐ€์ง„ ํŠน์ง• 3. ์ธ๊ณต์ง€๋Šฅ์˜ ๊ธฐ๋Šฅ 4. ์ธ๊ณต์ง€๋Šฅ์˜ ๋ฌธ์ œ์  5. ์ธ๊ณต์ง€๋Šฅ์˜ ๋ฏธ๋ž˜... (๋ชฉ์ฐจ ๊ตฌ์กฐ ๋ฐ˜๋ณต)

๋ถ„์„:

  • ๋ ˆํฌํŠธ ๋˜๋Š” ์—์„ธ์ด์˜ ๋ชฉ์ฐจ ๊ตฌ์กฐ๋ฅผ ์ƒ์„ฑํ•จ. ์‹ค์ œ ๋‚ด์šฉ ์—†์ด ๋ชฉ์ฐจ๋งŒ ๋‚˜์—ด.
  • ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋ ˆํฌํŠธ/๋ชฉ์ฐจ ํ˜•์‹์˜ ๋ฌธ์„œ๊ฐ€ ์ƒ๋‹น ๋น„์œจ ํฌํ•จ๋˜์–ด ์žˆ์Œ์„ ์‹œ์‚ฌ.
  • ๋ฐ˜๋ณต์€ ์—†์œผ๋‚˜ ์ •๋ณด ๋ฐ€๋„๊ฐ€ ๋งค์šฐ ๋‚ฎ์Œ. ์˜๋ฏธ ์žˆ๋Š” ๋‹ต๋ณ€์œผ๋กœ ๋ณด๊ธฐ ์–ด๋ ค์›€.

ํ”„๋กฌํ”„ํŠธ 3: ์ฐฝ์˜ ์ƒ์„ฑ โ€” ์ผ์ƒ ์„œ์ˆ 

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

์˜ค๋Š˜ ๋‚ ์”จ๊ฐ€ ์ข‹์•„์„œ

์ƒ์„ฑ ๊ฒฐ๊ณผ:

๋” ์—ด์‹ฌํžˆ ํ–ˆ์–ด์š”..์ด๋ฒˆ์—๋Š” ์—ฌ๋ฆ„์„ ์ฃผ์ œ๋กœ ํ•œ ๋…ธ๋ž˜๋“ค์„ ๋ชจ์•„์„œ ์†Œ๊ฐœํ•ด๋“œ๋ฆฌ๋ ค๊ณ  ํ•ด์š”..'SUMMER SONIC'์„ ๊ฐ€์ ธ์™”์–ด์š”...

๋ถ„์„:

  • ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ ํ†ค์œผ๋กœ ์ƒ์„ฑ๋จ.
  • ๋‚ ์”จ ์ด์•ผ๊ธฐ์—์„œ ๋…ธ๋ž˜ ์ถ”์ฒœ์œผ๋กœ ์ „ํ™˜๋˜์—ˆ์œผ๋ฉฐ, ์ฐฝ์˜์ ์ด์ง€๋งŒ ๋งฅ๋ฝ์ด ๋‹ค์†Œ ๋ฒ—์–ด๋‚จ.
  • 10๊ฐœ ํ”„๋กฌํ”„ํŠธ ์ค‘ ๋ฐ˜๋ณต์ด ์—†๋Š” ๊ฐ€์žฅ ์ž์—ฐ์Šค๋Ÿฌ์šด ์ƒ์„ฑ ์‚ฌ๋ก€ ์ค‘ ํ•˜๋‚˜.
  • ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ์ผ์ƒ ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ ์Šคํƒ€์ผ์ด ๋ชจ๋ธ์— ์ž˜ ํก์ˆ˜๋œ ๊ฒƒ์œผ๋กœ ๋ณด์ž„.

ํ”„๋กฌํ”„ํŠธ 4: ์‚ฌ์‹ค ์ง€์‹ โ€” ์—ญ์‚ฌ์  ์‚ฌ๊ฑด

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์—ญ์‚ฌ์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์‚ฌ๊ฑด์€

์ƒ์„ฑ ๊ฒฐ๊ณผ:

๋Œ€ํ•œ๋ฏผ๊ตญ ์ž„์‹œ์ •๋ถ€ ์ˆ˜๋ฆฝ์ž…๋‹ˆ๋‹ค. (์ดํ›„ ๊ฐ™์€ ๋ฌธ์žฅ 11๋ฒˆ ์ด์ƒ ๋ฐ˜๋ณต)

๋ถ„์„:

  • '๋Œ€ํ•œ๋ฏผ๊ตญ ์ž„์‹œ์ •๋ถ€ ์ˆ˜๋ฆฝ'์ด๋ผ๋Š” ํ•ต์‹ฌ ์‚ฌ์‹ค ์ž์ฒด๋Š” ์—ญ์‚ฌ์ ์œผ๋กœ ํƒ€๋‹นํ•œ ๋‹ต๋ณ€์ž„.
  • ๊ทธ๋Ÿฌ๋‚˜ ์ดํ›„ ๋™์ผ ๋ฌธ์žฅ์ด 11๋ฒˆ ์ด์ƒ ๋ฐ˜๋ณต๋˜๋Š” ์‹ฌ๊ฐํ•œ ๋ฐ˜๋ณต ํ‡ดํ™”๊ฐ€ ๋ฐœ์ƒํ•จ.
  • Trigram repetition ๋น„์œจ: 87.7% โ€” ๊ฐ€์žฅ ์‹ฌ๊ฐํ•œ ๋ฐ˜๋ณต ํ‡ดํ™” ์‚ฌ๋ก€.
  • Beam search ๋˜๋Š” repetition penalty ์—†์ด greedy/top-p ์ƒ˜ํ”Œ๋ง๋งŒ์œผ๋กœ๋Š” ์ด๋Ÿฌํ•œ ํ‡ดํ™”๊ฐ€ ๋นˆ๋ฒˆํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚จ.

ํ”„๋กฌํ”„ํŠธ 5: ์‹ค์šฉ ์ •๋ณด โ€” ๊ตํ†ต

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

์„œ์šธ์—์„œ ๋ถ€์‚ฐ๊นŒ์ง€ ๊ฐ€๋Š” ๋ฐฉ๋ฒ•์€

์ƒ์„ฑ ๊ฒฐ๊ณผ:

KTX์™€ SRT ๋‘ ๊ฐ€์ง€. ์š”๊ธˆ ์ •๋ณด ์ œ๊ณต (๋ถ€์ •ํ™•ํ•œ ์ˆ˜์น˜).

๋ถ„์„:

  • ๊ตฌ์กฐ์ ์œผ๋กœ ์ •๋ˆ๋œ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•จ.
  • KTX์™€ SRT๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์€ ์ •ํ™•ํ•จ.
  • ๊ทธ๋Ÿฌ๋‚˜ ์š”๊ธˆ ์ˆ˜์น˜๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฆ„ โ€” ์ˆ˜์น˜์  ์‚ฌ์‹ค(hallucination) ๋ฌธ์ œ ๋ฐœ์ƒ.
  • 1B ๋ชจ๋ธ์˜ ์‚ฌ์‹ค ๊ธฐ์–ต ํ•œ๊ณ„๊ฐ€ ๋“œ๋Ÿฌ๋‚˜๋Š” ์ „ํ˜•์ ์ธ ์‚ฌ๋ก€.

ํ”„๋กฌํ”„ํŠธ 6: ์ฝ”๋“œ ์ƒ์„ฑ โ€” Python

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

๋‹ค์Œ์€ ํŒŒ์ด์ฌ ์ฝ”๋“œ์ž…๋‹ˆ๋‹ค:
def hello():

์ƒ์„ฑ ๊ฒฐ๊ณผ:

print("Hello World!"); ์ดํ›„ ๋ฐ˜๋ณต ํ‡ดํ™”.

๋ถ„์„:

  • ๊ธฐ์ดˆ์ ์ธ print("Hello World!") ์™„์„ฑ์€ ๊ฐ€๋Šฅํ•จ.
  • ์ดํ›„ ์˜๋ฏธ ์žˆ๋Š” ์ฝ”๋“œ ์ƒ์„ฑ ์—†์ด ๋ฐ˜๋ณต ํ‡ดํ™”๋กœ ์ง„์ž….
  • ์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ์€ ๋งค์šฐ ์ œํ•œ์ ์ž„.
  • 1B ํ•œ๊ตญ์–ด ํŠนํ™” ๋ชจ๋ธ์˜ ํŠน์„ฑ์ƒ ์ฝ”๋“œ ํ•™์Šต ๋ฐ์ดํ„ฐ ๋น„์œจ์ด ๋‚ฎ์•„ ์ฝ”๋“œ ๋Šฅ๋ ฅ์ด ๋ถ€์กฑํ•œ ๊ฒƒ์œผ๋กœ ๋ณด์ž„.

ํ”„๋กฌํ”„ํŠธ 7: ์ˆ˜ํ•™ โ€” ์‚ฐ์ˆ 

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

1 + 1 = 2์ด๊ณ , 2 + 2 =

์ƒ์„ฑ ๊ฒฐ๊ณผ:

4์ธ๋ฐ, ์ดํ›„ n + 2 = ... ํŒจํ„ด ๋ฐ˜๋ณตํ•˜๋ฉฐ ์ ์  ์˜ค๋‹ต. 21 + 2 = 40, 22 + 2 = 44 ๋“ฑ.

๋ถ„์„:

  • 2 + 2 = 4๋Š” ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ƒ์„ฑํ•จ.
  • ์ดํ›„ ๋ง์…ˆ ํŒจํ„ด์„ ๊ณ„์† ์ด์–ด๊ฐ€์ง€๋งŒ ์ˆ˜์น˜๊ฐ€ ์ ์  ํ‹€๋ ค์ง (์˜ˆ: 21 + 2 = 40, 22 + 2 = 44).
  • ์‹ค์ œ ์‚ฐ์ˆ  ์—ฐ์‚ฐ ๋Šฅ๋ ฅ์€ ์—†์œผ๋ฉฐ, ์ˆซ์ž ํŒจํ„ด์„ ํ‘œ๋ฉด์ ์œผ๋กœ ๋ชจ๋ฐฉํ•˜๋Š” ์ˆ˜์ค€์ž„.
  • ์ˆ˜ํ•™์  ์ถ”๋ก  ๋Šฅ๋ ฅ์€ pretrain๋งŒ์œผ๋กœ๋Š” ํ˜•์„ฑ๋˜๊ธฐ ์–ด๋ ค์šฐ๋ฉฐ, ์ˆ˜์‹ ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ ๋ฐ chain-of-thought ํ•™์Šต์ด ํ•„์š”ํ•จ.

ํ”„๋กฌํ”„ํŠธ 8: ์ฐฝ์˜ ์ƒ์„ฑ โ€” ์‹œ์  ์„œ์ˆ 

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

๋ด„์ด ์˜ค๋ฉด ๊ฝƒ์ด ํ”ผ๊ณ 

์ƒ์„ฑ ๊ฒฐ๊ณผ:

๊ฝƒ์ด ์ง€๋ฉด ์—ด๋งค๊ฐ€ ์—ด๋ฆฐ๋‹ค... ๋งŒ๋ฌผ์ด ์†Œ์ƒํ•˜๋Š” ๋ด„... (๋ฐ˜๋ณต)

๋ถ„์„:

  • ์‹œ์ ยท์„œ์ •์  ์„œ์ˆ  ํ†ค์„ ์ž˜ ํฌ์ฐฉํ•จ.
  • ํ•œ๊ตญ์–ด ๋ฌธํ•™์  ํ‘œํ˜„ ํŒจํ„ด(๊ณ„์ ˆ ๋ฌ˜์‚ฌ, ์ž์—ฐ ์ˆœํ™˜)์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด์–ด๊ฐ.
  • ํ›„๋ฐ˜๋ถ€์—์„œ ๋ฐ˜๋ณต ํ‡ดํ™”๋กœ ์ง„์ž…ํ•˜์ง€๋งŒ, ์ดˆ๋ฐ˜๋ถ€ ์ƒ์„ฑ ํ’ˆ์งˆ์€ ์–‘ํ˜ธํ•จ.
  • ํ•œ๊ตญ์–ด ๋ฌธํ•™ ๋ฐ ์ˆ˜ํ•„ ์Šคํƒ€์ผ ํ•™์Šต์ด ์ž˜ ๋˜์–ด ์žˆ์Œ์„ ์‹œ์‚ฌ.

ํ”„๋กฌํ”„ํŠธ 9: ์‹ค์šฉ ์ง€์‹ โ€” ์š”๋ฆฌ ๋ ˆ์‹œํ”ผ

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

๋ง›์žˆ๋Š” ๊น€์น˜์ฐŒ๊ฐœ๋ฅผ ๋งŒ๋“ค๋ ค๋ฉด

์ƒ์„ฑ ๊ฒฐ๊ณผ:

์ฐน์Œ€์„ ๋ถˆ๋ ค์•ผ ํ•ฉ๋‹ˆ๋‹ค... (์ž˜๋ชป๋œ ๋ ˆ์‹œํ”ผ)

๋ถ„์„:

  • ๋ ˆ์‹œํ”ผ ํ˜•์‹(์žฌ๋ฃŒ ๋‚˜์—ด, ์ˆœ์„œ ์„ค๋ช…)์€ ๋งž์ถ”๊ณ  ์žˆ์Œ.
  • ๋‚ด์šฉ์ด ๋ถ€์ •ํ™•ํ•จ: ๊น€์น˜์ฐŒ๊ฐœ ๋ ˆ์‹œํ”ผ์— ์ฐน์Œ€์€ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Œ.
  • ๋„๋ฉ”์ธ ํŠนํ™” ์ง€์‹์—์„œ์˜ hallucination์ด ๋ช…ํ™•ํ•˜๊ฒŒ ๋“œ๋Ÿฌ๋‚˜๋Š” ์‚ฌ๋ก€.
  • 1B ๋ชจ๋ธ์ด ๋ ˆ์‹œํ”ผ ํ˜•์‹์€ ํ•™์Šตํ–ˆ์œผ๋‚˜ ์‹ค์ œ ์š”๋ฆฌ ์ง€์‹์˜ ์ •ํ™•์„ฑ์€ ๋‹ด๋ณด๋˜์ง€ ์•Š์Œ.

ํ”„๋กฌํ”„ํŠธ 10: ์‚ฌ์‹ค ์ง€์‹ โ€” ์—ญ์‚ฌ ์ธ๋ฌผ

์ž…๋ ฅ ํ”„๋กฌํ”„ํŠธ:

์„ธ์ข…๋Œ€์™•์€

์ƒ์„ฑ ๊ฒฐ๊ณผ:

์กฐ์„ ์„ ๊ฑด๊ตญํ•˜๊ณ ... (์„ธ์ข…์ด ์•„๋‹ˆ๋ผ ํƒœ์กฐ์˜ ์—…์ ์„ ์„œ์ˆ ). ์‚ฌ์‹ค ์˜ค๋ฅ˜ ๋‹ค์ˆ˜.

๋ถ„์„:

  • ์„ธ์ข…๋Œ€์™•์˜ ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ์—…์ ์ธ ํ›ˆ๋ฏผ์ •์Œ ์ฐฝ์ œ๋ฅผ ์–ธ๊ธ‰ํ•˜์ง€ ์•Š์Œ.
  • ์กฐ์„  ๊ฑด๊ตญ์€ ํƒœ์กฐ ์ด์„ฑ๊ณ„์˜ ์—…์ ์œผ๋กœ, ์„ธ์ข…๋Œ€์™•๊ณผ ํ˜ผ๋™ํ•˜๋Š” ์‹ฌ๊ฐํ•œ ์‚ฌ์‹ค ์˜ค๋ฅ˜.
  • ์—ญ์‚ฌ ์ธ๋ฌผ ๊ด€๋ จ ์‚ฌ์‹ค ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์Œ.
  • 1B ๋ชจ๋ธ์˜ ์‚ฌ์‹ค ๊ธฐ์–ต ๋ฐ ๊ฐœ์ฒด ๊ตฌ๋ถ„ ํ•œ๊ณ„๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ๋Š” ์‚ฌ๋ก€.

3. ์ข…ํ•ฉ ๋ถ„์„

3.1 ์ •๋Ÿ‰ ์ง€ํ‘œ ์š”์•ฝ

ํ”„๋กฌํ”„ํŠธ ์นดํ…Œ๊ณ ๋ฆฌ ๋ฐ˜๋ณต ํ‡ดํ™” ์‚ฌ์‹ค ์ •ํ™•๋„ ์ž์—ฐ์Šค๋Ÿฌ์›€
1. ํ•œ๊ตญ์˜ ์ˆ˜๋„๋Š” ์‚ฌ์‹ค ์ง€์‹ ์ค‘๊ฐ„ ๋ถ€๋ถ„์  ๋ณดํ†ต
2. ์ธ๊ณต์ง€๋Šฅ์ด๋ž€ ๊ฐœ๋… ์„ค๋ช… ์—†์Œ ๋‚ฎ์Œ (๋ฌด๋‚ด์šฉ) ๋‚ฎ์Œ
3. ์˜ค๋Š˜ ๋‚ ์”จ๊ฐ€ ์ข‹์•„์„œ ์ฐฝ์˜ ์ƒ์„ฑ ์—†์Œ N/A ๋†’์Œ
4. ๋Œ€ํ•œ๋ฏผ๊ตญ์˜ ์—ญ์‚ฌ ์‚ฌ์‹ค ์ง€์‹ ์‹ฌ๊ฐ (87.7%) ๋ถ€๋ถ„์  ๋‚ฎ์Œ
5. ์„œ์šธโ†’๋ถ€์‚ฐ ๊ตํ†ต ์‹ค์šฉ ์ •๋ณด ์—†์Œ ๋ถ€๋ถ„์  ๋†’์Œ
6. ํŒŒ์ด์ฌ ์ฝ”๋“œ ์ฝ”๋“œ ์ƒ์„ฑ ์ค‘๊ฐ„ ๋‚ฎ์Œ ๋‚ฎ์Œ
7. 1+1=2, 2+2= ์ˆ˜ํ•™ ์ค‘๊ฐ„ ๋‚ฎ์Œ ๋‚ฎ์Œ
8. ๋ด„์ด ์˜ค๋ฉด ์ฐฝ์˜/์‹œ์  ๊ฒฝ๋ฏธ N/A ๋†’์Œ
9. ๊น€์น˜์ฐŒ๊ฐœ ๋ ˆ์‹œํ”ผ ์‹ค์šฉ ์ง€์‹ ์—†์Œ ๋‚ฎ์Œ ๋ณดํ†ต
10. ์„ธ์ข…๋Œ€์™•์€ ์—ญ์‚ฌ ์ธ๋ฌผ ์—†์Œ ๋งค์šฐ ๋‚ฎ์Œ ๋ณดํ†ต

3.2 ๊ฐ•์ 

  1. ํ•œ๊ตญ์–ด ๋ฌธ๋ฒ• ๋ฐ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ ์ƒ์„ฑ: ๋ฌธ๋ฒ•์ ์œผ๋กœ ์˜ฌ๋ฐ”๋ฅธ ํ•œ๊ตญ์–ด ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋ฉฐ, ๋ธ”๋กœ๊ทธยท์ผ์ƒ ์„œ์ˆ  ํ†ค์—์„œ ํŠนํžˆ ์ž์—ฐ์Šค๋Ÿฝ๋‹ค.
  2. ๋ฌธํ•™์ ยท์„œ์ •์  ํ‘œํ˜„: ์‹œ์  ์„œ์ˆ  ํ”„๋กฌํ”„ํŠธ(ํ”„๋กฌํ”„ํŠธ 8)์—์„œ ํ•œ๊ตญ์–ด ๋ฌธํ•™ ์Šคํƒ€์ผ์„ ์ž˜ ํฌ์ฐฉํ•˜์˜€๋‹ค.
  3. ๊ตฌ์กฐ์  ํ˜•์‹ ํ•™์Šต: ๋ ˆ์‹œํ”ผ, ๋ชฉ์ฐจ, ๊ตํ†ต ์ •๋ณด ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌธ์„œ ํ˜•์‹์„ ์ธ์‹ํ•˜๊ณ  ํ•ด๋‹น ๊ตฌ์กฐ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์žˆ๋‹ค.
  4. ๊ธฐ์ดˆ ์‚ฌ์‹ค ์ธ์‹: ์„œ์šธ์ด ์ˆ˜๋„, KTX/SRT ๊ตฌ๋ถ„, ์ž„์‹œ์ •๋ถ€ ์ˆ˜๋ฆฝ ๋“ฑ ๊ธฐ์ดˆ์ ์ธ ์‚ฌ์‹ค์€ ๋ถ€๋ถ„์ ์œผ๋กœ ๋งž์ถ”๊ณ  ์žˆ๋‹ค.

3.3 ์•ฝ์ 

  1. ๋ฐ˜๋ณต ํ‡ดํ™” (Repetition Degeneration)

    • 10๊ฐœ ํ”„๋กฌํ”„ํŠธ ์ค‘ 3๊ฐœ(ํ”„๋กฌํ”„ํŠธ 1, 4, 8)์—์„œ ์ค‘๊ฐ„ ์ด์ƒ์˜ ๋ฐ˜๋ณต ํ‡ดํ™” ๋ฐœ์ƒ.
    • ํ”„๋กฌํ”„ํŠธ 4์˜ ๊ฒฝ์šฐ trigram ๋ฐ˜๋ณต๋ฅ  87.7%๋กœ ๊ฐ€์žฅ ์‹ฌ๊ฐ.
    • Base pretrain ๋ชจ๋ธ์—์„œ repetition penalty ์—†์ด greedy/top-p ์ƒ˜ํ”Œ๋ง ์‹œ ๋‚˜ํƒ€๋‚˜๋Š” ์ผ๋ฐ˜์ ์ธ ํ˜„์ƒ์ด๋‚˜, ํ˜„์žฌ ์ˆ˜์ค€์€ ๊ฐœ์„ ์ด ํ•„์š”ํ•จ.
  2. ์‚ฌ์‹ค ์ •ํ™•๋„ (Factual Accuracy)

    • ์ˆ˜์น˜ ์ •๋ณด(๊ตํ†ต ์š”๊ธˆ), ์—ญ์‚ฌ ์ธ๋ฌผ ์—…์ , ์š”๋ฆฌ ๋ ˆ์‹œํ”ผ ๋“ฑ ๋””ํ…Œ์ผ์—์„œ hallucination ๋นˆ๋ฐœ.
    • ํŠนํžˆ ์—ญ์‚ฌ ์ธ๋ฌผ(์„ธ์ข…๋Œ€์™• vs. ํƒœ์กฐ ํ˜ผ๋™)์—์„œ ๊ฐœ์ฒด ๊ตฌ๋ถ„ ์˜ค๋ฅ˜๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง.
    • 1B ํŒŒ๋ผ๋ฏธํ„ฐ ๊ทœ๋ชจ์˜ base ๋ชจ๋ธ๋กœ์„œ ์˜ˆ์ƒ ๋ฒ”์œ„ ๋‚ด์˜ ํ•œ๊ณ„์ด๋‚˜, ์‹ค์‚ฌ์šฉ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Œ.
  3. ์ฝ”๋“œ ์ƒ์„ฑ ๋Šฅ๋ ฅ

    • ๊ธฐ์ดˆ์ ์ธ ์ฝ”๋“œ ์™„์„ฑ ์™ธ ์‹ค์งˆ์ ์ธ ์ฝ”๋“œ ์ƒ์„ฑ ๋ถˆ๊ฐ€.
    • ํ•œ๊ตญ์–ด ํŠนํ™” ํ•™์Šต ๋ฐ์ดํ„ฐ ํŠน์„ฑ์ƒ ์ฝ”๋“œ ๋น„์œจ์ด ๋‚ฎ์€ ๊ฒƒ์ด ์ฃผ์š” ์›์ธ.
  4. ์ˆ˜ํ•™ ๋ฐ ์‚ฐ์ˆ  ๋Šฅ๋ ฅ

    • 2 + 2 = 4 ์ˆ˜์ค€์˜ ๋‹จ์ˆœ ์—ฐ์‚ฐ๋งŒ ๊ฐ€๋Šฅํ•˜๋ฉฐ ์ดํ›„ ์‚ฐ์ˆ  ํŒจํ„ด ๋ชจ๋ฐฉ์œผ๋กœ๋งŒ ๋™์ž‘.
    • ์‹ค์งˆ์ ์ธ ์ˆ˜์น˜ ์ถ”๋ก  ๋Šฅ๋ ฅ ์—†์Œ.
  5. ์ „๋ฌธ ์ง€์‹ ์ •ํ™•๋„

    • ๋ ˆ์‹œํ”ผ, ์š”๊ธˆ ๋“ฑ ์ „๋ฌธ/์‹ค์šฉ ์ง€์‹ ๋„๋ฉ”์ธ์—์„œ ํ˜•์‹์€ ๋งž์ถ”๋‚˜ ๋‚ด์šฉ์˜ ์ •ํ™•์„ฑ์ด ๋‚ฎ์Œ.

3.4 1B Base ๋ชจ๋ธ ๊ด€์ ์—์„œ์˜ ์ข…ํ•ฉ ํ‰๊ฐ€

์‚ฌ์ „ํ•™์Šต(pretraining)๋งŒ ์™„๋ฃŒ๋œ 1.19B base ๋ชจ๋ธ๋กœ์„œ, ์ด๋ฒˆ ์ƒ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” ์˜ˆ์ƒ ๋ฒ”์œ„ ๋‚ด์— ํ•ด๋‹นํ•œ๋‹ค.

  • ๋™์ผ ๊ทœ๋ชจ์˜ ํƒ€ ์˜คํ”ˆ์†Œ์Šค 1B base ๋ชจ๋ธ(์˜ˆ: TinyLlama-1.1B, EXAONE-3.0-1.2B ์ดˆ๊ธฐ ๋ฒ„์ „ ๋“ฑ)๊ณผ ๋น„๊ต ์‹œ ํ•œ๊ตญ์–ด ์œ ์ฐฝ์„ฑ ์ธก๋ฉด์—์„œ๋Š” ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์ˆ˜์ค€.
  • Instruction tuning(SFT) ๋ฐ RLHF ์—†์ด ๋ฐ˜๋ณต ํ‡ดํ™”๊ฐ€ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฒƒ์€ GPT-2, LLaMA-1 ๋“ฑ base ๋ชจ๋ธ์—์„œ๋„ ๊ณตํ†ต์ ์œผ๋กœ ๊ด€์ฐฐ๋˜๋Š” ํ˜„์ƒ์ž„.
  • ์‚ฌ์‹ค ์ •ํ™•๋„์˜ ํ•œ๊ณ„๋Š” 1B ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ตฌ์กฐ์  ์ œ์•ฝ์œผ๋กœ, 7B+ ๋ชจ๋ธ์—์„œ ๊ฐœ์„ ์ด ๊ธฐ๋Œ€๋จ.

4. ๊ฐœ์„  ๋ฐฉํ–ฅ

4.1 ๋‹จ๊ธฐ ๊ฐœ์„  (ํ˜„์žฌ ๋ชจ๋ธ์— ์ฆ‰์‹œ ์ ์šฉ ๊ฐ€๋Šฅ)

๋ฐฉ๋ฒ• ํšจ๊ณผ ์ ์šฉ ๋‚œ์ด๋„
repetition_penalty=1.1~1.3 ์ ์šฉ ๋ฐ˜๋ณต ํ‡ดํ™” ์™„ํ™” ๋‚ฎ์Œ (์ถ”๋ก  ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •)
no_repeat_ngram_size=3 ์ ์šฉ n-gram ๋ฐ˜๋ณต ์ฐจ๋‹จ ๋‚ฎ์Œ (์ถ”๋ก  ํŒŒ๋ผ๋ฏธํ„ฐ ์กฐ์ •)
temperature ์กฐ์ • (0.7~0.75) ์ƒ์„ฑ ์•ˆ์ •์„ฑ ํ–ฅ์ƒ ๋‚ฎ์Œ

4.2 ์ค‘๊ธฐ ๊ฐœ์„  (์ถ”๊ฐ€ ํ•™์Šต ํ•„์š”)

  1. SFT (Supervised Fine-Tuning)

    • ์ง€์‹œ๋ฌธ ๋”ฐ๋ฅด๊ธฐ(instruction-following) ๋Šฅ๋ ฅ ๋ถ€์—ฌ
    • ๋ฐ˜๋ณต ํ‡ดํ™” ๊ทผ๋ณธ์  ์™„ํ™”
    • ์ถ”์ฒœ ๋ฐ์ดํ„ฐ: Open-Platypus-ko, KoAlpaca, LIMA-ko ๋“ฑ
  2. ์ฝ”๋“œ ๋ฐ ์ˆ˜ํ•™ ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€ pretraining

    • Python/์ฝ”๋“œ ๋ฐ์ดํ„ฐ(The Stack, CodeSearchNet ๋“ฑ) ํ˜ผํ•ฉ ํ•™์Šต
    • ์ˆ˜์‹ ๋ฐ chain-of-thought ๋ฐ์ดํ„ฐ ์ถ”๊ฐ€
    • ๊ถŒ์žฅ ๋น„์œจ: ์ฝ”๋“œ 1015%, ์ผ๋ฐ˜ ํ•œ๊ตญ์–ด 8590%
  3. RLHF / DPO

    • ์‚ฌ์‹ค ์ •ํ™•๋„ ๋ฐ ์ง€์‹œ ์ค€์ˆ˜ ์ถ”๊ฐ€ ๊ฐœ์„ 
    • 1B ๊ทœ๋ชจ์—์„œ๋Š” DPO(Direct Preference Optimization)๊ฐ€ ๋น„์šฉ ๋Œ€๋น„ ํšจ๊ณผ์ 

4.3 ์žฅ๊ธฐ ๊ฐœ์„  (๋ชจ๋ธ ๊ทœ๋ชจ ํ™•์žฅ)

  • 7B+ ๋ชจ๋ธ๋กœ ํ™•์žฅ ์‹œ ์‚ฌ์‹ค ์ •ํ™•๋„, ์ฝ”๋“œ ์ƒ์„ฑ, ์ˆ˜ํ•™ ์ถ”๋ก  ๋Šฅ๋ ฅ ์ „๋ฐ˜์ ์œผ๋กœ ํ–ฅ์ƒ ๊ธฐ๋Œ€.
  • ํ˜„์žฌ ํ•˜๋“œ์›จ์–ด(8ร— B200, ~1.47TB VRAM)๋กœ 7B FSDP ํ•™์Šต ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅ.
  • ํ•œ๊ตญ์–ด ํŠนํ™” 7B ๋ชจ๋ธ pretraining ํ›„ SFT โ†’ DPO ํŒŒ์ดํ”„๋ผ์ธ ์ ์šฉ ๊ถŒ์žฅ.

5. ๊ฒฐ๋ก 

korean_1b_fp8_run1 ๋ชจ๋ธ(1.19B, 34k steps)์€ ํ•œ๊ตญ์–ด ๋ฌธ๋ฒ• ๋ฐ ๋ฌธ์ฒด ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ base ๋ชจ๋ธ๋กœ์„œ์˜ ๊ธฐ๋ณธ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ์žˆ๋‹ค. ๋ธ”๋กœ๊ทธยท์ผ์ƒยท์„œ์ •์  ํ…์ŠคํŠธ ์ƒ์„ฑ์—์„œ ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๋ฉฐ, FP8 + DDP ํ™˜๊ฒฝ์˜ ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ์ด ์•ˆ์ •์ ์œผ๋กœ ๋™์ž‘ํ–ˆ์Œ์„ ํ™•์ธํ•˜์˜€๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์‚ฌ์‹ค ์ •ํ™•๋„, ๋ฐ˜๋ณต ํ‡ดํ™”, ์ฝ”๋“œ/์ˆ˜ํ•™ ๋Šฅ๋ ฅ ๋ถ€์žฌ๋Š” ํ˜„์žฌ ๋ชจ๋ธ์˜ ๋ช…ํ™•ํ•œ ํ•œ๊ณ„์ด๋‹ค. ์ด๋Š” 1B base ๋ชจ๋ธ์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ธฐ๋Œ€๋˜๋Š” ์ˆ˜์ค€์ด๋ฉฐ, SFT โ†’ DPO ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ์ƒ๋‹น ๋ถ€๋ถ„ ๊ฐœ์„  ๊ฐ€๋Šฅํ•˜๋‹ค. ์ถ”ํ›„ 7B ๊ทœ๋ชจ๋กœ์˜ ํ™•์žฅ์„ ํ†ตํ•ด ์‚ฌ์‹ค ์ •ํ™•๋„์™€ ์ถ”๋ก  ๋Šฅ๋ ฅ์˜ ๊ทผ๋ณธ์ ์ธ ํ–ฅ์ƒ์„ ๋„๋ชจํ•˜๋Š” ๊ฒƒ์ด ๊ถŒ์žฅ๋œ๋‹ค.


์ด ๋ณด๊ณ ์„œ๋Š” eval/generate.py๋ฅผ ํ†ตํ•ด ์ƒ์„ฑ๋œ ๊ฒฐ๊ณผ๋ฅผ ์ˆ˜๋™์œผ๋กœ ๋ถ„์„ํ•œ ๊ฒƒ์ด๋‹ค. ๊ด€๋ จ ํ‰๊ฐ€ ์Šคํฌ๋ฆฝํŠธ: /PROJECT/0325120031_A/ghong/taketimes/llm-bang/eval/generate.py