SFT v2 체ν¬ν¬μΈνΈ μ’ ν© νκ° λ³΄κ³ μ
체ν¬ν¬μΈνΈ: checkpoints/korean_1b_sft/checkpoint-best
νκ°μΌμ: 2026-02-27
ν΅μ¬ μ§ν
| νλͺ© | Pretrain | SFT v1 (buggy ν¬λ§·) | SFT v1 (μ¬λ°λ₯Έ ν¬λ§·) | SFT v2 (μ΄λ²) |
|---|---|---|---|---|
| λ°λ³΅λ₯ | 69.4% | 57.1% | 17.7% | 18.0% |
| val_loss | - | 2.69 | - | 2.2062 (νμ΅ κΈ°λ‘) |
| μμ° μ’ λ£μ¨ | - | - | - | 60.0% |
λͺ©ν λ¬μ± μ¬λΆ
- λ°λ³΅λ₯ <5%: β λ―Έλ¬μ± (18.0%)
- val_loss <2.2: β κ·Όμ λ―Έλ¬μ± (2.2062, νμ΅ κΈ°λ‘ κΈ°μ€. λ³λ eval μ€ν¬λ¦½νΈλ ν ν°ν μ°¨μ΄λ‘ 3.10 μΈ‘μ λ¨)
μμ± νλΌλ―Έν°
- temperature=0.7, top_p=0.9
- repetition_penalty=1.1, no_repeat_ngram_size=3
- max_new_tokens=200
- ν둬ννΈ ν¬λ§·:
<|user|>\n{μ§λ¬Έ}\n<|assistant|>\n
μμ± μν μ λ¬Έ
[1] νκ΅μ μλλ μ΄λμΈκ°μ?
- λ°λ³΅λ₯ : 0.0%
- μ’ λ£: EOS
- ν ν° μ: 7
λνλ―Όκ΅μ μλλ μμΈμ
λλ€.
[2] νμ΄μ¬μμ 리μ€νΈλ₯Ό μ λ ¬νλ λ°©λ²μ μ€λͺ ν΄μ£ΌμΈμ.
- λ°λ³΅λ₯ : 33.3%
- μ’ λ£: EOS
- ν ν° μ: 162
νμ΄μ¬μμλ 리μ€νΈλ₯Ό sort() ν¨μλ₯Ό μ¬μ©νμ¬ μ λ ¬ν μ μμ΅λλ€. μ΄ ν¨μλ 리μ€νΈμ 첫 λ²μ§Έ μμμ λ§μ§λ§ μμλ₯Ό μ°Ύκ³ , μ΄λ€μ μ°κ²°νμ¬ ν΄λΉ 리μ€νΈλ₯Ό μμ±ν©λλ€.리μ€νΈμ 첫 μμλ 리μ€νΈμ μ²μμΈ μμμ΄κ³ , λ λ²μ§Έ μμλ 리μ€νΈμμ 첫 λ²μ§Έλ‘ λμ€λ μμμ
λλ€.λ€μμΌλ‘, 리μ€νΈμ λ§μ§λ§ μμλ 리μ€νΈκ° μμ±λ ν 리μ€νΈμ κ°μ₯ μ²μμ μ€λ μμμ΄λ©°, μ΄λ₯Ό μ°κ²°νλ©΄ 리μ€νΈμ λͺ¨λ μμλ₯Ό μ°Ύμ μ μμ΅λλ€:```pythonsort(a)`μ μ½λλ `sort()` ν¨μλ₯Ό νΈμΆνμ¬ λ¦¬μ€νΈμ μμμ μμλ₯Ό μ°κ²°ν λ€μ, κ° μμκ° λͺ¨λ 리μ€νΈμ 맨 μμ μμΉνλλ‘ ν©λλ€. μ΄λ κ² νλ©΄ 리μ€νΈλ₯Ό μ²μλΆν° λκΉμ§ ν λ²μ νλμ© μ°¨λ‘λλ‘ μ°Ύμ μ μμΌλ―λ‘, 리μ€νΈκ° λ μ΄μ 볡μ‘ν΄μ§μ§ μμ΅λλ€.
[3] μ§κ΅¬μ¨λνμ μ£Όμ μμΈμ μ€λͺ νμΈμ.
- λ°λ³΅λ₯ : 23.8%
- μ’ λ£: max_tokens
- ν ν° μ: 200
μ§κ΅¬ μ¨λνλ μ§κ΅¬μ κΈ°μ¨μ΄ μμΉνκ³ ν΄μλ©΄μ΄ μμΉνλ νμμ
λλ€. μ΄ νμμ λΉνκ° λ
Ήκ³ , λ λ§μ λΉκ° λ΄λ¦¬κ³ , λ λΉλ²ν ννκ³Ό ν리μΌμΈμ΄ λ°μνλ λ± λκΈ° μ€ μμ¦κΈ° μμ΄ μ¦κ°νμ¬ λ°μν©λλ€. μ΄λ μ¬λ¬ κ°μ§ μ΄μ λ‘ μΈν΄ λ°μν μ μλλ°, κ·Έ μ€ μΌλΆλ λ€μκ³Ό κ°μ΅λλ€:1. κΈ°μ¨ μμΉ: λΉνμ νν΄μ ν΄λΉμΌλ‘ μΈν μ΄ ν½μ°½μΌλ‘ μΈν΄ κΈ°μ¨μ΄ μμΉν μ μμ΅λλ€. μ΄λ¬ν μμΉμ κ·Ήμ§λ°©μ μΌμμ΄ λ
Ήκ³ λ λ°λ»ν κΈ°μ¨μ΄ ν΄μλ©΄μ λμ΄λ μμΈμ΄ λ μ μμ΅λλ€2. μ°μ±ν: νμ° νλ°λ‘ μΈν μ°μ±νλ‘ μΈν΄ μμ¦κΈ°κ° λκΈ° μ€μΌλ‘ λ°©μΆλμ΄ μ°μ±λΉκ° λ°μν κ°λ₯μ±μ΄ λμμ§λλ€.3. μλ¬Ό λ€μμ± μμ€: λ μΆμ΄ κΈ°νμμλ μλ¬Όμ΄ μ΄μλ¨μ μ μλ μΆ©λΆν νλΉμ λ°μ§ λͺ»ν μλ μμ΅λλ€. μ΄λ‘ μΈν΄ μλ¬Όμ΄ μ£½κ³ κ²°κ΅ λ©Έμ’
λ μνμ΄ λμμ§λλ€4. ν΄μλ©΄ μμΉ: μΌλΆ μ§μμμλ νμ°λ νμκ° λ°μνμ¬ ν΄μλ©΄μ μμκ° μμΉνλ©΄ ν΄μμ μ΄ μΉ¨μλκ±°λ μΉ¨μλλ κ²½μ°κ° λ°μν μ μμ΅λλ€(μ:
[4] μ’μ μλ©΄ μ΅κ΄μ λ§λ€κΈ° μν νμ μλ €μ£ΌμΈμ.
- λ°λ³΅λ₯ : 20.8%
- μ’ λ£: max_tokens
- ν ν° μ: 200
μ’μ μλ©΄ μ΅κ΄μ μλ©΄μ μ§κ³Ό μμ μ§μ μ μΈ μν₯μ λ―ΈμΉ©λλ€. λ€μμ μ’μ μλ©΄μ μ·¨νκΈ° μν΄ μ·¨ν μ μλ λͺ κ°μ§ λ¨κ³μ
λλ€:1. 건κ°ν μλ©΄ 루ν΄μ μ μ§νμΈμ: λ§€μΌ λ°€ 8~10μκ°μ μΆ©λΆν μλ©΄μ μ·¨νκ³ , ν루 μ΅μ 7~9μκ°μ μλ κ²μ΄ μ’μ΅λλ€. μ·¨μΉ¨ μκ°μ μΌμ νκ² μ μ§νκ³ , TVλ₯Ό μμ²νκ±°λ μ€λ§νΈν°μ μ¬μ©νλ μκ°μ μ€μ΄λ κ²λ λμμ΄ λ©λλ€.2. μλ©΄ νκ²½ κ°μ : μΉ¨μ€μλ νΈμν λ² κ°, μ‘°λͺ
, μ¨λ μ‘°μ κΈ°λ₯Ό ν¬ν¨ν νΈμν μλ©΄ νκ²½μ μ‘°μ±νλ λ° ν¬μνμΈμ. μΉ¨λ 컀λ²λ μνΈλ λΆλλ½κ³ ν΅κΈ°μ±μ΄ μ’μΌλ©°, μ΄λ μλ©΄μ μ·¨νλ λ° λμμ΄ λ μ μμ΅λλ€.3. μλ©΄ μμμ μ€μ²νμΈμ: μ λ€κΈ° μ μ μμ£Ό μ»κ³ , λ¬Όλ μΆ©λΆν μμ·¨νκ³ , νΈμν μλ©΄μ λλ μ μ ν μμ νλ³μ μ¬μΈμ. μ΄λ¬ν λ
Έλ ₯μ μ 체 건κ°μ μ μ§νλ λ° λμμ΄ λλ©°, μ μ 건κ°μλ κΈμ μ μΈ μν₯μ λ―ΈμΉ μ μμ΅λλ€!4. μ·¨νκΈ° μ¬μ΄ μ€λ΅ λ° κ°μ μ ννκΈ°: κ³Ό
[5] νκ΅ μ ν΅ μμ μ€ κΉμΉμ λν΄ μ€λͺ ν΄μ£ΌμΈμ.
- λ°λ³΅λ₯ : 12.2%
- μ’ λ£: EOS
- ν ν° μ: 97
νκ΅ μ ν΅ μμ μ€μλ κΉμΉκ° μμ΅λλ€. μ΄λ κ³ μΆ§κ°λ£¨, λ§λ, μκ° λ±μ μλ
κ³Ό ν¨κ» λ²λ¬΄λ € λ§λ κ²μΌλ‘, μ΄ κ³Όμ μμ κ³ μΆμ λ§λμ ν₯μ΄ μ΄μ°λ¬μ§ λ
νΉν λ§μ λ
λλ€. λν, κΉμΉλ λ°ν¨μνμΌλ‘, κΉμΉλ₯Ό λ§λλ κ³Όμ μ μ£Όλ‘ μκΈλ¬Όμ λ΄κ·Έκ±°λ λ°ν¨μμΌ λλ¬Όλ‘ λ¨Ήκ±°λ, μ κ°μ΄λ μ₯μμ° λ±μ λ§λ€μ΄ λ¨Ήμ΅λλ€. μ΄λ¬ν κΉμΉλ νκ΅μ λνμ μΈ μμ μ€ νλλ‘ κΌ½νλ©°, νκ΅ μμ λ¬Ένμ μ€μν λΆλΆμ μ°¨μ§νκ³ μμ΅λλ€.
[6] λ¨Έμ λ¬λκ³Ό λ₯λ¬λμ μ°¨μ΄μ μ 무μμΈκ°μ?
- λ°λ³΅λ₯ : 13.2%
- μ’ λ£: EOS
- ν ν° μ: 98
λ¨Έμ λ¬λ(Machine Learning)μ λ°μ΄ν°λ₯Ό μμ§, λΆμ λ° μμΈ‘νλ κΈ°μ μ μλ―Έν©λλ€. λ₯λ¬λλ¬λμ μ»΄ν¨ν°κ° μΈκ°μ λμ κ°μ λ°©μμΌλ‘ νμ΅νκ³ μ€μ€λ‘ κ²°μ μ λ΄λ¦΄ μ μλλ‘ νλ μΈκ³΅ μ§λ₯μ λ§ν©λλ€. λ¨Έμ λ¬λ μκ³ λ¦¬μ¦μ λ°μ΄ν°μμ ν¨ν΄μ μ°Ύκ³ μμΈ‘νλ©°, λ₯λ¬λλ¬λ μμ€ν
μ ν¨ν΄ μΈμ λ° μΆλ‘ μ μ€μ μ λ‘λλ€. λ¨Έμ λ¬λκ³Ό λ₯ λ¬λ λͺ¨λ λ€μν κΈ°μ κ³Ό κΈ°λ²μ μ¬μ©νμ¬ λ°μ΄ν°λ₯Ό μ²λ¦¬νμ¬ μ§λ₯μ μΈ κ²°κ³Όλ₯Ό μμ±ν μ μμ΅λλ€.
[7] μ€νΈλ μ€ ν΄μ λ°©λ²μ μλ €μ£ΌμΈμ.
- λ°λ³΅λ₯ : 20.1%
- μ’ λ£: max_tokens
- ν ν° μ: 200
μ€νΈλ μ€ ν΄μλ₯Ό μν λͺ κ°μ§ νμ μκ°ν©λλ€:1. κ·μΉμ μΈ μ΄λνκΈ°: 건κ°ν μ²΄μ€ μ μ§, μ μ ν ν΄μκ³Ό μλ©΄, 건κ°ν μν μ΅κ΄ λ± μΌμ μνμ νμν μ 체 νλμ νλ κ²μ΄ μ€μν©λλ€. μ΄λμ ν λλ κ· ν μ‘ν μλ¨μ μ ννκ³ μΆ©λΆν μκ°μ λ€μ¬ λͺΈμ μμ§μ΄λ κ²μ΄ μ’μ΅λλ€.2. λͺ
μμ΄λ μκ°μ κ°μ λ§μμ±κΉ μ°μ΅νκΈ°: μμ μ κ°μ μ μΈμνκ³ μ‘°μ¨νλ λ²μ λ°°μ°λ κ²μ μ€νΈλ μ€λ₯Ό μ€μ΄κ³ μ λ°μ μΈ μ°λΉμ ν₯μμν¬ μ μλ μ’μ λ°©λ²μ
λλ€. νΈμν μμ
κ³Ό ν¨κ» ν΄μμ μ·¨νκ³ νΈμν μμΈλ₯Ό μ·¨νλ κ²μ λͺ©νλ‘ ν©λλ€.3. μλ‘μ΄ μ·¨λ―Έλ κ΄μ¬μ¬ μ°ΎκΈ°: μ€νΈλ μ€λ₯Ό ν΄μνκ³ μΆλ€λ©΄ μλ‘μ΄ μ·¨λ―Έμ κ΄μ¬μ¬λ₯Ό μ°Ύμ보μΈμ. μ§μ μ¬ν νλ, λ
μ λλ μ¬νκ³Ό κ°μ μ¬κ° νλμ μ€νΈλ μ€λ₯Ό μ€μ΄λ λ° λμμ΄ λ μ μμ΅λλ€.4. κΈμ μ μΈ μκΈ° λνλ₯Ό μ°μ΅νμΈμ: λΆμ μ μΈ μκΈ° λνλ λΆλ©΄μ¦, λΆμ, μ°μΈμ¦μΌλ‘ μ΄μ΄μ§ μ μμΌλ―λ‘ μκΈ° λνλ₯Ό ν΅ν΄ κΈμ μ μΈ λ°©μμΌλ‘ μμ μ νννκ³ κΈ°λΆμ μ’κ² λ§λλ κ²μ΄ μ€μν μ μμ΅λλ€!5. κ·μΉμ μΌλ‘ μ΄λνκΈ° :
[8] ν¨κ³Όμ μΈ κ³΅λΆ λ°©λ²μ μ€λͺ ν΄μ£ΌμΈμ.
- λ°λ³΅λ₯ : 19.4%
- μ’ λ£: EOS
- ν ν° μ: 189
ν¨κ³Όμ μΈ κ³΅λΆ λ°©λ²μ λ€μκ³Ό κ°μ΅λλ€:1. νμ΅ λͺ©νλ₯Ό μ€μ ν©λλ€: 곡λΆλ₯Ό μμνκΈ° μ μ, ν΄μΌ ν λͺ¨λ κ²μ κ³ννκ³ , κ·Έ λͺ©νμ λλ¬ν μ μλ ꡬ체μ μΈ κ³νμ μΈμ°μΈμ. λν, μν μ€λΉλ κ³Όμ λ₯Ό μν μ μ ν μκ°κ³Ό μμμ ν보νμΈμ.2. λ°λ³΅μ μΈ μ°μ΅μ ν©λλ€: λ§€μΌ μ ν΄μ§ μκ°μ κΎΈμ€ν μ°μ΅νλ©΄, λμμ΄ λλ μλ‘μ΄ κ°λ
μ΄λ κ°λ
μ λ°κ²¬ν κ°λ₯μ±μ΄ λμμ§λλ€. κΎΈμ€ν μ°μ΅μ΄ μ±κ³΅μ μ΄μ μ΄λ©°, μ΄μ¬ν λ
Έλ ₯νλ©΄ μνλ κ²°κ³Όλ₯Ό μ»μ μ μμ΅λλ€.3. λ¬Έμ ν΄κ²° λ₯λ ₯μ ν₯μμν΅λλ€: λ¬Έμ λ₯Ό ν΄κ²°νλ λ° μμ΄ ν΅μ¬μ λ¬Έμ μ λͺ©μ κ³Ό κ·Έκ²μ ν΄κ²°νκΈ° μν΄ νμν κΈ°μ μ νμ
νλ κ²μ
λλ€. μ΄λ₯Ό μν΄ λ§μ μμ λ
μμ λ€μν μ νμ λ¬Έμ ν΄κ²° λꡬλ₯Ό μ¬μ©νμ¬ λ¬Έμ λ₯Ό ν΄κ²°ν μ μμ΅λλ€,.4. κ°μΈμ μΈ νΈλ μ΄λμ μ 곡ν©λλ€: κ°μΈμ΄ μμ μ νμ΅ μ΅κ΄κ³Ό λ₯λ ₯μ λν΄ λ μ μ΄ν΄νκ³ , νμ΅μ λμμ΄ λ λ§ν κ°μΈλ³ νΈλ μ΄λμ μ 곡νλ κ²μ΄ μ€μν©λλ€. μ΄λ₯Ό ν΅ν΄ μ€μ€λ‘ λκΈ°λΆμ¬νκ³ , λ λμ νμ΅ κ²°κ³Όλ₯Ό μ»μ νλ₯ μ΄ λμμ§ κ²μ
λλ€.
[9] μΈκ³΅μ§λ₯μ λ―Έλμ λν΄ μ΄λ»κ² μκ°νμλμ?
- λ°λ³΅λ₯ : 16.1%
- μ’ λ£: max_tokens
- ν ν° μ: 200
μΈκ³΅μ§λ₯μ΄ μ μ λ λ§μ μ°μ
κ³Ό μλΉμ€μ ν΅ν©λκ³ μκΈ° λλ¬Έμ, λ―Έλλ ν₯λ―Έλ‘μ΅λλ€. μΌλΆ μμΈ‘μ AIκ° μΌμ μνμμ ν¨μ¬ λ λ§μ μν μ ν μ μμΌλ©°, μ΄λ‘ μΈν΄ μλΉν νμ κ³Ό μμ°μ± ν₯μμ΄ λ°μν κ²μ΄λΌκ³ μ μν©λλ€.AIλ μλ£, κΈμ΅, κ΅ν΅ λ± μ¬λ¬ μ°μ
λΆμΌμμ μ΄λ―Έ νμ©λκ³ μμ΅λλ€. μλ₯Ό λ€μ΄, AIλ μμ¬ κ²°μ νλ‘μΈμ€λ₯Ό μλννμ¬ νμ μΉλ£ κ²°κ³Όλ₯Ό κ°μ νκ³ μ§λ³μ μ‘°κΈ° μ§λ¨ν μ μλλ‘ ν©λλ€. λν, AI μκ³ λ¦¬μ¦μ κΈ°κ³ νμ΅μ ν΅ν΄ μ¬λμ νλ ν¨ν΄μ μ΄ν΄νκ³ νΉμ μ νμ΄λ μλΉμ€λ₯Ό μΆμ²ν΄ μ€ μλ μμ΅λλ€.λν, AI κΈ°μ μ λ¬΄μΈ ν곡기μ μμ¨μ£Όνμ°¨ λ±μ λΆμΌμμλ νμ©λ κ²μΌλ‘ 보μ
λλ€. μ΄λ¬ν κΈ°μ μ κ΅ν΅ μ²΄μ¦ κ°μ, μμ κ°μ , λΉμ© μ κ° λ±μ ν¨κ³Όλ₯Ό κ°μ Έμ¬ μ μμ΅λλ€. λν AI κΈ°λ° μμ± μΈμ μμ€ν
μ κ΅ν΅ νΌμ‘μ μ€μ΄κ³ λμ€κ΅ν΅ μ΄μ©μ μ΄μ§νλ λ° λμμ μ€ μ μμ κ²μ
λλ€.μ λ°μ μΌλ‘ AIλ μΈκ°μ μΆμ ν° μν₯μ λ―ΈμΉ μ μ¬λ ₯μ κ°μ§κ³ μλ λΆμΌμ
λλ€. κ·Έλ¬λ κΈ°μ λ°μ μ μλμ λ²μκ° λ§€μ° κ΄λ²μ
[10] 건κ°ν μμ΅κ΄μ μ μ§νλ λ°©λ²μ μλ €μ£ΌμΈμ.
- λ°λ³΅λ₯ : 21.5%
- μ’ λ£: EOS
- ν ν° μ: 195
건κ°ν μμ΅κ΄μ΄λ κ· ν μ‘ν μμμλ₯Ό μμ·¨νκ³ , μΆ©λΆν μλ©΄μ μ·¨νκ³ , μ€νΈλ μ€λ₯Ό κ΄λ¦¬νλ©°, κ·μΉμ μΈ μ΄λκ³Ό 건κ°ν μλ¨μ μ μ§νμ¬ κ±΄κ°μ μ μ§νλ κ²μ λ§ν©λλ€.μλ₯Ό λ€μ΄, λ§€μΌ μμΉ¨ κ³ΌμΌκ³Ό μ±μλ₯Ό μ±κ²¨ λ¨Ήκ³ , 건κ°ν κ°μμΌλ‘ ν΅κ³‘λ¬Ό, 견과λ₯, 콩λ₯λ₯Ό μμ·¨νλ κ²μ΄ μ’μ΅λλ€. λν, λ°μ μΌμμμ μ΄λκ³Ό μ²΄μ€ κ°λμλ μ κ²½μ μ¨μΌ ν©λλ€.νμ§λ§, μ΄λ¬ν μ΅κ΄λ€μ΄ λͺ¨λ 건κ°μ μ’μ κ²μ μλλλ€. μ μ ν μμ¬λμ μ μ§νλ©΄μλ κ· νμ‘ν μμμ μμ·¨μ μ 체 νλμ λ³νν΄μΌ ν©λλ€. μλ₯Ό λ€μ΄, ν루 μΈ λΌ μμ¬λ₯Ό λͺ¨λ νκ³ , κ°λ₯νλ©΄ ν루μ λ λ² μ΄μ μμ¬λ₯Ό νλ κ²μ΄ μ’μ΅λλ€(μ: μ μ¬μ κ°λ¨νκ², μ λ
μ κ°λ³κ²).λν, μμμ μ νν λλ μ μ ν μκ³Ό μ§μ κ³ λ €ν΄μΌ νλ©°, μμ μ ν νμλ 건κ°ν μμνμ μ μ§νκΈ° μν΄ κ³μμ μΈ λͺ¨λν°λ§μ΄ νμν©λλ€. λ°λΌμ, 건κ°ν μμνμ 건κ°μ μ μ§νκ³ μ§λ³μ μλ°©ν μ μλ λ§€μ° μ€μν μμμ
λλ€.
κ°μ λ λΆμ
- Pretrain β SFT v2: 51.4%p κ°μ
- SFT v1 (buggy) β SFT v2: 39.1%p κ°μ
- SFT v1 (μ¬λ°λ₯Έ ν¬λ§·) β SFT v2: -0.3%p κ°μ
κΆμ₯ λ€μ λ¨κ³
- λ°λ³΅λ₯ μ΄ μ¬μ ν λμ - μΆκ° SFT νμ
- νμ΅ λ°μ΄ν° νμ§ μ κ²
- νμ΅λ₯ /μν¬ν¬ μ‘°μ
- λ°μ΄ν° μ¦κ° κ³ λ €