File size: 12,156 Bytes
a227b6d
0d549c7
 
 
 
e2c1f4a
 
bb37fbb
 
0d549c7
 
 
 
 
a227b6d
 
 
0d549c7
 
 
a227b6d
0d549c7
 
 
a227b6d
0d549c7
 
 
 
a227b6d
 
 
 
 
 
 
 
 
0d549c7
 
a227b6d
 
0d549c7
 
 
 
 
 
 
 
 
 
a227b6d
 
 
 
bb37fbb
0d549c7
 
 
 
 
 
 
 
a227b6d
bb37fbb
 
0d549c7
 
 
 
 
 
 
 
 
a227b6d
0d549c7
 
a227b6d
57527fb
 
0d549c7
 
 
 
a227b6d
0d549c7
57527fb
0d549c7
 
 
 
 
 
 
 
 
 
 
 
 
a227b6d
0d549c7
 
 
 
 
 
 
 
 
 
a227b6d
0d549c7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
[๐Ÿ‡บ๐Ÿ‡ธ English](https://huggingface.co/KRX-Data/WON-Reasoning/blob/main/README.md) | **๐Ÿ‡ฐ๐Ÿ‡ท ํ•œ๊ตญ์–ด**

# โ‚ฉON: ํ•œ๊ตญ ๊ธˆ์œต์„ ์œ„ํ•œ LLM

## ์†Œ๊ฐœ
โ‚ฉON์€ ํ•œ๊ตญ ๊ธˆ์œต ๋ถ„์•ผ์— ํŠนํ™”๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๋กœ, ๋‹ค์–‘ํ•œ AI ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‹ ๋ขฐ์„ฑ๊ณผ ํˆฌ๋ช…์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. 
โ‚ฉON ๊ฐœ๋ฐœ์˜ ํ•ต์‹ฌ ๋ชฉ์ ์€ ์—ฐ๊ตฌ์˜ ๊ฐœ๋ฐฉ์„ฑ์„ ์ด‰์ง„ํ•˜๊ณ , ์—„๊ฒฉํ•œ ๊ธˆ์œต ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์ค€์„ ๋งˆ๋ จํ•˜๋ฉฐ, ํ•œ๊ตญ ๊ธˆ์œต ํŠนํ™” ์–ธ์–ด ๋ชจ๋ธ ํ•™์Šต์— ์žˆ์–ด ์ตœ์ ์˜ ์‹ค์ฒœ ์‚ฌ๋ก€๋ฅผ ํ™•๋ฆฝํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. 
โ‚ฉON์˜ 2๋‹จ๊ณ„ ์ถ”๋ก  ๋ฐฉ์‹์€ ์ž์ฒด ์˜ค๋ฅ˜ ์ˆ˜์ • ๊ณผ์ •์„ ๊ฑฐ์นœ ํ›„ ๊ฒฐ๋ก ์  ์š”์•ฝ์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ, ๊ธˆ์œต ์˜์‚ฌ๊ฒฐ์ • ํ”„๋กœ์„ธ์Šค์˜ ๋ช…ํ™•์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.


## KRX ๊ธˆ์œต ์–ธ์–ด ๋ชจ๋ธ ๊ฒฝ์ง„๋Œ€ํšŒ

**๋Œ€ํšŒ ๊ฐœ์š”**

KRX ๊ธˆ์œต ์–ธ์–ด ๋ชจ๋ธ ๊ฒฝ์ง„๋Œ€ํšŒ๋Š” ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํ•œ๊ตญ ๊ธˆ์œต ๋ถ„์•ผ ํƒœ์Šคํฌ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์—ด๋ฆฐ ๋ฆฌ๋”๋ณด๋“œ ํ˜•์‹์˜ ๋Œ€ํšŒ์ž…๋‹ˆ๋‹ค.
๋‘ ๋‹ฌ์˜ ๊ธฐ๊ฐ„์— ๊ฑธ์ณ ์˜ˆ์„ ๊ณผ ๋ณธ์„ ์œผ๋กœ ๋Œ€ํšŒ๊ฐ€ ์ง„ํ–‰๋˜์—ˆ์œผ๋ฉฐ, ๋Œ€ํšŒ ๊ธฐ๊ฐ„ ๋™์•ˆ ์ด 233๊ฐœ์˜ ํŒ€์ด ์ฐธ๊ฐ€ํ•˜์—ฌ 1,100๊ฐœ ์ด์ƒ์˜ ๋ชจ๋ธ์„ ์ œ์ถœํ•˜์˜€์Šต๋‹ˆ๋‹ค.
์˜ˆ์„ ์—์„œ๋Š” ๊ธˆ์œต์‹œ์žฅ, ์žฌ๋ฌดํšŒ๊ณ„, ๊ตญ๋‚ด ๊ธฐ์—… ๋ถ„์„, ๊ธˆ์œต ์—์ด์ „ํŠธ ์ž‘์—…, ์ฃผ๊ฐ€ ์˜ˆ์ธก ๋“ฑ ์ด ๋‹ค์„ฏ ๊ฐ€์ง€ ๋ถ„์•ผ์˜ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•˜์˜€์œผ๋ฉฐ, ๋ณธ์„ ์—์„œ๋Š” ์žฌ๋ฌดํšŒ๊ณ„, ๊ธˆ์œต์‹œ์žฅ, ๊ธˆ์œต ์งˆ์˜์‘๋‹ต(Open-Ended Finance QA) ๋ถ„์•ผ์— ์ค‘์ ์„ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค.

**๋ฒค์น˜๋งˆํฌ ์„ค๋ช…**

๋Œ€ํšŒ์—์„œ ์‚ฌ์šฉํ•œ ๋ฒค์น˜๋งˆํฌ๋Š” ๊ธˆ์œต ๋ถ„์•ผ ์ „๋ฐ˜์— ๊ฑธ์ณ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ์ •ํ•œ ์•ฝ 5,500๊ฐœ์˜ ๊ฐ๊ด€์‹ ๋ฐ ์ง€์‹œ๋ฌธ ๊ธฐ๋ฐ˜์˜ ์งˆ์˜์‘๋‹ต ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค:

- **์žฌ๋ฌดํšŒ๊ณ„**: ๋Œ€ํ•™ ์ˆ˜์ค€์˜ ํšŒ๊ณ„ ๋ฐ ๊ธˆ์œต ์›๋ฆฌ๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฐ๊ด€์‹ ๋ฌธ์ œ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
- **๊ธˆ์œต์‹œ์žฅ**: ๊ธˆ์œต ๊ทœ์ œ ๋ฐ ํ•œ๊ตญ ์‹œ์žฅ ์ฒด๊ณ„์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์‹œํ—˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
- **์ฃผ๊ฐ€ ์˜ˆ์ธก**: ์ตœ๊ทผ ์ฃผ๊ฐ€ ๋ฐ์ดํ„ฐ ๋ฐ ๊ณ„์‚ฐ๋œ ์ง€ํ‘œ๋ฅผ ํ™œ์šฉํ•œ ์ด์ง„ ์˜ˆ์ธก ๊ณผ์ œ๋กœ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.
- **๊ตญ๋‚ด ๊ธฐ์—… ๋ถ„์„**: ํ•œ๊ตญ ๊ธฐ์—…์˜ ๊ณต์‹œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ƒ์„ฑ๋œ KRX-Bench ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
- **๊ธˆ์œต ์—์ด์ „ํŠธ**: ๊ธˆ์œต ๋ฐ์ดํ„ฐ ์กฐ์ž‘ ๋ฐ ์ฝ”๋”ฉ ์ž‘์—… ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
- **๊ธˆ์œต ์งˆ์˜์‘๋‹ต(Open-Ended FinQA)**: ๋Œ€ํ•™์› ์ˆ˜์ค€์˜ ๊ณ„๋Ÿ‰ ๊ฒฝ์ œํ•™ ๋ฐ ๋ฒ•๋ฅ ์  ์ถ”๋ก ์„ ํฌํ•จํ•œ ๋ณตํ•ฉ์  ๊ณผ์ œ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์˜ ์˜ˆ์‹œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

<figure style="text-align: center;">
  <img src="https://cdn-uploads.huggingface.co/production/uploads/63e087b6a98d931aa90c1b9c/7vLKeR6wTbr88UdOeikaE.png" width="700" height="900" alt="์ƒ˜ํ”Œ ์ด๋ฏธ์ง€" style="display: block; margin: auto;">
  <figcaption style="font-style: italic; color: gray; margin-top: 8px;">
    ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ์˜ˆ์‹œ. ๊ฐ ์˜ˆ์‹œ๋Š” ๊ฐ ์นดํ…Œ๊ณ ๋ฆฌ์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ question type์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  </figcaption>
</figure>

**๋Œ€ํšŒ ํ†ต๊ณ„**

์ „์ฒด ๋Œ€ํšŒ ์ฐธ๊ฐ€ํŒ€ ์ค‘ 52.5%๊ฐ€ ๊ธฐ์ˆ  ๋ฐ ๊ธˆ์œต ๋ถ„์•ผ ๋“ฑ ๊ธฐ์—… ์ฐธ๊ฐ€ํŒ€์ด์—ˆ์œผ๋ฉฐ, ๊ทธ ์™ธ์—๋Š” ํ•™๊ณ„ ๊ด€๋ จ ์ฐธ๊ฐ€์ž๊ฐ€ ๋Œ€๋ถ€๋ถ„์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ์ฐธ๊ฐ€ํŒ€ ํ†ต๊ณ„๋Š” ๋‹ค์–‘ํ•œ ์ดํ•ด๊ด€๊ณ„์ž์˜ ํ•œ๊ตญ ๊ธˆ์œต ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์— ๋Œ€ํ•œ ํญ๋„“์€ ๊ด€์‹ฌ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

<figure style="text-align: center;">
  <img src="https://cdn-uploads.huggingface.co/production/uploads/63e087b6a98d931aa90c1b9c/XTxJM0nXAs18RiJEdwksU.png" width="700" height="900" alt="์ƒ˜ํ”Œ ์ด๋ฏธ์ง€" style="display: block; margin: auto;">
  <figcaption style="font-style: italic; color: gray; margin-top: 8px;">
    ์ฐธ๊ฐ€์ž ๋ถ„ํฌ. ํŒŒ๋ž€์ƒ‰ ์Œ์˜์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ถ€๋ถ„์ด ๊ธฐ์—… ์ฐธ๊ฐ€์ž๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
  </figcaption>
</figure>

**๋Œ€ํšŒ ๊ฒฐ๊ณผ ๋ถ„์„**

์˜ˆ์„  ๋ฐ ๋ณธ์„ ์—์„œ ์ œ์ถœ๋œ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด ๋ถ„์„ํ•œ ๊ฒฐ๊ณผ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ธ์‚ฌ์ดํŠธ๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค:

- **์˜ˆ์„ **: ์ฃผ๋กœ Supervised Fine-tuning (SFT)๋ฅผ ํ™œ์šฉํ•˜์˜€์œผ๋ฉฐ, ํŠนํžˆ ๊ตญ๋‚ด ๊ธฐ์—… ๋ถ„์„(Domestic Company Analysis) ๋ถ€๋ฌธ์—์„œ ๋‘๋“œ๋Ÿฌ์ง„ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
์ด ๋ถ„์•ผ์—์„œ๋Š” ์ƒ๋‹นํ•œ ๊ฐœ์„ ์ด ์ด๋ฃจ์–ด์กŒ์œผ๋‚˜, ์žฌ๋ฌดํšŒ๊ณ„, ๊ธˆ์œต์‹œ์žฅ ๋ถ€๋ฌธ์—์„œ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ์ƒ๋Œ€์ ์œผ๋กœ ๋ฏธ๋ฏธํ–ˆ์Šต๋‹ˆ๋‹ค.
๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์€ ๊ฐ„๋‹จํ•œ SFT ์ ‘๊ทผ๋ฒ•์„ ์ฑ„ํƒํ–ˆ์œผ๋‚˜, ์ผ๋ถ€ ํŒ€์€ ์ถ”๊ฐ€์ ์ธ ํ›ˆ๋ จ ๊ธฐ๋ฒ•์ธ Continual Pre-training (CPT)์„ ์‹คํ—˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์†Œ๊ทœ๋ชจ์—์„œ์˜ CPT๋Š” ๊ทธ ํšจ๊ณผ๊ฐ€ ๋ช…ํ™•ํžˆ ์ž…์ฆ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

<figure style="text-align: center;">
  <img src="https://cdn-uploads.huggingface.co/production/uploads/63e087b6a98d931aa90c1b9c/ru3aA2ISwtqS3sJuSPVLN.png" width="600" height="750" alt="์ƒ˜ํ”Œ ์ด๋ฏธ์ง€" style="display: block; margin: auto;">
  <figcaption style="font-style: italic; color: gray; margin-top: 8px;">
    ์˜ˆ์„  ๋ชจ๋ธ ์„ฑ๋Šฅ ๋ณ€ํ™” ํŠธ๋ Œ๋“œ
  </figcaption>
</figure>

- **๋ณธ์„ **: ์˜ˆ์„ ๊ณผ ๋‹ฌ๋ฆฌ ๊ณ ๋„ํ™”๋œ ๋‹ค๋‹จ๊ณ„ ํ•™์Šต ๋ฐฉ๋ฒ•๋ก ์ด ๋งŽ์ด ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.  
ํŠนํžˆ, ์—ฌ๋Ÿฌ ํŒ€๋“ค์€ ์ปค๋ฆฌํ˜๋Ÿผ ๊ธฐ๋ฐ˜์˜ SFT ์ „๋žต์„ ์ ์šฉํ•˜์—ฌ, ๊ฐ„๋‹จํ•œ ํ”„๋กฌํ”„ํŠธ์—์„œ ์‹œ์ž‘ํ•ด ์ ์ฐจ Evolve Instruct์™€ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๋” ๋ณต์žกํ•œ ์‚ฌ๋ก€๋กœ ๋ฐœ์ „์‹œ์ผœ ๋‚˜๊ฐ”์Šต๋‹ˆ๋‹ค.
์ตœ์ƒ์œ„ ์„ฑ๋Šฅ์„ ๋ณด์ธ ๋ชจ๋ธ๋“ค์€ ์ถ”๊ฐ€๋กœ LLM-as-a-Judge ๊ธฐ๋ฒ•์œผ๋กœ ํ‰๊ฐ€๋œ ์‘๋‹ต๋“ค์„ ํ™œ์šฉํ•˜์—ฌ Direct Preference Optimization (DPO) ๋ฐ Kahneman Tversky Optimization (KTO)์™€ ๊ฐ™์€ ์„ ํ˜ธ๋„ ์ตœ์ ํ™” ๊ธฐ์ˆ ์„ ์ด์šฉํ•ด ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.  
ํŠนํžˆ Hi-Q ํŒ€์€ Continual Pre-training๊ณผ SFT ๋ฐ DPO๋ฅผ ๊ฒฐํ•ฉํ•œ ๋ฐฉ์‹์˜ ํšจ๊ณผ์„ฑ์„ ์ž…์ฆํ•˜์—ฌ ๊ด„๋ชฉํ•  ๋งŒํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ฃจ์—ˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ฒด๊ณ„์ ์ด๊ณ  ๋‹ค๋‹จ๊ณ„์ ์ธ ํ›ˆ๋ จ ๊ณผ์ •์˜ ๊ฐ€์น˜๋ฅผ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

<figure style="text-align: center;">
  <img src="https://cdn-uploads.huggingface.co/production/uploads/63e087b6a98d931aa90c1b9c/VV6tYXtJkV5yTzNvMdzP9.png" width="700" height="900" alt="์ƒ˜ํ”Œ ์ด๋ฏธ์ง€" style="display: block; margin: auto;">
  <figcaption style="font-style: italic; color: gray; margin-top: 8px;">
    Continual pre-trained ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ ๊ฒฐ๊ณผ
  </figcaption>
</figure>

## โ‚ฉON ๋ชจ๋ธ ํ•™์Šต
### ๋ฐ์ดํ„ฐ์…‹ ์ˆ˜์ง‘

๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณผ์ •์„ ํ†ตํ•ด ๊ณ ํ’ˆ์งˆ Instruction ์ƒ˜ํ”Œ๋กœ ์ด๋ฃจ์–ด์ง„ ์ข…ํ•ฉ์ ์ธ ๋ชจ๋ธ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค:
- **๊ฒฝ์ง„๋Œ€ํšŒ**: ๊ฒฝ์ง„๋Œ€ํšŒ ์ค‘ HuggingFace์— ์ œ์ถœ๋œ 200,000๊ฐœ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ ์ค‘ MinHash ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ์ •๊ทœ์‹ ํ•„ํ„ฐ๋ง์„ ํ†ตํ•ด ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ๋ณ„๋œ 80,000๊ฐœ์˜ ์ง€์‹œํ˜• ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
- **์ถ”๋ก  ์‘๋‹ต**: DeepSeek-R1 ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ ์‘๋‹ต์€ ๋ฌผ๋ก , ๊ณต๊ฐœ์ ์œผ๋กœ ์ด์šฉ ๊ฐ€๋Šฅํ•œ ์˜์–ด์™€ ํ•œ๊ตญ์–ด ์˜จ๋ผ์ธ ์ž๋ฃŒ์—์„œ ์ˆ˜์ง‘ํ•œ Prompt-Response ์Œ์„ ํ†ตํ•ด ๋ณด์™„ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
- **๊ฒ€์ฆ**: GPT-4o๋ฅผ LLM-as-a-Judge๋กœ ํ™œ์šฉํ•œ ๊ฒ€์ฆ ํ”„๋กœ์„ธ์Šค ๋ฐ ์ž๋™ ํ’ˆ์งˆ ๊ฒ€์‚ฌ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋ฌด๊ฒฐ์„ฑ๊ณผ ์ •ํ™•์„ฑ์„ ๊ฐ•ํ™”ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

### ํ•™์Šต ๋ฐฉ๋ฒ•

โ‚ฉON ๋ชจ๋ธ ํ•™์Šต์„ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ 2๋‹จ๊ณ„ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜์˜€์Šต๋‹ˆ๋‹ค:
- SFT: ์ด ๋‹จ๊ณ„๋Š” ๊ธˆ์œต ์ถ”๋ก  ์ž‘์—…๊ณผ ๊ด€๋ จ๋œ ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ ํ–‰๋™์„ ์กฐ์ •ํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ท„์œผ๋ฉฐ, DeepSeek-R1 ๋ชจ๋ธ๋กœ ์ƒ์„ฑํ•œ ์ƒ์„ธํ•œ ์‘๋‹ต๊ณผ ์„ธ์‹ฌํ•˜๊ฒŒ ์„ ์ •๋œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์…‹์€ ํ•œ๊ตญ์–ด์™€ ์˜์–ด์—์„œ ์–ธ์–ด์  ์ผ๊ด€์„ฑ์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•ด ์ฒ ์ €ํžˆ ๊ฒ€ํ† ๋œ Prompt-Response ์Œ์œผ๋กœ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.
- DPO: SFT ์ง„ํ–‰ ํ›„, ๋ชจ๋ธ์˜ ๊ณผ๋„ํ•œ ์ƒ๊ฐ ๊ณผ์ • ๋˜๋Š” ์ผ๋ถ€ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ž˜๋ชป๋œ ํ•ด์„๊ณผ ๊ฐ™์€ ์›์น˜ ์•Š๋Š” ํ–‰๋™์„ ์ค„์ด๊ธฐ ์œ„ํ•ด DPO๋ฅผ ํ™œ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์„ ํ˜ธ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๊ณผ DeepSeek-R1์˜ ์ถœ๋ ฅ์„ ๋น„๊ตํ•จ์œผ๋กœ์จ ๋ชจ๋ธ ์‘๋‹ต์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ฐœ์„ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

### ๋ชจ๋ธ ์‚ฌ์–‘

- Base model: Qwen2.5-Math-7B-Instruct
- Language: ํ•œ๊ตญ์–ด, ์˜์–ด
- Model size: 7B

โ‚ฉON์€ ๋‘ ๋‹จ๊ณ„์˜ ๊ตฌ์กฐ์  ์ถ”๋ก  ๊ณผ์ •์„ ํ†ตํ•ด ์ตœ์ข… ์‘๋‹ต์„ ์ถœ๋ ฅํ•˜๋„๋ก ์„ค๊ณ„ํ•˜์˜€์Šต๋‹ˆ๋‹ค:
- **์ƒ๊ฐ ๋‹จ๊ณ„**: ๋ชจ๋ธ์€ `<think>` ๋ฐ `</think>` ํƒœ๊ทธ ๋‚ด์—์„œ ์ž์‹ ์˜ ์ถ”๋ก  ๊ณผ์ •์„ ๋ช…์‹œ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ํˆฌ๋ช…์„ฑ์„ ๋†’์ด๊ณ , ์‚ฌ์šฉ์ž๋“ค์ด โ‚ฉON์˜ ๊ฒฐ๋ก  ๋„์ถœ ๋ฐฉ์‹์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.
- **ํ•ด๊ฒฐ ๋‹จ๊ณ„**: ์ถ”๋ก  ์ง„ํ–‰ ํ›„, ๋ชจ๋ธ์€ ๊ฒฐ๋ก ์„ `<solution>` ๋ฐ `</solution>` ํƒœ๊ทธ ๋‚ด์—์„œ ๋ช…ํ™•ํ•˜๊ณ  ๊ฐ„๊ฒฐํ•˜๊ฒŒ ์š”์•ฝํ•˜์—ฌ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

## ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ

โ‚ฉON ๋ชจ๋ธ์˜ ํ•œ๊ตญ์–ด ๊ธˆ์œต ํƒœ์Šคํฌ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๋Œ€ํšŒ ๋ณธ์„ ์—์„œ ์‚ฌ์šฉ๋œ ๋ฒค์น˜๋งˆํฌ๋ฅผ ํ†ตํ•ด ํ‰๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
๋ฒค์น˜๋งˆํฌ๋Š” ์žฌ๋ฌดํšŒ๊ณ„, ๊ธˆ์œต์‹œ์žฅ, ๊ธˆ์œต ์งˆ์˜์‘๋‹ต(Open-Ended FinQA) ํƒœ์Šคํฌ๋กœ ๋ถ„๋ฅ˜๋ฉ๋‹ˆ๋‹ค:

- **์žฌ๋ฌดํšŒ๊ณ„**: ๊ธˆ์œต ๊ฐœ๋…, ํšŒ๊ณ„ ์›์น™ ๋ฐ ๊ณ„๋Ÿ‰ ๊ฒฝ์ œ ์ถ”๋ก ์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ์ง€์‹๊ณผ ๋ถ„์„ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
- **๊ธˆ์œต์‹œ์žฅ**: ๊ธˆ์œต ์‹œ์žฅ, ์‹œ์Šคํ…œ, ๊ทœ์ œ ๋ฐ ๋ถ„์•ผ๋ณ„ ์‚ฌ์‹ค์  ์ง€์‹์— ๋Œ€ํ•œ ๋ชจ๋ธ์˜ ์ดํ•ด๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
- **๊ธˆ์œต ์งˆ์˜์‘๋‹ต(Open-Ended FinQA)**: ์‹ค์ œ ๊ธˆ์œต ๋ฌธ์ œ ํ•ด๊ฒฐ ์ƒํ™ฉ์„ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ํ•œ ๋ณต์žกํ•˜๊ณ  ์„ธ๋ถ€์ ์ธ ์ถ”๋ก  ๋ฌธ์ œ๋“ค๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

**๊ฒฐ๊ณผ**

โ‚ฉON์€ KRX ๊ธˆ์œต ์–ธ์–ด๋ชจ๋ธ ๊ฒฝ์ง„๋Œ€ํšŒ์—์„œ ์ˆ˜์ƒํ•œ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ํ‰๊ท ์ ์œผ๋กœ ๊ฐ€์žฅ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.  
ํŠนํžˆ ์žฌ๋ฌดํšŒ๊ณ„ ๋ฐ ๊ธˆ์œต ์งˆ์˜์‘๋‹ต(Open-Ended FinQA) ์„œ๋ธŒ์…‹์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ด ๋ชจ๋ธ์ด ๋›ฐ์–ด๋‚œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.  
๋˜ํ•œ ์ถ”๋ก  ์ค‘์‹ฌ ํ•™์Šต์œผ๋กœ ์ธํ•ด ๋„๋ฉ”์ธ ์ „๋ฌธ ์ง€์‹(์‹œ์žฅ ๋ถ„์•ผ)์— ๋Œ€ํ•œ ํ•™์Šต์ด ๋ถ€์กฑํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๊ธˆ์œต์‹œ์žฅ ์„œ๋ธŒ์…‹์—์„œ ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ๋“ค์„ ์•ž์„œ๋ฉฐ โ‚ฉON์˜ ๋‹ค๋ฐฉ๋ฉด์œผ๋กœ ๋›ฐ์–ด๋‚œ ๋Šฅ๋ ฅ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค.

<!-- | Models                                    | F&A  | Market | Open-Ended | Average |
|-------------------------------------------|------|--------|------------|---------|
| overfit-brothers/hello_world06            | 0.65 | **0.83** | 0.01       | 0.50    |
| AnonymousLLMer/krx-qwen2.5-v1206-1        | 0.63 | 0.65   | 0.04       | 0.44    |
| shibainu24/qwen2.5-7B-inst-release-1516wk | 0.56 | 0.67   | 0.04       | 0.43    |
| Q-PING/krx_1205_test_model_3              | 0.58 | 0.64   | 0.02       | 0.42    |
| Hi-Q/krx_1206_test_model_2                | 0.60 | 0.61   | 0.02       | 0.41    |
| **โ‚ฉON (Ours)**                            | **0.78** | 0.66   | **0.18**   | **0.54** | -->

<figure style="text-align: center;">
  <img src="https://cdn-uploads.huggingface.co/production/uploads/63e087b6a98d931aa90c1b9c/--5Kkwfuf8c6hbNUvpJq6.png" width="700" height="900" alt="์ƒ˜ํ”Œ ์ด๋ฏธ์ง€" style="display: block; margin: auto;">
  <!-- <figcaption style="font-style: italic; color: gray; margin-top: 8px;">
    Overview of the benchmark used for evaluation. Each example demonstrates a specific question type for each category.
  </figcaption> -->
</figure>

## Quick Start

```python
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model = AutoModelForCausalLM.from_pretrained("KRX-Data/WON-Reasoning", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("KRX-Data/WON-Reasoning")

messages = [
    {"role": "user", "content": <your_promt>} # Replace `<your_prompt>` with your query!
]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
```

## Citation

```
@article{son2025won,
  title={Won: Establishing Best Practices for Korean Financial NLP},
  author={Son, Guijin and Ko, Hyunwoo and Jung, Haneral and Hwang, Chami},
  journal={arXiv preprint arXiv:2503.17963},
  year={2025}
}
```

## Contact

```
spthsrbwls123@yonsei.ac.kr, hcharm2ing@krx.co.kr
```