File size: 2,172 Bytes
c2202ab
 
 
 
 
fb19ac0
c2202ab
fb19ac0
 
 
c2202ab
 
e922a86
 
 
 
fb19ac0
 
 
e922a86
 
 
 
 
fb19ac0
 
 
47e980d
e922a86
 
 
 
 
47e980d
 
 
e922a86
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
---
license: apache-2.0
tags:
- korean
- finance
- chatbot
- instruction
- llama
- lora
- 4bit
---

# πŸ’¬ KoFinGPT: ν•œκ΅­μ–΄ 금육 μš©μ–΄ μ„€λͺ… νŠΉν™” LLM (LoRA + LLaMA-3 기반)
`taetae030/fin-term-model`은 **ν•œκ΅­μ–΄ 금육 μš©μ–΄μ— λŒ€ν•œ μ§ˆλ¬Έμ— μΉœμ ˆν•˜κ³  μ •ν™•ν•˜κ²Œ λ‹΅λ³€ν•˜λŠ” 챗봇 νŠΉν™” LLM**μž…λ‹ˆλ‹€.  
Meta의 μ΅œμ‹  **LLaMA-3 8B Instruct** λͺ¨λΈμ„ 기반으둜 ν•˜λ©°,  
[`taetae030/fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct) 데이터셋을 ν™œμš©ν•˜μ—¬ **LoRA λ°©μ‹μœΌλ‘œ κ²½λŸ‰ νŠœλ‹**λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

---

## πŸ“Œ μ£Όμš” νŠΉμ§•
- 🧠 ν•œκ΅­μ–΄ 금육 μ „λ¬Έ Q&A ν•™μŠ΅
- 🧩 LoRA 기반 κ²½λŸ‰ν™” νŒŒμΈνŠœλ‹
- πŸ’Ύ 4bit μ–‘μžν™” 적용 (bnb.nf4) β†’ GPU 효율적 μΆ”λ‘  κ°€λŠ₯
- πŸ€– 챗봇 μΈν„°νŽ˜μ΄μŠ€, 금육 AI μ„œλΉ„μŠ€, ꡐ윑용 μ§ˆλ¬Έμ‘λ‹΅ μ‹œμŠ€ν…œ λ“± λ‹€μ–‘ν•œ ν™œμš© κ°€λŠ₯

---

## πŸ“¦ ν•™μŠ΅ 데이터 좜처
λͺ¨λΈ ν•™μŠ΅μ—λŠ” AI ν—ˆλΈŒμ˜ 곡곡 데이터λ₯Ό 기반으둜 μ œμž‘λœ λ‹€μŒ 데이터셋을 μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€:
- πŸ“‚ [`taetae030/fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct)  
- 원본 좜처: [AI ν—ˆλΈŒ – κΈˆμœ΅Β·λ²•λ₯  λ¬Έμ„œ 기계독해 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71610)  
- μ‚¬μš© λ²”μœ„: 전체 μ•½ 40만 건 쀑 **금육경제 λΆ„μ•Ό(17.3%)**만 선별  
- 포맷: Alpaca-style (`instruction`, `input`, `output`) ν˜•νƒœλ‘œ μž¬μ •μ œ

---

## πŸ’‘ μ˜ˆμ‹œ
| instruction                                                           | input | output                   |
|------------------------------------------------------------------------|-------|---------------------------|
| ν•œκ΅­μ€ν–‰μ΄ 업무 μΆ”μ§„ κ³Όμ •μ—μ„œ 생길 수 μžˆλŠ” 리슀크 μ˜ˆλ°©μ„ μœ„ν•΄ ν•΄λ§ˆλ‹€ μ‹€μ‹œν•˜λŠ” 게 뭐야 |       | 리슀크 ν†΅μ œ μžκ°€μ§„λ‹¨       |
| 데이터 μ‚¬μ΄μ–ΈμŠ€μ— λŒ€ν•œ ν”„λ‘œκ·Έλž¨μ„ λ³΄κ°•ν•˜μ—¬ 2021년에 μ—°μˆ˜λ₯Ό μ§„ν–‰ν•œ 기관은 μ–΄λ””μ•Ό      |       | ν•œκ΅­μ€ν–‰                  |
| λ””μ§€ν„Έ 경제 μ‹œλŒ€μ˜ 데이터 관리와 μ΄μš©μ„ μœ„ν•΄ λ§Œλ“  μ œλ„λŠ” 뭐야                     |       | 데이터 κ±°λ²„λ„ŒμŠ€ κ·œμ •        |