fin-term-model / README.md
taetae030's picture
Update README.md
e922a86 verified
---
license: apache-2.0
tags:
- korean
- finance
- chatbot
- instruction
- llama
- lora
- 4bit
---
# πŸ’¬ KoFinGPT: ν•œκ΅­μ–΄ 금육 μš©μ–΄ μ„€λͺ… νŠΉν™” LLM (LoRA + LLaMA-3 기반)
`taetae030/fin-term-model`은 **ν•œκ΅­μ–΄ 금육 μš©μ–΄μ— λŒ€ν•œ μ§ˆλ¬Έμ— μΉœμ ˆν•˜κ³  μ •ν™•ν•˜κ²Œ λ‹΅λ³€ν•˜λŠ” 챗봇 νŠΉν™” LLM**μž…λ‹ˆλ‹€.
Meta의 μ΅œμ‹  **LLaMA-3 8B Instruct** λͺ¨λΈμ„ 기반으둜 ν•˜λ©°,
[`taetae030/fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct) 데이터셋을 ν™œμš©ν•˜μ—¬ **LoRA λ°©μ‹μœΌλ‘œ κ²½λŸ‰ νŠœλ‹**λ˜μ—ˆμŠ΅λ‹ˆλ‹€.
---
## πŸ“Œ μ£Όμš” νŠΉμ§•
- 🧠 ν•œκ΅­μ–΄ 금육 μ „λ¬Έ Q&A ν•™μŠ΅
- 🧩 LoRA 기반 κ²½λŸ‰ν™” νŒŒμΈνŠœλ‹
- πŸ’Ύ 4bit μ–‘μžν™” 적용 (bnb.nf4) β†’ GPU 효율적 μΆ”λ‘  κ°€λŠ₯
- πŸ€– 챗봇 μΈν„°νŽ˜μ΄μŠ€, 금육 AI μ„œλΉ„μŠ€, ꡐ윑용 μ§ˆλ¬Έμ‘λ‹΅ μ‹œμŠ€ν…œ λ“± λ‹€μ–‘ν•œ ν™œμš© κ°€λŠ₯
---
## πŸ“¦ ν•™μŠ΅ 데이터 좜처
λͺ¨λΈ ν•™μŠ΅μ—λŠ” AI ν—ˆλΈŒμ˜ 곡곡 데이터λ₯Ό 기반으둜 μ œμž‘λœ λ‹€μŒ 데이터셋을 μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€:
- πŸ“‚ [`taetae030/fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct)
- 원본 좜처: [AI ν—ˆλΈŒ – κΈˆμœ΅Β·λ²•λ₯  λ¬Έμ„œ 기계독해 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71610)
- μ‚¬μš© λ²”μœ„: 전체 μ•½ 40만 건 쀑 **금육경제 λΆ„μ•Ό(17.3%)**만 선별
- 포맷: Alpaca-style (`instruction`, `input`, `output`) ν˜•νƒœλ‘œ μž¬μ •μ œ
---
## πŸ’‘ μ˜ˆμ‹œ
| instruction | input | output |
|------------------------------------------------------------------------|-------|---------------------------|
| ν•œκ΅­μ€ν–‰μ΄ 업무 μΆ”μ§„ κ³Όμ •μ—μ„œ 생길 수 μžˆλŠ” 리슀크 μ˜ˆλ°©μ„ μœ„ν•΄ ν•΄λ§ˆλ‹€ μ‹€μ‹œν•˜λŠ” 게 뭐야 | | 리슀크 ν†΅μ œ μžκ°€μ§„λ‹¨ |
| 데이터 μ‚¬μ΄μ–ΈμŠ€μ— λŒ€ν•œ ν”„λ‘œκ·Έλž¨μ„ λ³΄κ°•ν•˜μ—¬ 2021년에 μ—°μˆ˜λ₯Ό μ§„ν–‰ν•œ 기관은 μ–΄λ””μ•Ό | | ν•œκ΅­μ€ν–‰ |
| λ””μ§€ν„Έ 경제 μ‹œλŒ€μ˜ 데이터 관리와 μ΄μš©μ„ μœ„ν•΄ λ§Œλ“  μ œλ„λŠ” 뭐야 | | 데이터 κ±°λ²„λ„ŒμŠ€ κ·œμ • |