--- license: apache-2.0 tags: - korean - finance - chatbot - instruction - llama - lora - 4bit --- # πŸ’¬ KoFinGPT: ν•œκ΅­μ–΄ 금육 μš©μ–΄ μ„€λͺ… νŠΉν™” LLM (LoRA + LLaMA-3 기반) `taetae030/fin-term-model`은 **ν•œκ΅­μ–΄ 금육 μš©μ–΄μ— λŒ€ν•œ μ§ˆλ¬Έμ— μΉœμ ˆν•˜κ³  μ •ν™•ν•˜κ²Œ λ‹΅λ³€ν•˜λŠ” 챗봇 νŠΉν™” LLM**μž…λ‹ˆλ‹€. Meta의 μ΅œμ‹  **LLaMA-3 8B Instruct** λͺ¨λΈμ„ 기반으둜 ν•˜λ©°, [`taetae030/fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct) 데이터셋을 ν™œμš©ν•˜μ—¬ **LoRA λ°©μ‹μœΌλ‘œ κ²½λŸ‰ νŠœλ‹**λ˜μ—ˆμŠ΅λ‹ˆλ‹€. --- ## πŸ“Œ μ£Όμš” νŠΉμ§• - 🧠 ν•œκ΅­μ–΄ 금육 μ „λ¬Έ Q&A ν•™μŠ΅ - 🧩 LoRA 기반 κ²½λŸ‰ν™” νŒŒμΈνŠœλ‹ - πŸ’Ύ 4bit μ–‘μžν™” 적용 (bnb.nf4) β†’ GPU 효율적 μΆ”λ‘  κ°€λŠ₯ - πŸ€– 챗봇 μΈν„°νŽ˜μ΄μŠ€, 금육 AI μ„œλΉ„μŠ€, ꡐ윑용 μ§ˆλ¬Έμ‘λ‹΅ μ‹œμŠ€ν…œ λ“± λ‹€μ–‘ν•œ ν™œμš© κ°€λŠ₯ --- ## πŸ“¦ ν•™μŠ΅ 데이터 좜처 λͺ¨λΈ ν•™μŠ΅μ—λŠ” AI ν—ˆλΈŒμ˜ 곡곡 데이터λ₯Ό 기반으둜 μ œμž‘λœ λ‹€μŒ 데이터셋을 μ‚¬μš©ν–ˆμŠ΅λ‹ˆλ‹€: - πŸ“‚ [`taetae030/fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct) - 원본 좜처: [AI ν—ˆλΈŒ – κΈˆμœ΅Β·λ²•λ₯  λ¬Έμ„œ 기계독해 데이터](https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=71610) - μ‚¬μš© λ²”μœ„: 전체 μ•½ 40만 건 쀑 **금육경제 λΆ„μ•Ό(17.3%)**만 선별 - 포맷: Alpaca-style (`instruction`, `input`, `output`) ν˜•νƒœλ‘œ μž¬μ •μ œ --- ## πŸ’‘ μ˜ˆμ‹œ | instruction | input | output | |------------------------------------------------------------------------|-------|---------------------------| | ν•œκ΅­μ€ν–‰μ΄ 업무 μΆ”μ§„ κ³Όμ •μ—μ„œ 생길 수 μžˆλŠ” 리슀크 μ˜ˆλ°©μ„ μœ„ν•΄ ν•΄λ§ˆλ‹€ μ‹€μ‹œν•˜λŠ” 게 뭐야 | | 리슀크 ν†΅μ œ μžκ°€μ§„λ‹¨ | | 데이터 μ‚¬μ΄μ–ΈμŠ€μ— λŒ€ν•œ ν”„λ‘œκ·Έλž¨μ„ λ³΄κ°•ν•˜μ—¬ 2021년에 μ—°μˆ˜λ₯Ό μ§„ν–‰ν•œ 기관은 μ–΄λ””μ•Ό | | ν•œκ΅­μ€ν–‰ | | λ””μ§€ν„Έ 경제 μ‹œλŒ€μ˜ 데이터 관리와 μ΄μš©μ„ μœ„ν•΄ λ§Œλ“  μ œλ„λŠ” 뭐야 | | 데이터 κ±°λ²„λ„ŒμŠ€ κ·œμ • |