taetae030
/

fin-term-model

@@ -10,40 +10,72 @@ tags:
 - 4bit
 ---
-# 🧾 KoFinGPT: 한국어 금융 용어 설명 챗봇 모델 (LoRA + LLaMA-3 기반)
-`taetae030/fin-term-model`은 한국어 금융 분야 질의응답에 특화된 LLM입니다.
-Meta의 **LLaMA-3 8B Instruct**를 기반으로, 한국은행 관련 금융 용어를 쉽게 설명해주는 챗봇을 만들기 위해 튜닝되었습니다.
-학습에는 아래의 instruct-style 데이터셋을 사용했습니다:
-👉 [💾 `taetae030/fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct)
 ---
-## 🛠️ 모델 세부 정보
-| 항목            | 내용                                         |
-|-----------------|----------------------------------------------|
-| 기반 모델       | Meta-LLaMA-3-8B-Instruct                      |
-| 학습 방식       | LoRA (Low-Rank Adaptation)                   |
-| 튜닝 방식       | Supervised Fine-Tuning (SFT)                 |
-| 양자화          | 4bit (bnb.nf4, bitsandbytes)                 |
-| 언어            | 한국어                                       |
-| 주요 용도       | 금융 용어 질의응답, 설명 챗봇                |
-| 데이터셋        | [`fin-term-instruct`](https://huggingface.co/datasets/taetae030/fin-term-instruct) |
-| 라이선스        | Apache-2.0                                   |
 ---
-## 🧪 사용 예시
-**질문**: 통화정책이란?
-**응답**:
-> 통화정책은 중앙은행이 금리와 통화량을 조절하여 경제 안정을 추구하는 정책입니다.
 ---
-## 💻 사용법
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
@@ -51,7 +83,7 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 model = AutoModelForCausalLM.from_pretrained("taetae030/fin-term-model")
 tokenizer = AutoTokenizer.from_pretrained("taetae030/fin-term-model")
-prompt = "통화정책이란?"
 inputs = tokenizer(prompt, return_tensors="pt")
-outputs = model.generate(**inputs, max_new_tokens=100)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))

 - 4bit
 ---
+# 💬 KoFinGPT: 한국어 금융 용어 설명 특화 LLM (LoRA + LLaMA-3)
+`taetae030/fin-term-model`은 **한국어 금융 용어를 쉽게 설명해주는 챗봇 특화 LLM**입니다.
+Meta의 최신 LLaMA-3 8B Instruct 모델을 기반으로, 한국은행 등 공공기관의 금융 문서를 활용한 **질문-응답 instruct 데이터셋**으로 튜닝되었습니다.
+이 모델은 금융 초보자도 이해할 수 있도록 **전문 용어를 간결하게 설명**하는 데 초점을 맞췄으며,
+LoRA 방식으로 경량화된 파인튜닝 구조를 사용합니다.
 ---
+## 🧠 모델 개요
+| 항목            | 설명                                                                 |
+|-----------------|----------------------------------------------------------------------|
+| 기반 모델       | Meta-LLaMA-3-8B-Instruct                                              |
+| 튜닝 방식       | LoRA (Low-Rank Adaptation) + Supervised Fine-Tuning (SFT)           |
+| 양자화          | 4bit (bnb.nf4, bitsandbytes 사용)                                     |
+| 사용 언어       | 한국어                                                               |
+| 주요 용도       | 금융 용어 설명, 질의응답 기반 챗봇                                  |
+| 학습 데이터     | [fin-term-instruct](https://huggingface.co/datasets/taetae030/fin-term-instruct) |
+| 라이선스        | Apache-2.0                                                            |
 ---
+## ✨ 모델 특징
+- 💡 금융 용어에 대한 자연어 질의응답 지원
+- 📄 공공기관 문서를 기반으로 높은 신뢰성
+- 🧩 LoRA 구조 병합 가능 (`merge_and_unload()` 사용 가능)
+- 💬 한국어 기반 챗봇 환경에 적합
 ---
+## 📦 학습 데이터 출처
+모델 학습에 사용된 instruct 데이터셋은 **AI 허브의 공공 데이터**를 기반으로 구축되었습니다.
+- 📂 **AI 허브 – 금융·법률 문서 기계독해 데이터**
+  👉 [링크 바로가기](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=71610)
+- **데이터 구축년도**: 2022년
+- **전체 구축량**: 약 40만 건
+- **선별 기준**: 전체 데이터 중 `금융경제` 분야(약 17.3%)만 선별 사용
+- **형식**: JSON (지문 - 질문 - 답변 구성)
+- **출처 기관**:
+  - 한국은행
+  - 금융위원회
+  - 금융감독원
+  - 국회입법조사처
+  - 법제처
+  - 한국금융연구원 등
+- ⚙️ 해당 원본을 기반으로 GPT 모델을 활용해 간결하고 일관된 instruct 포맷(`instruction`, `input`, `output`)으로 재정제하였습니다.
+---
+## 🧪 예시
+**입력**: `기축통화란 무엇인가요?`
+**모델 응답**:
+> 기축통화는 국제 거래에서 널리 사용되는 기준이 되는 통화를 의미합니다. 현재는 미국 달러가 대표적인 기축통화입니다.
+---
+## 🔧 사용법 (Inference 예제)
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model = AutoModelForCausalLM.from_pretrained("taetae030/fin-term-model")
 tokenizer = AutoTokenizer.from_pretrained("taetae030/fin-term-model")
+prompt = "통화스와프란?"
 inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(**inputs, max_new_tokens=128)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))