Qwen3-4B-KRX-Finance

Qwen3-4B-KRX-Finance는 한국어 금융 도메인 질의응답 품질 향상을 목표로
Qwen3-4B-Instruct 모델을 기반으로 SFT(Supervised Fine-Tuning) 이후
DPO(Direct Preference Optimization) 방식으로 추가 정렬한 PEFT 어댑터(Adapter) 모델입니다.

본 저장소에는 DPO 학습이 완료된 어댑터만 포함되어 있으며,
베이스 모델은 별도로 로드해야 합니다.

1. 모델 개요

Base Model
unsloth/Qwen3-4B-Instruct-2507
Fine-tuning Pipeline
1. Supervised Fine-Tuning (SFT)
2. Direct Preference Optimization (DPO)
Release Type
PEFT Adapter only
Target Domain
한국어 금융 질의응답 (금리, 채권, 거시경제, 금융 개념 설명 중심)

2. 학습 목적

본 모델은 다음과 같은 목적을 가지고 학습되었습니다.

한국어 금융 질문에 대한 설명 정확도 및 일관성 향상
답변을 단순 나열이 아닌 논리적으로 구조화된 형태로 생성
동일 질문에 대해 선호되는 답변 스타일로 정렬
금융 학습·리서치·설명용으로 활용 가능한 안정적인 언어 모델 구축

3. SFT (Supervised Fine-Tuning)

3.1 SFT 학습 개요

SFT 단계에서는 모델이
한국어 금융 질의응답의 기본적인 형식과 도메인 지식을 습득하도록 학습되었습니다.

금융 개념 설명 중심 QA
한국어 질문에 대한 직접적이고 설명적인 응답 학습

3.2 SFT 학습 데이터

Dataset
https://huggingface.co/datasets/KRX-Data/Won-Instruct
데이터 분리 방식
- test_size = 0.05
- Train / Test 분리 후 Train 데이터만 SFT 학습에 사용
데이터 특징
- 한국어 금융 질의응답 데이터
- 금리, 채권, 거시경제, 금융 제도 및 개념 설명 중심
- 설명형 응답 위주 구성

3.3 SFT 결과 요약

SFT 이후 모델은 다음과 같은 특성을 갖게 되었습니다.

한국어 금융 질문에 대해 안정적인 기본 응답 생성
금융 도메인 용어 이해도 향상
다만,
- 답변 길이 편차
- 중복 서술
- 선호되지 않는 서술 방식이 일부 존재

이를 보완하기 위해 DPO 학습을 진행했습니다.

4. DPO (Direct Preference Optimization)

4.1 DPO 학습 목적

DPO 단계의 목적은 다음과 같습니다.

동일 질문에 대해 더 나은 답변(chosen) 을 선택하도록 정렬
설명의 명확성, 간결성, 구조적 완결성 강화
SFT 모델 출력의 품질 편차 감소

4.2 DPO 학습 데이터

Base Dataset
https://huggingface.co/datasets/aiqwe/FinShibainu
Prompt 구성
- 전체 데이터 중 무작위로 1,200개 prompt 추출
- 금융 관련 질문 중심
Chosen 응답
- gemini-3-flash-preview API를 활용하여 생성
- 설명의 완결성, 중복 제거, 논리적 구조를 기준으로 사용
Rejected 응답
- Base Qwen3-4B-Instruct 모델 출력 사용
- 상대적으로 구조가 덜 정제된 응답

4.3 DPO 학습 설정 요약

Policy Model
SFT 완료 모델
Reference Model
Base Qwen3-4B-Instruct (고정)
Beta
0.2
Epoch
2
Max Sequence Length
2048
Optimization Method
Direct Preference Optimization (DPO)

5. 사용 방법

5.1 Base 모델 로드

from unsloth import FastLanguageModel

base_model, tokenizer = FastLanguageModel.from_pretrained(
    "unsloth/Qwen3-4B-Instruct-2507",
    max_seq_length=2048,
    load_in_4bit=True,
)

from peft import PeftModel

model = PeftModel.from_pretrained(
    base_model,
    "mjun/Qwen3-4B-KRX-Finance"
)

model.eval()

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for mjun/Qwen3-4B-KRX-Finance

Base model

Qwen/Qwen3-4B-Instruct-2507

Finetuned

unsloth/Qwen3-4B-Instruct-2507

Finetuned

(329)

this model