Model Card: Qwen3-4B-HS4-DPO
이 모델은 **품명(Item Description)으로부터 관세 품목 분류 번호(HS Code)**를 정확하게 추론하기 위해 Qwen3-4B 모델을 DPO(Direct Preference Optimization) 방식으로 미세 조정(Fine-tuning)한 데모 모델입니다. 해당 모델은 데모용으로 개발되었으며, 소량의 데이터를 사용하여 학습하여 결과가 다소 부정확할수 있습니다.
1. 모델 설명 (Model Details)
- Developed by: [AX추진실]
- Language: 한국어, 영어
- Model Type: Causal Language Model
- Base Model:
Qwen/Qwen3-4B - Training Method: DPO (Direct Preference Optimization)
- 단순 SFT(Supervised Fine-Tuning)보다 정확한 HS Code 매칭 결과를 선호하도록 학습되었습니다.
2. 학습 데이터 및 목적 (Intended Use)
수출입 통관 데이터의 품명(Text) 정보와 실제 할당된 HS Code 쌍을 활용하였습니다.
- Input: 상품명 또는 상품에 대한 상세 묘사 (예: "Wireless Bluetooth Earbuds with Noise Cancelling")
- Output: 해당 상품의 HS 4단위 추론과정 및 HS코드 4단위
3. 학습 과정 (Training Procedure)
- DPO Pair Data:
- Prompt, Chosen/Rejected Set을 LLM으로 생성하고 학습진행
- Training Tool: TRL (Transformer Reinforcement Learning)
4. 사용 방법 (How to use)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "KoreaTradeNetwork/Qwen3-4B-HS4-DPO"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
prompt = "품명: 'Organic Green Tea Bag'\n이 상품의 HS 코드는?"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 26