Model Card: Qwen3-4B-HS4-DPO
์ด ๋ชจ๋ธ์ **ํ๋ช (Item Description)์ผ๋ก๋ถํฐ ๊ด์ธ ํ๋ชฉ ๋ถ๋ฅ ๋ฒํธ(HS Code)**๋ฅผ ์ ํํ๊ฒ ์ถ๋ก ํ๊ธฐ ์ํด Qwen3-4B ๋ชจ๋ธ์ DPO(Direct Preference Optimization) ๋ฐฉ์์ผ๋ก ๋ฏธ์ธ ์กฐ์ (Fine-tuning)ํ ๋ฐ๋ชจ ๋ชจ๋ธ์ ๋๋ค. ํด๋น ๋ชจ๋ธ์ ๋ฐ๋ชจ์ฉ์ผ๋ก ๊ฐ๋ฐ๋์์ผ๋ฉฐ, ์๋์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํ์ฌ ๊ฒฐ๊ณผ๊ฐ ๋ค์ ๋ถ์ ํํ ์ ์์ต๋๋ค.
1. ๋ชจ๋ธ ์ค๋ช (Model Details)
- Developed by: [AX์ถ์ง์ค]
- Language: ํ๊ตญ์ด, ์์ด
- Model Type: Causal Language Model
- Base Model:
Qwen/Qwen3-4B - Training Method: DPO (Direct Preference Optimization)
- ๋จ์ SFT(Supervised Fine-Tuning)๋ณด๋ค ์ ํํ HS Code ๋งค์นญ ๊ฒฐ๊ณผ๋ฅผ ์ ํธํ๋๋ก ํ์ต๋์์ต๋๋ค.
2. ํ์ต ๋ฐ์ดํฐ ๋ฐ ๋ชฉ์ (Intended Use)
์์ถ์ ํต๊ด ๋ฐ์ดํฐ์ ํ๋ช (Text) ์ ๋ณด์ ์ค์ ํ ๋น๋ HS Code ์์ ํ์ฉํ์์ต๋๋ค.
- Input: ์ํ๋ช ๋๋ ์ํ์ ๋ํ ์์ธ ๋ฌ์ฌ (์: "Wireless Bluetooth Earbuds with Noise Cancelling")
- Output: ํด๋น ์ํ์ HS 4๋จ์ ์ถ๋ก ๊ณผ์ ๋ฐ HS์ฝ๋ 4๋จ์
3. ํ์ต ๊ณผ์ (Training Procedure)
- DPO Pair Data:
- Prompt, Chosen/Rejected Set์ LLM์ผ๋ก ์์ฑํ๊ณ ํ์ต์งํ
- Training Tool: TRL (Transformer Reinforcement Learning)
4. ์ฌ์ฉ ๋ฐฉ๋ฒ (How to use)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "KoreaTradeNetwork/Qwen3-4B-HS4-DPO"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto")
prompt = "ํ๋ช
: 'Organic Green Tea Bag'\n์ด ์ํ์ HS ์ฝ๋๋?"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 8