developer-lunark
/

kaidol-thinking-sft-4b

Text Generation

text-generation-inference

Model card Files Files and versions

kaidol-thinking-sft-4b / README.md

developer-lunark's picture

developer-lunark

Upload README.md with huggingface_hub

465d1e4 verified about 1 month ago

|

history blame contribute delete

1.91 kB

	---
	license: apache-2.0
	language:
	- ko
	library_name: transformers
	tags:
	- kaidol
	- chatbot
	- idol
	- thinking
	- qwen
	- lora
	pipeline_tag: text-generation
	base_model: Qwen/Qwen3-4B-Thinking
	---

	# KAIdol Thinking SFT Model (Model G)

	아이돌 챗봇 KAI를 위한 Fine-tuned 모델입니다.

	## 모델 정보

	\| 항목 \| 값 \|
	\|------\|-----\|
	\| Base Model \| Qwen3-4B-Thinking-2507 \|
	\| Fine-tuning \| LoRA (r=32, alpha=64) \|
	\| Dataset \| Balanced Upsampled (52,879 train / 5,875 eval) \|
	\| Training \| SFT \|

	## 성능

	### 일반 평가 (300 샘플)
	- 응답 품질: 0.598
	- 정책 준수율: 99.67%
	- 사랑 고백 위반율: 0.33%

	### Edge Case 테스트 (10개)
	- 전체 통과율: 100%
	- Hard 난이도: 100% (2/2)
	- Medium 난이도: 100% (4/4)
	- Easy 난이도: 100% (4/4)

	## 특징

	1. Thinking Process: `<think>` 태그 내에 구조화된 사고과정 생성
	2. 높은 정책 준수율: 고백 금지, 팬 호칭 금지 등 정책 준수
	3. Edge Case 강건성: 어려운 상황에서도 안정적인 응답

	## 사용법

	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer

	model_id = "developer-lunark/kaidol-thinking-sft-4b"
	tokenizer = AutoTokenizer.from_pretrained(model_id)
	model = AutoModelForCausalLM.from_pretrained(model_id)

	# 대화 생성
	messages = [
	{"role": "system", "content": "당신은 23세 남자 아이돌 KAI입니다..."},
	{"role": "user", "content": "오빠 안녕!"}
	]

	inputs = tokenizer.apply_chat_template(messages, return_tensors="pt")
	outputs = model.generate(inputs, max_new_tokens=512)
	response = tokenizer.decode(outputs[0], skip_special_tokens=True)
	print(response)
	```

	## 학습 설정

	```yaml
	# LoRA Config
	r: 32
	lora_alpha: 64
	lora_dropout: 0.05
	target_modules: ["q_proj", "k_proj", "v_proj", "o_proj"]

	# Training
	learning_rate: 2e-5
	epochs: 3
	batch_size: 4
	gradient_accumulation_steps: 4
	```

	## 라이선스

	Apache 2.0