reasoning_sft_sample_lora_a_quality_v4

Qwen/Qwen3.5-0.8B에 한국어 Thinking Process 형식 데이터를 SFT한 LoRA adapter입니다.

Dataset: NotoriousH2/reasoning_sft_sample
Config: method_a
Route: teacher가 질문만 보고 한국어 reasoning과 답변을 직접 생성한 데이터
Base model: Qwen/Qwen3.5-0.8B
Train split: 400 examples
Training: QLoRA, 2 epochs, LoRA r=16, alpha=32

System Prompt

당신은 한국어로 추론하고 답하는 조수입니다.
reasoning 영역은 `Thinking Process:`로 시작하고, 한국어로 구조화해 작성하세요.
최종 응답은 사용자의 요청에 맞는 자연스러운 한국어로 작성하세요.

Usage

from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer

model_id = "NotoriousH2/reasoning_sft_sample_lora_a_quality_v4"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoPeftModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto",
    trust_remote_code=True,
)

Downloads last month: 101

Model tree for NotoriousH2/reasoning_sft_sample_lora_a_quality_v4

Base model

Qwen/Qwen3.5-0.8B-Base

Finetuned

Qwen/Qwen3.5-0.8B

Adapter

(144)

this model

NotoriousH2
/

reasoning_sft_sample_lora_a_quality_v4

reasoning_sft_sample_lora_a_quality_v4

System Prompt

Usage

Model tree for NotoriousH2/reasoning_sft_sample_lora_a_quality_v4

Dataset used to train NotoriousH2/reasoning_sft_sample_lora_a_quality_v4