lora-sft-v12

Base Model: Qwen/Qwen3-4B-Instruct-2507
Method: LoRA + rsLoRA (Rank-Stabilized LoRA)
Framework: PEFT / Transformers / BitsAndBytes (4-bit QLoRA)
Dataset: u-10bei/structured_data_with_cot_dataset_512_v2

Qwen3-4B-Instruct-2507 をベースとした LoRA アダプタです。構造化データ出力（JSON, YAML, TOML, CSV, XML）の精度向上を目的にファインチューニングしています。

Model Details

Parameter	Value
LoRA rank (r)	64
LoRA alpha	128
rsLoRA	True
Target modules	q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Epochs	1
Learning rate	2e-6
Effective batch size	32 (micro=2, accum=16)
Max sequence length	512
Precision	bf16
Quantization	4-bit NF4 + double quant
Optimizer	AdamW
Warmup ratio	0.1
Weight decay	0.05

Base model

Adapter

this model