lora-sft-v12

Qwen3-4B-Instruct-2507 をベースとした LoRA アダプタです。構造化データ出力(JSON, YAML, TOML, CSV, XML)の精度向上を目的にファインチューニングしています。

Model Details

  • Base Model: Qwen/Qwen3-4B-Instruct-2507
  • Method: LoRA + rsLoRA (Rank-Stabilized LoRA)
  • Framework: PEFT / Transformers / BitsAndBytes (4-bit QLoRA)
  • Dataset: u-10bei/structured_data_with_cot_dataset_512_v2

Training Hyperparameters

Parameter Value
LoRA rank (r) 64
LoRA alpha 128
rsLoRA True
Target modules q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Epochs 1
Learning rate 2e-6
Effective batch size 32 (micro=2, accum=16)
Max sequence length 512
Precision bf16
Quantization 4-bit NF4 + double quant
Optimizer AdamW
Warmup ratio 0.1
Weight decay 0.05

Usage

Downloads last month
22
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for astom-M/lora-sft-v12

Adapter
(5264)
this model