lora-sft-v12 / README.md
astom-M's picture
Upload README.md with huggingface_hub
ba11fb3 verified
metadata
base_model: Qwen/Qwen3-4B-Instruct-2507
library_name: peft
tags:
  - text-generation
  - peft
  - lora
  - structured-output
license: apache-2.0
language:
  - ja
  - en

lora-sft-v12

Qwen3-4B-Instruct-2507 をベースとした LoRA アダプタです。構造化データ出力(JSON, YAML, TOML, CSV, XML)の精度向上を目的にファインチューニングしています。

Model Details

  • Base Model: Qwen/Qwen3-4B-Instruct-2507
  • Method: LoRA + rsLoRA (Rank-Stabilized LoRA)
  • Framework: PEFT / Transformers / BitsAndBytes (4-bit QLoRA)
  • Dataset: u-10bei/structured_data_with_cot_dataset_512_v2

Training Hyperparameters

Parameter Value
LoRA rank (r) 64
LoRA alpha 128
rsLoRA True
Target modules q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Epochs 1
Learning rate 2e-6
Effective batch size 32 (micro=2, accum=16)
Max sequence length 512
Precision bf16
Quantization 4-bit NF4 + double quant
Optimizer AdamW
Warmup ratio 0.1
Weight decay 0.05

Usage