lora-sft-v12
Qwen3-4B-Instruct-2507 をベースとした LoRA アダプタです。構造化データ出力(JSON, YAML, TOML, CSV, XML)の精度向上を目的にファインチューニングしています。
Model Details
- Base Model: Qwen/Qwen3-4B-Instruct-2507
- Method: LoRA + rsLoRA (Rank-Stabilized LoRA)
- Framework: PEFT / Transformers / BitsAndBytes (4-bit QLoRA)
- Dataset: u-10bei/structured_data_with_cot_dataset_512_v2
Training Hyperparameters
| Parameter | Value |
|---|---|
| LoRA rank (r) | 64 |
| LoRA alpha | 128 |
| rsLoRA | True |
| Target modules | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
| Epochs | 1 |
| Learning rate | 2e-6 |
| Effective batch size | 32 (micro=2, accum=16) |
| Max sequence length | 512 |
| Precision | bf16 |
| Quantization | 4-bit NF4 + double quant |
| Optimizer | AdamW |
| Warmup ratio | 0.1 |
| Weight decay | 0.05 |
Usage
- Downloads last month
- 22
Model tree for astom-M/lora-sft-v12
Base model
Qwen/Qwen3-4B-Instruct-2507