lora-sft-v12 / README.md

astom-M

Upload README.md with huggingface_hub

ba11fb3 verified about 2 months ago

preview code

raw

history blame contribute delete

1.1 kB

metadata

base_model: Qwen/Qwen3-4B-Instruct-2507
library_name: peft
tags:
  - text-generation
  - peft
  - lora
  - structured-output
license: apache-2.0
language:
  - ja
  - en

lora-sft-v12

Qwen3-4B-Instruct-2507 をベースとした LoRA アダプタです。構造化データ出力（JSON, YAML, TOML, CSV, XML）の精度向上を目的にファインチューニングしています。

Model Details

Base Model: Qwen/Qwen3-4B-Instruct-2507
Method: LoRA + rsLoRA (Rank-Stabilized LoRA)
Framework: PEFT / Transformers / BitsAndBytes (4-bit QLoRA)
Dataset: u-10bei/structured_data_with_cot_dataset_512_v2

Training Hyperparameters

Parameter	Value
LoRA rank (r)	64
LoRA alpha	128
rsLoRA	True
Target modules	q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
Epochs	1
Learning rate	2e-6
Effective batch size	32 (micro=2, accum=16)
Max sequence length	512
Precision	bf16
Quantization	4-bit NF4 + double quant
Optimizer	AdamW
Warmup ratio	0.1
Weight decay	0.05

astom-M
/

lora-sft-v12

lora-sft-v12

Model Details

Training Hyperparameters

Usage