exp010_s003_data512v4_lr1e6 (LoRA Adapter)

このモデルは、Qwen/Qwen3-4B-Instruct-2507 をベースに、構造化出力タスク向けに追加学習した LoRA アダプターです。

重要: この成果物には LoRA アダプター重みのみが含まれます。ベースモデル本体は別途ロードしてください。

学習の目的

JSON / YAML / TOML / XML / CSV の構造化出力精度を改善することを目的としています。

学習では、最終出力に対応するトークンのみを損失対象とし、中間推論（Chain-of-Thought）は mask_cot で学習対象外にしています。

学習設定

Base model: Qwen/Qwen3-4B-Instruct-2507
Dataset: u-10bei/structured_data_with_cot_dataset_512_v4
Fine-tuning method: PEFT LoRA（A100向け、load_in_4bit=False、bf16）
Max sequence length: 512
Epochs: 1
Learning rate: 1.0e-6
Batch size: 4
Gradient accumulation: 4
LoRA: r=64, alpha=128, dropout=0.0, use_rslora=true
Target modules: q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj
Special options: mask_cot=true, output_learn_mode=after_marker

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

base_model = "Qwen/Qwen3-4B-Instruct-2507"
adapter_id = "ichi234/exp010_s003_data512v4_lr1e6"

tokenizer = AutoTokenizer.from_pretrained(base_model)
model = AutoModelForCausalLM.from_pretrained(
    base_model,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
model = PeftModel.from_pretrained(model, adapter_id)

データソースとライセンス（重要）

Training data: u-10bei/structured_data_with_cot_dataset_512_v4
利用時は以下を必ず確認・遵守してください。
- 学習データセット側のライセンス条件（Hugging Face dataset page）
- ベースモデル側の利用規約・ライセンス
- 再配布時のクレジット表記要件

Downloads last month: -

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ichi234/exp010_s003_data512v4_lr1e6

Base model

Qwen/Qwen3-4B-Instruct-2507

Adapter

(5451)

this model