exp010_s003_data512v4_lr1e6 (LoRA Adapter)

このモデルは、Qwen/Qwen3-4B-Instruct-2507 をベースに、構造化出力タスク向けに追加学習した LoRA アダプターです。

重要: この成果物には LoRA アダプター重みのみが含まれます。ベースモデル本体は別途ロードしてください。

学習の目的

JSON / YAML / TOML / XML / CSV の構造化出力精度を改善することを目的としています。

学習では、最終出力に対応するトークンのみを損失対象とし、中間推論(Chain-of-Thought)は mask_cot で学習対象外にしています。

学習設定

  • Base model: Qwen/Qwen3-4B-Instruct-2507
  • Dataset: u-10bei/structured_data_with_cot_dataset_512_v4
  • Fine-tuning method: PEFT LoRA(A100向け、load_in_4bit=Falsebf16
  • Max sequence length: 512
  • Epochs: 1
  • Learning rate: 1.0e-6
  • Batch size: 4
  • Gradient accumulation: 4
  • LoRA: r=64, alpha=128, dropout=0.0, use_rslora=true
  • Target modules: q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj
  • Special options: mask_cot=true, output_learn_mode=after_marker

使い方

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch

base_model = "Qwen/Qwen3-4B-Instruct-2507"
adapter_id = "ichi234/exp010_s003_data512v4_lr1e6"

tokenizer = AutoTokenizer.from_pretrained(base_model)
model = AutoModelForCausalLM.from_pretrained(
    base_model,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
model = PeftModel.from_pretrained(model, adapter_id)

データソースとライセンス(重要)

  • Training data: u-10bei/structured_data_with_cot_dataset_512_v4
  • 利用時は以下を必ず確認・遵守してください。
    • 学習データセット側のライセンス条件(Hugging Face dataset page)
    • ベースモデル側の利用規約・ライセンス
    • 再配布時のクレジット表記要件
Downloads last month
7
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ichi234/exp010_s003_data512v4_lr1e6

Adapter
(5269)
this model