exp010_s003_data512v4_lr1e6 (LoRA Adapter)
このモデルは、Qwen/Qwen3-4B-Instruct-2507 をベースに、構造化出力タスク向けに追加学習した LoRA アダプターです。
重要: この成果物には LoRA アダプター重みのみが含まれます。ベースモデル本体は別途ロードしてください。
学習の目的
JSON / YAML / TOML / XML / CSV の構造化出力精度を改善することを目的としています。
学習では、最終出力に対応するトークンのみを損失対象とし、中間推論(Chain-of-Thought)は mask_cot で学習対象外にしています。
学習設定
- Base model:
Qwen/Qwen3-4B-Instruct-2507 - Dataset:
u-10bei/structured_data_with_cot_dataset_512_v4 - Fine-tuning method: PEFT LoRA(A100向け、
load_in_4bit=False、bf16) - Max sequence length:
512 - Epochs:
1 - Learning rate:
1.0e-6 - Batch size:
4 - Gradient accumulation:
4 - LoRA:
r=64,alpha=128,dropout=0.0,use_rslora=true - Target modules:
q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj - Special options:
mask_cot=true,output_learn_mode=after_marker
使い方
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
import torch
base_model = "Qwen/Qwen3-4B-Instruct-2507"
adapter_id = "ichi234/exp010_s003_data512v4_lr1e6"
tokenizer = AutoTokenizer.from_pretrained(base_model)
model = AutoModelForCausalLM.from_pretrained(
base_model,
torch_dtype=torch.bfloat16,
device_map="auto",
)
model = PeftModel.from_pretrained(model, adapter_id)
データソースとライセンス(重要)
- Training data:
u-10bei/structured_data_with_cot_dataset_512_v4 - 利用時は以下を必ず確認・遵守してください。
- 学習データセット側のライセンス条件(Hugging Face dataset page)
- ベースモデル側の利用規約・ライセンス
- 再配布時のクレジット表記要件
- Downloads last month
- 7
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for ichi234/exp010_s003_data512v4_lr1e6
Base model
Qwen/Qwen3-4B-Instruct-2507