YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

tmiyamoto/qwen3-4b-agentbench-exp03

このリポジトリは、Qwen/Qwen3-4B-Instruct-2507 をベースモデルとし、LoRA でファインチューニング後にマージした AgentBench タスク向けモデルを提供します。

学習の目的

このモデルは、AgentBench の以下のタスクの精度向上を目的としてトレーニングされています:

  • DBBench: データベース操作(SQL生成・実行)
  • ALFWorld: 家庭環境でのインタラクティブタスク

学習時、損失(Loss)は Output: マーカー以降のアシスタント出力にのみ適用されています。

学習設定

パラメータ
ベースモデル Qwen/Qwen3-4B-Instruct-2507
手法 LoRA (bfloat16)
最大シーケンス長 2048
エポック数 2
学習率 2e-6
LoRA r 64
LoRA alpha 128
LoRA dropout 0
LoRA ターゲット q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
バッチサイズ 2 per device x 4 gradient accumulation = 8 effective
Warmup ratio 0.1
Weight decay 0.05
Label smoothing 0
NEFTune noise alpha 0
Max grad norm 1.0
Seed 3407

データセット

評価結果

DBBench (150問)

指標 スコア
overall_cat_accuracy 42.1%
UPDATE 85.0%
aggregation-AVG 57.1%
aggregation-SUM 50.0%
other 42.9%
SELECT 31.1%
ranking 30.0%
comparison 22.2%
counting 18.2%
aggregation-MIN 20.0%
aggregation-MAX 16.7%
INSERT 10.1%

ALFWorld (50問)

指標 スコア
success_rate 16.0% (8/50)
completed 16.0%
agent invalid action 58.0%
task limit reached 26.0%

使い方

このリポジトリはマージ済みフルモデルです。直接ロードできます。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tmiyamoto/qwen3-4b-agentbench-exp03"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype="auto", device_map="auto", trust_remote_code=True
)

vLLM での推論:

vllm serve tmiyamoto/qwen3-4b-agentbench-exp03 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.95

ライセンス・遵守事項

利用者は、データセットの帰属表記(クレジット)に関する要件、およびベースモデルの元の利用規約の両方を遵守する必要があります。

Downloads last month
69
Safetensors
Model size
4B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support