YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

tmiyamoto/qwen3-4b-agentbench-exp03

このリポジトリは、Qwen/Qwen3-4B-Instruct-2507 をベースモデルとし、LoRA でファインチューニング後にマージした AgentBench タスク向けモデルを提供します。

学習の目的

このモデルは、AgentBench の以下のタスクの精度向上を目的としてトレーニングされています:

DBBench: データベース操作（SQL生成・実行）
ALFWorld: 家庭環境でのインタラクティブタスク

学習時、損失（Loss）は Output: マーカー以降のアシスタント出力にのみ適用されています。

学習設定

パラメータ	値
ベースモデル	`Qwen/Qwen3-4B-Instruct-2507`
手法	LoRA (bfloat16)
最大シーケンス長	2048
エポック数	2
学習率	2e-6
LoRA r	64
LoRA alpha	128
LoRA dropout	0
LoRA ターゲット	`q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj`
バッチサイズ	2 per device x 4 gradient accumulation = 8 effective
Warmup ratio	0.1
Weight decay	0.05
Label smoothing	0
NEFTune noise alpha	0
Max grad norm	1.0
Seed	3407

データセット

ALFWorld: tmiyamoto/agentbench-datasets-v2 (alfworld_v2 - v5_aligned.jsonl を結合・重複除去)
DBBench: tmiyamoto/agentbench-datasets-v2 (dbbench_sft_data_react v1 - v4.jsonl を結合・重複除去)

評価結果

DBBench (150問)

指標	スコア
overall_cat_accuracy	42.1%
UPDATE	85.0%
aggregation-AVG	57.1%
aggregation-SUM	50.0%
other	42.9%
SELECT	31.1%
ranking	30.0%
comparison	22.2%
counting	18.2%
aggregation-MIN	20.0%
aggregation-MAX	16.7%
INSERT	10.1%

ALFWorld (50問)

指標	スコア
success_rate	16.0% (8/50)
completed	16.0%
agent invalid action	58.0%
task limit reached	26.0%

使い方

このリポジトリはマージ済みフルモデルです。直接ロードできます。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "tmiyamoto/qwen3-4b-agentbench-exp03"

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype="auto", device_map="auto", trust_remote_code=True
)

vLLM での推論:

vllm serve tmiyamoto/qwen3-4b-agentbench-exp03 \
    --max-model-len 8192 \
    --gpu-memory-utilization 0.95

ライセンス・遵守事項

ベースモデル: Qwen/Qwen3-4B-Instruct-2507 の利用規約に従います
データセット: tmiyamoto/agentbench-datasets-v2

利用者は、データセットの帰属表記（クレジット）に関する要件、およびベースモデルの元の利用規約の両方を遵守する必要があります。

Downloads last month: 69

Safetensors

Model size

4B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support