YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)
tmiyamoto/qwen3-4b-agentbench-exp03
このリポジトリは、Qwen/Qwen3-4B-Instruct-2507 をベースモデルとし、LoRA でファインチューニング後にマージした AgentBench タスク向けモデルを提供します。
学習の目的
このモデルは、AgentBench の以下のタスクの精度向上を目的としてトレーニングされています:
- DBBench: データベース操作(SQL生成・実行)
- ALFWorld: 家庭環境でのインタラクティブタスク
学習時、損失(Loss)は Output: マーカー以降のアシスタント出力にのみ適用されています。
学習設定
| パラメータ | 値 |
|---|---|
| ベースモデル | Qwen/Qwen3-4B-Instruct-2507 |
| 手法 | LoRA (bfloat16) |
| 最大シーケンス長 | 2048 |
| エポック数 | 2 |
| 学習率 | 2e-6 |
| LoRA r | 64 |
| LoRA alpha | 128 |
| LoRA dropout | 0 |
| LoRA ターゲット | q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj |
| バッチサイズ | 2 per device x 4 gradient accumulation = 8 effective |
| Warmup ratio | 0.1 |
| Weight decay | 0.05 |
| Label smoothing | 0 |
| NEFTune noise alpha | 0 |
| Max grad norm | 1.0 |
| Seed | 3407 |
データセット
- ALFWorld: tmiyamoto/agentbench-datasets-v2 (alfworld_v2 - v5_aligned.jsonl を結合・重複除去)
- DBBench: tmiyamoto/agentbench-datasets-v2 (dbbench_sft_data_react v1 - v4.jsonl を結合・重複除去)
評価結果
DBBench (150問)
| 指標 | スコア |
|---|---|
| overall_cat_accuracy | 42.1% |
| UPDATE | 85.0% |
| aggregation-AVG | 57.1% |
| aggregation-SUM | 50.0% |
| other | 42.9% |
| SELECT | 31.1% |
| ranking | 30.0% |
| comparison | 22.2% |
| counting | 18.2% |
| aggregation-MIN | 20.0% |
| aggregation-MAX | 16.7% |
| INSERT | 10.1% |
ALFWorld (50問)
| 指標 | スコア |
|---|---|
| success_rate | 16.0% (8/50) |
| completed | 16.0% |
| agent invalid action | 58.0% |
| task limit reached | 26.0% |
使い方
このリポジトリはマージ済みフルモデルです。直接ロードできます。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "tmiyamoto/qwen3-4b-agentbench-exp03"
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
model_id, torch_dtype="auto", device_map="auto", trust_remote_code=True
)
vLLM での推論:
vllm serve tmiyamoto/qwen3-4b-agentbench-exp03 \
--max-model-len 8192 \
--gpu-memory-utilization 0.95
ライセンス・遵守事項
- ベースモデル: Qwen/Qwen3-4B-Instruct-2507 の利用規約に従います
- データセット: tmiyamoto/agentbench-datasets-v2
利用者は、データセットの帰属表記(クレジット)に関する要件、およびベースモデルの元の利用規約の両方を遵守する必要があります。
- Downloads last month
- 69
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support