Duplicate from open-agent-leaderboard/smolagent

Browse files

Files changed (7) hide show

.eval_results/open_agent_leaderboard_openai_aws_claude-opus-4-5.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_deepseek-v3.2.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_gpt-5.2-2025-12-11.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_kimi-k2.5.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_gcp_gemini-3-pro-preview.yaml +56 -0
.gitattributes +35 -0
README.md +16 -0

.eval_results/open_agent_leaderboard_openai_aws_claude-opus-4-5.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.6633
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.7
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.61
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.65
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.72
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.78
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.58
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'

.eval_results/open_agent_leaderboard_openai_azure_deepseek-v3.2.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.4092
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.13
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.21
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.56
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.6
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.77
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.84
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'

.eval_results/open_agent_leaderboard_openai_azure_gpt-5.2-2025-12-11.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.3796
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.07
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.26
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.5253
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.6
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.68
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.71
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'

.eval_results/open_agent_leaderboard_openai_azure_kimi-k2.5.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.42
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.11
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.33
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.5761
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.56
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.7245
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.7071
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'

.eval_results/open_agent_leaderboard_openai_gcp_gemini-3-pro-preview.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.5569
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.13
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.57
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.7576
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.68
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.75
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.88
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,16 @@

+---
+tags:
+  - agent
+  - agent-evaluation
+  - agent-card
+---
+# Smolagent
+This is a tracking repo for [Smolagent](https://github.com/huggingface/smolagents), used by the [Open Agent Leaderboard](https://www.exgentic.ai) to report evaluation results on HuggingFace.
+Hugging Face's lightweight agent framework using code-based actions rather than JSON tool calls.
+- **Framework**: [smolagents](https://github.com/huggingface/smolagents)
+- **Leaderboard**: [Open Agent Leaderboard](https://www.exgentic.ai)
+- **Paper**: [arXiv:2602.22953](https://arxiv.org/abs/2602.22953)