Add Open Agent Leaderboard evaluation results

Results from the Open Agent Leaderboard (https://www.exgentic.ai), evaluating this agent across 6 benchmarks with 5 different models.

Files changed (5) hide show

.eval_results/open_agent_leaderboard_openai_aws_claude-opus-4-5.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_deepseek-v3.2.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_gpt-5.2-2025-12-11.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_kimi-k2.5.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_gcp_gemini-3-pro-preview.yaml +56 -0

.eval_results/open_agent_leaderboard_openai_aws_claude-opus-4-5.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.6173
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.64
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.49
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.6061
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.66
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.78
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.76
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'

.eval_results/open_agent_leaderboard_openai_azure_deepseek-v3.2.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.446
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.04
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.36
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.6875
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.56
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.82
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.71
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'

.eval_results/open_agent_leaderboard_openai_azure_gpt-5.2-2025-12-11.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.4625
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.22
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.46
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.57
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.54
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.73
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.53
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'

.eval_results/open_agent_leaderboard_openai_azure_kimi-k2.5.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.4276
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.1
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.34
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.5714
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.62
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.6465
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.83
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'

.eval_results/open_agent_leaderboard_openai_gcp_gemini-3-pro-preview.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.6225
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.55
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.48
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.71
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.7
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.82
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.73
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'