Duplicate from open-agent-leaderboard/react-shortlisting

Browse files

Files changed (7) hide show

.eval_results/open_agent_leaderboard_openai_aws_claude-opus-4-5.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_deepseek-v3.2.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_gpt-5.2-2025-12-11.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_azure_kimi-k2.5.yaml +56 -0
.eval_results/open_agent_leaderboard_openai_gcp_gemini-3-pro-preview.yaml +56 -0
.gitattributes +35 -0
README.md +16 -0

.eval_results/open_agent_leaderboard_openai_aws_claude-opus-4-5.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.6173
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.64
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.49
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.6061
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.66
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.78
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.76
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Claude Opus 4.5'

.eval_results/open_agent_leaderboard_openai_azure_deepseek-v3.2.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.446
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.04
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.36
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.6875
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.56
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.82
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.71
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: DeepSeek V3.2'

.eval_results/open_agent_leaderboard_openai_azure_gpt-5.2-2025-12-11.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.4625
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.22
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.46
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.57
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.54
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.73
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.53
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: GPT-5.2'

.eval_results/open_agent_leaderboard_openai_azure_kimi-k2.5.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.4276
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.1
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.34
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.5714
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.62
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.6465
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.83
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Kimi K2.5'

.eval_results/open_agent_leaderboard_openai_gcp_gemini-3-pro-preview.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: overall
+  value: 0.6225
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: appworld
+  value: 0.55
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: browsecomp_plus
+  value: 0.48
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: swebench
+  value: 0.71
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_airline
+  value: 0.7
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_retail
+  value: 0.82
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'
+- dataset:
+    id: open-agent-leaderboard/results
+    task_id: taubench_telecom
+  value: 0.73
+  source:
+    url: https://www.exgentic.ai
+    name: Open Agent Leaderboard
+  notes: 'model: Gemini 3 Pro'

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,16 @@

+---
+tags:
+  - agent
+  - agent-evaluation
+  - agent-card
+---
+# React + Shortlisting
+This is a tracking repo for [React + Shortlisting](https://github.com/Exgentic/exgentic), used by the [Open Agent Leaderboard](https://www.exgentic.ai) to report evaluation results on HuggingFace.
+ReAct agent with tool shortlisting — dynamically filters available tools per step to reduce context and improve accuracy.
+- **Framework**: [litellm + exgentic](https://github.com/Exgentic/exgentic)
+- **Leaderboard**: [Open Agent Leaderboard](https://www.exgentic.ai)
+- **Paper**: [arXiv:2602.22953](https://arxiv.org/abs/2602.22953)