Spaces:

OpenHands
/

openhands-index

Running

openhands commited on Jan 27

Commit

ab22529

1 Parent(s): cfd4f2a

Fix category names and benchmark assignments

- Use preferred category names: Issue Resolution, Frontend, Greenfield, Testing, Information Gathering
- Move swe-bench-multimodal to Frontend category (was incorrectly in Issue Resolution)
- Remove multi-swe-bench (not used)
- Update about page to reflect correct benchmark-category mapping

Files changed (3) hide show

about.py +2 -2
data/1.0.0-dev1/agenteval.json +9 -25
data/1.0.0-dev1/multi-swe-bench.jsonl +0 -5

about.py CHANGED Viewed

@@ -20,9 +20,9 @@ def build_page():
             <h2>Benchmarks</h2>
             <p>We evaluate agents across five categories:</p>
             <ul class="info-list">
-                <li><strong>Issue Resolution:</strong> <a href="https://www.swebench.com/" target="_blank">SWE-bench</a>, <a href="https://github.com/OpenHands/SWE-bench-multimodal" target="_blank">SWE-bench Multimodal</a></li>
                 <li><strong>Greenfield:</strong> <a href="https://github.com/commit-0/commit0" target="_blank">Commit0</a></li>
-                <li><strong>Frontend:</strong> <a href="https://github.com/pwnslinger/multi-swe-bench" target="_blank">Multi-SWE-bench</a></li>
                 <li><strong>Testing:</strong> <a href="https://github.com/logic-star-ai/swt-bench" target="_blank">SWT-bench</a></li>
                 <li><strong>Information Gathering:</strong> <a href="https://huggingface.co/gaia-benchmark" target="_blank">GAIA</a></li>
             </ul>

             <h2>Benchmarks</h2>
             <p>We evaluate agents across five categories:</p>
             <ul class="info-list">
+                <li><strong>Issue Resolution:</strong> <a href="https://www.swebench.com/" target="_blank">SWE-bench</a></li>
+                <li><strong>Frontend:</strong> <a href="https://github.com/OpenHands/SWE-bench-multimodal" target="_blank">SWE-bench Multimodal</a></li>
                 <li><strong>Greenfield:</strong> <a href="https://github.com/commit-0/commit0" target="_blank">Commit0</a></li>
                 <li><strong>Testing:</strong> <a href="https://github.com/logic-star-ai/swt-bench" target="_blank">SWT-bench</a></li>
                 <li><strong>Information Gathering:</strong> <a href="https://huggingface.co/gaia-benchmark" target="_blank">GAIA</a></li>
             </ul>

data/1.0.0-dev1/agenteval.json CHANGED Viewed

@@ -10,7 +10,7 @@
             "name": "swe-bench",
             "tags": [
               "Overall",
-              "Bug Fixing",
               "swe-bench"
             ]
           },
@@ -18,7 +18,7 @@
             "name": "swe-bench-multimodal",
             "tags": [
               "Overall",
-              "Bug Fixing",
               "swe-bench-multimodal"
             ]
           },
@@ -26,23 +26,15 @@
             "name": "commit0",
             "tags": [
               "Overall",
-              "App Creation",
               "commit0"
             ]
           },
-          {
-            "name": "multi-swe-bench",
-            "tags": [
-              "Overall",
-              "Frontend Development",
-              "multi-swe-bench"
-            ]
-          },
           {
             "name": "swt-bench",
             "tags": [
               "Overall",
-              "Test Generation",
               "swt-bench"
             ]
           },
@@ -63,7 +55,7 @@
             "name": "swe-bench",
             "tags": [
               "Overall",
-              "Bug Fixing",
               "swe-bench"
             ]
           },
@@ -71,7 +63,7 @@
             "name": "swe-bench-multimodal",
             "tags": [
               "Overall",
-              "Bug Fixing",
               "swe-bench-multimodal"
             ]
           },
@@ -79,23 +71,15 @@
             "name": "commit0",
             "tags": [
               "Overall",
-              "App Creation",
               "commit0"
             ]
           },
-          {
-            "name": "multi-swe-bench",
-            "tags": [
-              "Overall",
-              "Frontend Development",
-              "multi-swe-bench"
-            ]
-          },
           {
             "name": "swt-bench",
             "tags": [
               "Overall",
-              "Test Generation",
               "swt-bench"
             ]
           },
@@ -111,4 +95,4 @@
       }
     ]
   }
-}

             "name": "swe-bench",
             "tags": [
               "Overall",
+              "Issue Resolution",
               "swe-bench"
             ]
           },
             "name": "swe-bench-multimodal",
             "tags": [
               "Overall",
+              "Frontend",
               "swe-bench-multimodal"
             ]
           },
             "name": "commit0",
             "tags": [
               "Overall",
+              "Greenfield",
               "commit0"
             ]
           },
           {
             "name": "swt-bench",
             "tags": [
               "Overall",
+              "Testing",
               "swt-bench"
             ]
           },
             "name": "swe-bench",
             "tags": [
               "Overall",
+              "Issue Resolution",
               "swe-bench"
             ]
           },
             "name": "swe-bench-multimodal",
             "tags": [
               "Overall",
+              "Frontend",
               "swe-bench-multimodal"
             ]
           },
             "name": "commit0",
             "tags": [
               "Overall",
+              "Greenfield",
               "commit0"
             ]
           },
           {
             "name": "swt-bench",
             "tags": [
               "Overall",
+              "Testing",
               "swt-bench"
             ]
           },
       }
     ]
   }
+}

data/1.0.0-dev1/multi-swe-bench.jsonl DELETED Viewed

@@ -1,5 +0,0 @@
-{"agent_name": "OpenHands CodeAct v2.1", "llm_base": "claude-3-5-sonnet-20241022", "openness": "closed_api_available", "tool_usage": "standard", "score": 35.2, "metric": "resolve_rate", "submission_time": "2025-11-24T19:56:00.093026", "tags": ["multi-swe-bench"], "total_cost": 27.6, "total_runtime": 476.0}
-{"agent_name": "OpenHands CodeAct v2.0", "llm_base": "gpt-4o-2024-11-20", "openness": "closed_api_available", "tool_usage": "standard", "score": 32.8, "metric": "resolve_rate", "submission_time": "2025-11-24T19:56:00.093040", "tags": ["multi-swe-bench"], "total_cost": 26.4, "total_runtime": 464.0}
-{"agent_name": "AutoCodeRover", "llm_base": "gpt-4-turbo-2024-04-09", "openness": "closed_api_available", "tool_usage": "standard", "score": 28.4, "metric": "resolve_rate", "submission_time": "2025-11-24T19:56:00.093048", "tags": ["multi-swe-bench"], "total_cost": 24.2, "total_runtime": 442.0}
-{"agent_name": "Agentless", "llm_base": "gpt-4o-mini-2024-07-18", "openness": "closed_api_available", "tool_usage": "standard", "score": 24.1, "metric": "resolve_rate", "submission_time": "2025-11-24T19:56:00.093058", "tags": ["multi-swe-bench"], "total_cost": 22.05, "total_runtime": 420.5}
-{"agent_name": "SWE-Agent", "llm_base": "claude-3-opus-20240229", "openness": "closed_api_available", "tool_usage": "custom_interface", "score": 21.5, "metric": "resolve_rate", "submission_time": "2025-11-24T19:56:00.093067", "tags": ["multi-swe-bench"], "total_cost": 20.75, "total_runtime": 407.5}