Spaces:

taagarwa
/

coding-agent-leaderboard

Running

taagarwa commited on 25 days ago

Commit

b2a378e

1 Parent(s): 11eb494

✨ Add Qwen3.6 35b baseline

Files changed (5) hide show

app.py CHANGED Viewed

@@ -39,6 +39,7 @@ def init_leaderboard(dataframe):
         filter_columns=[
             ColumnFilter(label="Dataset", column="dataset", type="checkboxgroup"),
             ColumnFilter(label="Number of Parameters (B)", column="model_num_params", type="slider", min=0.5, max=150),
         ],
         interactive=False,
     )
@@ -50,8 +51,9 @@ with demo:
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

         filter_columns=[
             ColumnFilter(label="Dataset", column="dataset", type="checkboxgroup"),
             ColumnFilter(label="Number of Parameters (B)", column="model_num_params", type="slider", min=0.5, max=150),
+            ColumnFilter(label="Precision", column="precision", type="checkboxgroup"),
         ],
         interactive=False,
     )
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
+        with gr.TabItem("🏅 Coding Agent Benchmark", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
+            gr.Markdown("\* `internal` refers to internal benchmarks performed by the model provider where the harness/environment were not made public")
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

results/qwen3-6-35b-internal.json ADDED Viewed

+{
+    "dataset": {
+        "name": "swe-bench-verified",
+        "repo": "SWE-bench/SWE-bench_Verified",
+        "num_tasks": 500
+    },
+    "harness": {
+        "name": "internal",
+        "skills": []
+    },
+    "model": {
+        "name": "Qwen3.6-35B-A3B",
+        "repo": "Qwen/Qwen3.6-35B-A3B",
+        "is_oss": true,
+        "num_params": 35,
+        "precision": "bf16"
+    },
+    "environment": {
+        "name": "internal"
+    },
+    "metrics": {
+        "score": 0.734,
+        "time": null,
+        "costUSD": null
+    }
+}

results/qwen3-6-35b-nvfp4-claude-code.json CHANGED Viewed

@@ -9,7 +9,7 @@
         "skills": []
     },
     "model": {
-        "name": "Qwen3.6-35B-A3B-NVFP4",
         "repo": "RedHatAI/Qwen3.6-35B-A3B-NVFP4",
         "is_oss": true,
         "num_params": 35,

         "skills": []
     },
     "model": {
+        "name": "Qwen3.6-35B-A3B",
         "repo": "RedHatAI/Qwen3.6-35B-A3B-NVFP4",
         "is_oss": true,
         "num_params": 35,

src/leaderboard.py CHANGED Viewed

@@ -9,11 +9,11 @@ RESULTS_DIR = Path(__file__).parent.parent / "results"
 DISPLAY_BY_DEFAULT = [
     "dataset",
     "model",
     "harness",
     "skills",
     "environment",
     "score",
-    "costUSD",
 ]
 SEARCH_COLUMNS = [
@@ -24,6 +24,8 @@ SEARCH_COLUMNS = [
 def format_time(seconds: int):
     m, s = divmod(seconds, 60)
     h, m = divmod(m, 60)
     return f"{h}h{m}m{s}s"
@@ -43,6 +45,8 @@ def get_leaderboard_df():
             {
                 "dataset": result.dataset.name,
                 "model": result.model.name,
                 "harness": result.harness.name,
                 "skills": str(result.harness.skills) if result.harness.skills else "None",
                 "environment": result.environment.name,

 DISPLAY_BY_DEFAULT = [
     "dataset",
     "model",
+    "precision",
     "harness",
     "skills",
     "environment",
     "score",
 ]
 SEARCH_COLUMNS = [
 def format_time(seconds: int):
+    if seconds is None:
+        return None
     m, s = divmod(seconds, 60)
     h, m = divmod(m, 60)
     return f"{h}h{m}m{s}s"
             {
                 "dataset": result.dataset.name,
                 "model": result.model.name,
+                "model_id": result.model.repo,
+                "precision": result.model.precision,
                 "harness": result.harness.name,
                 "skills": str(result.harness.skills) if result.harness.skills else "None",
                 "environment": result.environment.name,

src/models.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from typing import Any
 from pydantic import BaseModel
@@ -24,13 +24,13 @@ class Model(BaseModel):
 class Environment(BaseModel):
     name: str
-    config: dict[str, Any]
 class Metrics(BaseModel):
     score: float
-    time: int
-    costUSD: float
 class Result(BaseModel):

+from typing import Any, Optional
 from pydantic import BaseModel
 class Environment(BaseModel):
     name: str
+    config: Optional[dict[str, Any]] = None
 class Metrics(BaseModel):
     score: float
+    time: Optional[int] = None
+    costUSD: Optional[float] = None
 class Result(BaseModel):