Spaces:

taagarwa
/

coding-agent-leaderboard

Running

App Files Files Community

taagarwa commited on 16 days ago

Commit

77a435c

1 Parent(s): 4b9a7ba

🎨 Clean up leaderboard

Browse files

Files changed (3) hide show

app.py +8 -20
src/display/text_blocks.py +0 -4
src/leaderboard.py +4 -4

app.py CHANGED Viewed

@@ -51,8 +51,6 @@ from src.leaderboard import get_leaderboard_df, get_benchmark_run_df
 from src.display.text_blocks import (
     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
-    CITATION_BUTTON_LABEL,
-    CITATION_BUTTON_TEXT,
 )
 REPO_ID = "taagarwa/coding-agent-leaderboard"
@@ -103,12 +101,12 @@ def init_leaderboard(dataframe):
         raise ValueError("Leaderboard DataFrame is empty or None.")
     label_choices = [("🟠 Fully FOSS", "🟠"), ("🔶 Proprietary", "🔶")]
-    meta_columns = [" ", "Harness", "Model ID", "Harness License", "Model License", "Model Num Params (B)", "Precision"]
     benchmark_columns = [col for col in dataframe.columns if col not in meta_columns]
-    model_choices = sorted({(extract_body(v), v) for v in dataframe["Model ID"]})
     harness_choices = sorted({(extract_body(v), v) for v in dataframe["Harness"]})
-    default_columns = [" ", "Harness", "Model ID"] + benchmark_columns
     return Leaderboard(
         value=dataframe,
         select_columns=SelectColumns(
@@ -116,10 +114,10 @@ def init_leaderboard(dataframe):
             label="Select Columns to Display:",
         ),
         datatype="markdown",
-        search_columns=["Harness", "Model ID"],
         filter_columns=[
             ColumnFilter(label="Category", column=" ", type="checkboxgroup", choices=label_choices),
-            ColumnFilter(label="Model", column="Model ID", type="checkboxgroup", choices=model_choices),
             ColumnFilter(label="Harness", column="Harness", type="checkboxgroup", choices=harness_choices),
             ColumnFilter(label="Number of Parameters (B)", column="Model Num Params (B)", type="slider"),
             ColumnFilter(label="Precision", column="Precision", type="checkboxgroup"),
@@ -140,10 +138,10 @@ def init_benchmark_runs(dataframe):
         select_columns=SelectColumns(
             default_selection=[
                 " ",
-                "Benchmark",
-                "Harness",
                 "Model",
-                "Model ID",
                 "Precision",
                 "Environment",
                 "Score",
@@ -181,16 +179,6 @@ with demo:
         with gr.Tab("📝 About"):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
-    with gr.Row():
-        with gr.Accordion("📙 Citation", open=False):
-            citation_button = gr.Textbox(
-                value=CITATION_BUTTON_TEXT,
-                label=CITATION_BUTTON_LABEL,
-                lines=20,
-                elem_id="citation-button",
-                show_copy_button=True,
-            )
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()

 from src.display.text_blocks import (
     INTRODUCTION_TEXT,
     LLM_BENCHMARKS_TEXT,
 )
 REPO_ID = "taagarwa/coding-agent-leaderboard"
         raise ValueError("Leaderboard DataFrame is empty or None.")
     label_choices = [("🟠 Fully FOSS", "🟠"), ("🔶 Proprietary", "🔶")]
+    meta_columns = [" ", "Harness", "Model", "Harness License", "Model License", "Model Num Params (B)", "Precision"]
     benchmark_columns = [col for col in dataframe.columns if col not in meta_columns]
+    model_choices = sorted({(extract_body(v), v) for v in dataframe["Model"]})
     harness_choices = sorted({(extract_body(v), v) for v in dataframe["Harness"]})
+    default_columns = [" ", "Harness", "Model"] + benchmark_columns
     return Leaderboard(
         value=dataframe,
         select_columns=SelectColumns(
             label="Select Columns to Display:",
         ),
         datatype="markdown",
+        search_columns=["Harness", "Model"],
         filter_columns=[
             ColumnFilter(label="Category", column=" ", type="checkboxgroup", choices=label_choices),
+            ColumnFilter(label="Model", column="Model", type="checkboxgroup", choices=model_choices),
             ColumnFilter(label="Harness", column="Harness", type="checkboxgroup", choices=harness_choices),
             ColumnFilter(label="Number of Parameters (B)", column="Model Num Params (B)", type="slider"),
             ColumnFilter(label="Precision", column="Precision", type="checkboxgroup"),
         select_columns=SelectColumns(
             default_selection=[
                 " ",
                 "Model",
+                "Harness",
+                "Benchmark",
+                "Base Model",
                 "Precision",
                 "Environment",
                 "Score",
         with gr.Tab("📝 About"):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()

src/display/text_blocks.py CHANGED Viewed

@@ -33,7 +33,3 @@ A coding agent is a system that autonomously solves software engineering tasks -
 Visit the [GitHub repo](https://github.com/redhat-et/coding_agent_bench) for details about the project, methodology, and how to submit your own results.
 """
-CITATION_BUTTON_TEXT = "TBD"
-CITATION_BUTTON_LABEL = "Citation"


33
34	Visit the [GitHub repo](https://github.com/redhat-et/coding_agent_bench) for details about the project, methodology, and how to submit your own results.
35	"""

src/leaderboard.py CHANGED Viewed

@@ -46,8 +46,8 @@ def get_leaderboard_df():
         avg_score = sum(benchmarks.values()) / len(benchmarks)
         row = {
             " ": "🟠" if model.is_oss and harness.is_oss else "🔶",
             "Harness": f'[{harness.name}]({harness.url})<sup>*</sup>' if result.harness.name == "internal" else f'[{harness.name}]({harness.url})',
-            "Model ID": f'[{model.repo}]({model.url})',
             "Precision": model.precision,
             "Model License": "FOSS" if model.is_oss else "Proprietary",
             "Harness License": "FOSS" if harness.is_oss else "Proprietary",
@@ -75,10 +75,10 @@ def get_benchmark_run_df():
         rows.append(
             {
                 " ": "🟠" if result.model.is_oss and result.harness.is_oss else "🔶",
-                "Benchmark": f'[{result.benchmark.name}]({result.benchmark.url})',
                 "Harness": f'[{result.harness.name}]({result.harness.url})<sup>*</sup>' if result.harness.name == "internal" else f'[{result.harness.name}]({result.harness.url})',
-                "Model": result.model.name,
-                "Model ID": f'[{result.model.repo}]({result.model.url})',
                 "Precision": result.model.precision,
                 "Skills": str(result.harness.skills) if result.harness.skills else "None",
                 "Environment": f'[{result.environment.name}]({result.environment.url})<sup>*</sup>' if result.environment.name == "internal" else f'[{result.environment.name}]({result.environment.url})',

         avg_score = sum(benchmarks.values()) / len(benchmarks)
         row = {
             " ": "🟠" if model.is_oss and harness.is_oss else "🔶",
+            "Model": f'[{model.repo}]({model.url})',
             "Harness": f'[{harness.name}]({harness.url})<sup>*</sup>' if result.harness.name == "internal" else f'[{harness.name}]({harness.url})',
             "Precision": model.precision,
             "Model License": "FOSS" if model.is_oss else "Proprietary",
             "Harness License": "FOSS" if harness.is_oss else "Proprietary",
         rows.append(
             {
                 " ": "🟠" if result.model.is_oss and result.harness.is_oss else "🔶",
+                "Model": f'[{result.model.repo}]({result.model.url})',
                 "Harness": f'[{result.harness.name}]({result.harness.url})<sup>*</sup>' if result.harness.name == "internal" else f'[{result.harness.name}]({result.harness.url})',
+                "Benchmark": f'[{result.benchmark.name}]({result.benchmark.url})',
+                "Base Model": result.model.name,
                 "Precision": result.model.precision,
                 "Skills": str(result.harness.skills) if result.harness.skills else "None",
                 "Environment": f'[{result.environment.name}]({result.environment.url})<sup>*</sup>' if result.environment.name == "internal" else f'[{result.environment.name}]({result.environment.url})',