Spaces:

allenai
/

asta-bench-leaderboard

Running

App Files Files Community

Amber Tanaka commited on Jul 21

Commit

dcfd58f

unverified ·

1 Parent(s): ac9171f

Switch default tab from validation to test (#12)

Browse files

Files changed (7) hide show

c_and_e.py +22 -23
data_analysis.py +21 -21
e2e.py +21 -20
leaderboard_transformer.py +2 -2
literature_understanding.py +22 -22
main_page.py +14 -16
ui_components.py +10 -2

c_and_e.py CHANGED Viewed

@@ -12,15 +12,33 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(CODE_EXECUTION_DESCRIPTION, elem_id="category-intro")
-    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
-    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
-        with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -42,29 +60,11 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test") as test_tab:
-            # Repeat the process for the "test" split
-            test_df, test_tag_map = get_full_leaderboard_data("test")
-            if not test_df.empty:
-                create_leaderboard_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME,
-                    split_name="test"
-                )
-                create_benchmark_details_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME
-                )
-            else:
-                gr.Markdown("No data available for test split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
     }
     """
@@ -73,7 +73,6 @@ with gr.Blocks() as demo:
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
-        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(CODE_EXECUTION_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=False) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=True) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Test Set") as test_tab:
+            # Repeat the process for the "test" split
+            test_df, test_tag_map = get_full_leaderboard_data("test")
+            if not test_df.empty:
+                create_leaderboard_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME,
+                    split_name="test"
+                )
+                create_benchmark_details_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME
+                )
+            else:
+                gr.Markdown("No data available for test split.")
+        with gr.Tab("Results: Validation Set") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
     }
     """

data_analysis.py CHANGED Viewed

@@ -12,12 +12,30 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(DATA_ANALYSIS_DESCRIPTION, elem_id="category-intro")
-    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
-    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
         with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -40,29 +58,12 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test") as test_tab:
-            # Repeat the process for the "test" split
-            test_df, test_tag_map = get_full_leaderboard_data("test")
-            if not test_df.empty:
-                create_leaderboard_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME,
-                    split_name="test"
-                )
-                create_benchmark_details_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME
-                )
-            else:
-                gr.Markdown("No data available for test split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
     }
     """
@@ -71,7 +72,6 @@ with gr.Blocks() as demo:
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
-        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(DATA_ANALYSIS_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=False) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=True) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Test") as test_tab:
+            # Repeat the process for the "test" split
+            test_df, test_tag_map = get_full_leaderboard_data("test")
+            if not test_df.empty:
+                create_leaderboard_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME,
+                    split_name="test"
+                )
+                create_benchmark_details_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME
+                )
+            else:
+                gr.Markdown("No data available for test split.")
         with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
     }
     """

e2e.py CHANGED Viewed

@@ -12,12 +12,30 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(DISCOVERY_DESCRIPTION, elem_id="category-intro")
-    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
-    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
         with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -40,28 +58,12 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test") as test_tab:
-            # Repeat the process for the "test" split
-            test_df, test_tag_map = get_full_leaderboard_data("test")
-            if not test_df.empty:
-                create_leaderboard_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME,
-                    split_name="test"
-                )
-                create_benchmark_details_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME
-                )
-            else:
-                gr.Markdown("No data available for test split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
     }
     """
@@ -70,7 +72,6 @@ with gr.Blocks() as demo:
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
-        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(DISCOVERY_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=False) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=True) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Test") as test_tab:
+            # Repeat the process for the "test" split
+            test_df, test_tag_map = get_full_leaderboard_data("test")
+            if not test_df.empty:
+                create_leaderboard_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME,
+                    split_name="test"
+                )
+                create_benchmark_details_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME
+                )
+            else:
+                gr.Markdown("No data available for test split.")
         with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
     }
     """

leaderboard_transformer.py CHANGED Viewed

@@ -414,7 +414,7 @@ def _plot_scatter_plotly(
             text=group['hover_text'],
             hoverinfo='text',
             marker=dict(
-                color=color_map.get(category, 'grey'),
                 symbol=group['shape_symbol'],
                 size=10,
                 opacity=0.8,
@@ -445,7 +445,7 @@ def _plot_scatter_plotly(
             name=shape_name,
             legendgroup="tooling_group",
             legendgrouptitle_text="Agent Tooling" if i == 0 else None,
-            marker=dict(color='grey', symbol=shape_symbol, size=12)
         ))
     # --- Section 8: Configure Layout (Restored from your original code) ---

             text=group['hover_text'],
             hoverinfo='text',
             marker=dict(
+                color=color_map.get(category, 'black'),
                 symbol=group['shape_symbol'],
                 size=10,
                 opacity=0.8,
             name=shape_name,
             legendgroup="tooling_group",
             legendgrouptitle_text="Agent Tooling" if i == 0 else None,
+            marker=dict(color='black', symbol=shape_symbol, size=12)
         ))
     # --- Section 8: Configure Layout (Restored from your original code) ---

literature_understanding.py CHANGED Viewed

@@ -13,15 +13,33 @@ with gr.Blocks() as demo:
     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(LIT_DESCRIPTION, elem_id="category-intro")
-    with gr.Column(elem_id="validation_nav_container", visible=True) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
-    with gr.Column(elem_id="test_nav_container", visible=False) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
-        with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
@@ -43,29 +61,12 @@ with gr.Blocks() as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test") as test_tab:
-            # Repeat the process for the "test" split
-            test_df, test_tag_map = get_full_leaderboard_data("test")
-            if not test_df.empty:
-                create_leaderboard_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME,
-                    split_name="test"
-                )
-                create_benchmark_details_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME
-                )
-            else:
-                gr.Markdown("No data available for test split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
     }
     """
@@ -74,7 +75,6 @@ with gr.Blocks() as demo:
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
-        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """

     validation_df, validation_tag_map = get_full_leaderboard_data("validation")
     test_df, test_tag_map = get_full_leaderboard_data("test")
     gr.Markdown(LIT_DESCRIPTION, elem_id="category-intro")
+    with gr.Column(elem_id="validation_nav_container", visible=False) as validation_nav_container:
         create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME)
+    with gr.Column(elem_id="test_nav_container", visible=True) as test_nav_container:
         create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
     # --- This page now has two main sections: Validation and Test ---
     with gr.Tabs():
+        with gr.Tab("Results: Test Set") as test_tab:
+            # Repeat the process for the "test" split
+            test_df, test_tag_map = get_full_leaderboard_data("test")
+            if not test_df.empty:
+                create_leaderboard_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME,
+                    split_name="test"
+                )
+                create_benchmark_details_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME
+                )
+            else:
+                gr.Markdown("No data available for test split.")
+        with gr.Tab("Results: Validation Set") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             else:
                 gr.Markdown("No data available for validation split.")
     show_validation_js = """
     () => {
         document.getElementById('validation_nav_container').style.display = 'block';
         document.getElementById('test_nav_container').style.display = 'none';
+        setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
     }
     """
     () => {
         document.getElementById('validation_nav_container').style.display = 'none';
         document.getElementById('test_nav_container').style.display = 'block';
     }
     """

main_page.py CHANGED Viewed

@@ -23,10 +23,20 @@ with gr.Blocks(fill_width=True) as demo:
     gr.Markdown(f"## Astabench {CATEGORY_NAME} Leaderboard")
     with gr.Tabs() as tabs:
-        with gr.Tab("Results: Validation") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             # Check if data was loaded successfully before trying to display it
             if not validation_df.empty:
                 # 2. Render the display by calling the factory with the loaded data.
@@ -39,28 +49,16 @@ with gr.Blocks(fill_width=True) as demo:
             else:
                 gr.Markdown("No data available for validation split.")
-        with gr.Tab("Results: Test") as test_tab:
-            test_df, test_tag_map = get_full_leaderboard_data("test")
-            if not test_df.empty:
-                create_leaderboard_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME, # Use our constant
-                    split_name="test"
-                )
-            else:
-                gr.Markdown("No data available for test split.")
     with gr.Accordion("📙 Citation", open=False):
         gr.Textbox(value=CITATION_BUTTON_TEXT, label=CITATION_BUTTON_LABEL, elem_id="citation-button-main", interactive=False)
     # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
-    show_test_js = """
         () => {setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);}
         """
     # Assign the pure JS functions to the select events. No Python `fn` is needed.
-    test_tab.select(fn=None, inputs=None, outputs=None, js=show_test_js)
 if __name__ == "__main__":
     demo.launch()

     gr.Markdown(f"## Astabench {CATEGORY_NAME} Leaderboard")
     with gr.Tabs() as tabs:
+        with gr.Tab("Results: Test Set") as test_tab:
+            test_df, test_tag_map = get_full_leaderboard_data("test")
+            if not test_df.empty:
+                create_leaderboard_display(
+                    full_df=test_df,
+                    tag_map=test_tag_map,
+                    category_name=CATEGORY_NAME, # Use our constant
+                    split_name="test"
+                )
+            else:
+                gr.Markdown("No data available for test split.")
+        with gr.Tab("Results: Validation Set") as validation_tab:
             # 1. Load all necessary data for the "validation" split ONCE.
             validation_df, validation_tag_map = get_full_leaderboard_data("validation")
             # Check if data was loaded successfully before trying to display it
             if not validation_df.empty:
                 # 2. Render the display by calling the factory with the loaded data.
             else:
                 gr.Markdown("No data available for validation split.")
     with gr.Accordion("📙 Citation", open=False):
         gr.Textbox(value=CITATION_BUTTON_TEXT, label=CITATION_BUTTON_LABEL, elem_id="citation-button-main", interactive=False)
     # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
+    show_validation_js = """
         () => {setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);}
         """
     # Assign the pure JS functions to the select events. No Python `fn` is needed.
+    validation_tab.select(fn=None, inputs=None, outputs=None, js=show_validation_js)
 if __name__ == "__main__":
     demo.launch()

ui_components.py CHANGED Viewed

@@ -336,7 +336,7 @@ def create_leaderboard_display(
             datatype=df_datatypes,
             interactive=False,
             wrap=True,
-            column_widths=[30, 30, 30, 250],
             elem_classes=["wrap-header-df"]
         )
@@ -527,7 +527,14 @@ def create_benchmark_details_display(
                     df_datatypes.append("html")
                 else:
                     df_datatypes.append("str")
             # Create the scatter plot using the full data for context, but plotting benchmark metrics
             # This shows all agents on the same axis for better comparison.
             benchmark_plot = _plot_scatter_plotly(
@@ -547,6 +554,7 @@ def create_benchmark_details_display(
                     datatype=df_datatypes,
                     interactive=False,
                     wrap=True,
                     elem_classes=["wrap-header-df"]
                 )

             datatype=df_datatypes,
             interactive=False,
             wrap=True,
+            column_widths=[30, 30, 30, 200],
             elem_classes=["wrap-header-df"]
         )
                     df_datatypes.append("html")
                 else:
                     df_datatypes.append("str")
+            # Remove Pareto, Openness, and Agent Tooling from the headers
+            header_rename_map = {
+                "Pareto": "",
+                "Openness": "",
+                "Agent Tooling": ""
+            }
+            # 2. Create the final list of headers for display.
+            benchmark_table_df = benchmark_table_df.rename(columns=header_rename_map)
             # Create the scatter plot using the full data for context, but plotting benchmark metrics
             # This shows all agents on the same axis for better comparison.
             benchmark_plot = _plot_scatter_plotly(
                     datatype=df_datatypes,
                     interactive=False,
                     wrap=True,
+                    column_widths=[40, 40, 40, 350],
                     elem_classes=["wrap-header-df"]
                 )