Spaces:

OpenHands
/

openhands-index

Running

openhands openhands commited on Jan 17

Commit

b8aea20

1 Parent(s): 6a5c447

Remove Test Set/Validation Set tabs, keep single results view

Simplified the UI by removing the dual tab structure (Test Set / Validation Set)
and keeping only a single results display using the test set data.

Co-authored-by: openhands <openhands@all-hands.dev>

Files changed (2) hide show

category_page_builder.py +17 -67
main_page.py +10 -40

category_page_builder.py CHANGED Viewed

@@ -13,15 +13,11 @@ CATEGORY_DIAGRAM_MAP = {
 def build_category_page(CATEGORY_NAME, PAGE_DESCRIPTION):
     with gr.Column(elem_id="page-content-wrapper"):
-        validation_df, validation_tag_map = get_full_leaderboard_data("validation")
         test_df, test_tag_map = get_full_leaderboard_data("test")
         with gr.Row(elem_id="intro-row"):
             with gr.Column(scale=1):
                 gr.HTML(f'<h2>OpenHands Index {CATEGORY_NAME} Leaderboard <span style="font-weight: normal; color: inherit;">(Aggregate)</span></h2>', elem_id="main-header")
-                with gr.Column(elem_id="validation_nav_container", visible=False) as validation_nav_container:
-                    create_sub_navigation_bar(validation_tag_map, CATEGORY_NAME, validation=True)
                 with gr.Column(elem_id="test_nav_container", visible=True) as test_nav_container:
                     create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
@@ -41,67 +37,21 @@ def build_category_page(CATEGORY_NAME, PAGE_DESCRIPTION):
                         interactive=False,
                         elem_id="diagram-image"
                     )
-        # --- This page now has two main sections: Validation and Test ---
-        with gr.Tabs():
-            with gr.Tab("Results: Test Set") as test_tab:
-                # Repeat the process for the "test" split
-                if not test_df.empty:
-                    gr.Markdown("**Test Set** results are reserved for final assessment. This helps ensure that the agent generalizes well to unseen problems.")
-                    create_leaderboard_display(
-                        full_df=test_df,
-                        tag_map=test_tag_map,
-                        category_name=CATEGORY_NAME,
-                        split_name="test"
-                    )
-                    create_benchmark_details_display(
-                        full_df=test_df,
-                        tag_map=test_tag_map,
-                        category_name=CATEGORY_NAME,
-                        validation=False,
-                    )
-                else:
-                    gr.Markdown("No data available for test split.")
-            with gr.Tab("Results: Validation Set") as validation_tab:
-                # 1. Load all necessary data for the "validation" split ONCE.
-                if not validation_df.empty:
-                    gr.Markdown("**Validation Set** results are used during development to tune and compare agents before final testing.")
-                    # 2. Render the main category display using the loaded data.
-                    create_leaderboard_display(
-                        full_df=validation_df,
-                        tag_map=validation_tag_map,
-                        category_name=CATEGORY_NAME,
-                        split_name="validation"
-                    )
-                    # 3. Render the detailed breakdown for each benchmark in the category.
-                    create_benchmark_details_display(
-                        full_df=validation_df,
-                        tag_map=validation_tag_map,
-                        category_name=CATEGORY_NAME,
-                        validation=True,
-                    )
-                else:
-                    gr.Markdown("No data available for validation split.")
-        show_validation_js = """
-            () => {
-                document.getElementById('validation_nav_container').style.display = 'block';
-                document.getElementById('test_nav_container').style.display = 'none';
-                setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);
-            }
-            """
-        # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
-        show_test_js = """
-            () => {
-                document.getElementById('validation_nav_container').style.display = 'none';
-                document.getElementById('test_nav_container').style.display = 'block';
-            }
-            """
-        # Assign the pure JS functions to the select events. No Python `fn` is needed.
-        validation_tab.select(fn=None, inputs=None, outputs=None, js=show_validation_js)
-        test_tab.select(fn=None, inputs=None, outputs=None, js=show_test_js)
-    return validation_nav_container, test_nav_container

 def build_category_page(CATEGORY_NAME, PAGE_DESCRIPTION):
     with gr.Column(elem_id="page-content-wrapper"):
         test_df, test_tag_map = get_full_leaderboard_data("test")
         with gr.Row(elem_id="intro-row"):
             with gr.Column(scale=1):
                 gr.HTML(f'<h2>OpenHands Index {CATEGORY_NAME} Leaderboard <span style="font-weight: normal; color: inherit;">(Aggregate)</span></h2>', elem_id="main-header")
                 with gr.Column(elem_id="test_nav_container", visible=True) as test_nav_container:
                     create_sub_navigation_bar(test_tag_map, CATEGORY_NAME)
                         interactive=False,
                         elem_id="diagram-image"
                     )
+        if not test_df.empty:
+            create_leaderboard_display(
+                full_df=test_df,
+                tag_map=test_tag_map,
+                category_name=CATEGORY_NAME,
+                split_name="test"
+            )
+            create_benchmark_details_display(
+                full_df=test_df,
+                tag_map=test_tag_map,
+                category_name=CATEGORY_NAME,
+                validation=False,
+            )
+        else:
+            gr.Markdown("No data available.")
+    return test_nav_container

main_page.py CHANGED Viewed

@@ -36,46 +36,16 @@ def build_page():
     CATEGORY_NAME = "Overall"
     gr.HTML(f'<h2>OpenHands Index {CATEGORY_NAME} Leaderboard <span style="font-weight: normal; color: inherit;">(Aggregate)</span></h2>', elem_id="main-header")
-    with gr.Tabs() as tabs:
-        with gr.Tab("Results: Test Set") as test_tab:
-            test_df, test_tag_map = get_full_leaderboard_data("test")
-            if not test_df.empty:
-                gr.Markdown("**Test Set** results are reserved for final assessment. This helps ensure that the agent generalizes well to unseen problems.")
-                create_leaderboard_display(
-                    full_df=test_df,
-                    tag_map=test_tag_map,
-                    category_name=CATEGORY_NAME, # Use our constant
-                    split_name="test"
-                )
-            else:
-                gr.Markdown("No data available for test split.")
-        with gr.Tab("Results: Validation Set") as validation_tab:
-            # 1. Load all necessary data for the "validation" split ONCE.
-            validation_df, validation_tag_map = get_full_leaderboard_data("validation")
-            # Check if data was loaded successfully before trying to display it
-            if not validation_df.empty:
-                gr.Markdown("**Validation Set** results are used during development to tune and compare agents before final testing.")
-                # 2. Render the display by calling the factory with the loaded data.
-                create_leaderboard_display(
-                    full_df=validation_df,
-                    tag_map=validation_tag_map,
-                    category_name=CATEGORY_NAME, # Use our constant
-                    split_name="validation"
-                )
-            else:
-                gr.Markdown("No data available for validation split.")
-    # hiding this for now till we have the real paper data
-    # with gr.Accordion("📙 Citation", open=False):
-    #     gr.Textbox(value=CITATION_BUTTON_TEXT, label=CITATION_BUTTON_LABEL, elem_id="citation-button-main", interactive=False)
-    # JavaScript to show the TEST nav, hide the VALIDATION nav, AND fix the plots.
-    show_validation_js = """
-        () => {setTimeout(() => { window.dispatchEvent(new Event('resize')) }, 0);}
-        """
-    # Assign the pure JS functions to the select events. No Python `fn` is needed.
-    validation_tab.select(fn=None, inputs=None, outputs=None, js=show_validation_js)
 if __name__ == "__main__":
     demo.launch()

     CATEGORY_NAME = "Overall"
     gr.HTML(f'<h2>OpenHands Index {CATEGORY_NAME} Leaderboard <span style="font-weight: normal; color: inherit;">(Aggregate)</span></h2>', elem_id="main-header")
+    test_df, test_tag_map = get_full_leaderboard_data("test")
+    if not test_df.empty:
+        create_leaderboard_display(
+            full_df=test_df,
+            tag_map=test_tag_map,
+            category_name=CATEGORY_NAME,
+            split_name="test"
+        )
+    else:
+        gr.Markdown("No data available.")
 if __name__ == "__main__":
     demo.launch()