Spaces:

Upgini
/

mle-bench-tabular

Running

App Files Files Community

Update table view

by Sunmarinup - opened Nov 25, 2025

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

+21

-41

Files changed (3) hide show

app.py +3 -1
src/leaderboard/columns.py +2 -2
tests/test_leaderboard.py +16 -38

app.py CHANGED Viewed

@@ -43,6 +43,9 @@ def refresh_leaderboard():
 def apply_styling(df: pd.DataFrame):
     """Apply styling to the leaderboard table."""
     display_df = df[DisplayColumns.values()]
     style = (
@@ -78,7 +81,6 @@ def create_app():
         gr.HTML(TITLE)
         gr.Markdown(INTRODUCTION_TEXT)
-        # style = apply_styling(load_leaderboard())
         leaderboard_table = gr.DataFrame(
             value=pd.DataFrame(columns=DisplayColumns.values()),
             wrap=True,

 def apply_styling(df: pd.DataFrame):
     """Apply styling to the leaderboard table."""
+    if df.empty:
+        return pd.DataFrame(columns=DisplayColumns.values())
     display_df = df[DisplayColumns.values()]
     style = (
         gr.HTML(TITLE)
         gr.Markdown(INTRODUCTION_TEXT)
         leaderboard_table = gr.DataFrame(
             value=pd.DataFrame(columns=DisplayColumns.values()),
             wrap=True,

src/leaderboard/columns.py CHANGED Viewed

@@ -26,8 +26,8 @@ class DisplayColumns:
     EXPERIMENT_NAME = "Experiment Name"
     AGENT = "Agent"
     LLM_USED = "LLM(s) used"
-    NORMALIZED_SCORE = "Normalized Score"
-    ANY_MEDAL_SCORE = "Any Medal % Score"
     DATE = "Date"
     @staticmethod

     EXPERIMENT_NAME = "Experiment Name"
     AGENT = "Agent"
     LLM_USED = "LLM(s) used"
+    NORMALIZED_SCORE = "Normalized Score / Quality"
+    ANY_MEDAL_SCORE = "Any Medal % / Autonomy"
     DATE = "Date"
     @staticmethod

tests/test_leaderboard.py CHANGED Viewed

@@ -5,7 +5,7 @@ import pytest
 import requests
 from app import load_leaderboard, refresh_leaderboard
-from src.leaderboard.columns import DisplayColumns
 @pytest.fixture
@@ -54,7 +54,8 @@ class TestDownloadLeaderboard:
         # Assertions
         assert isinstance(df, pd.DataFrame)
         assert len(df) == 3
-        assert list(df.columns) == DisplayColumns.values()
         mock_download.assert_called_once()
     @patch("src.leaderboard.input.download_github_file_content")
@@ -66,11 +67,11 @@ class TestDownloadLeaderboard:
         # Check that scores are formatted as strings with mean ± std
         # df is sorted by score descending: exp_003 (0.912), exp_001 (0.854), exp_002 (0.789)
-        assert df.iloc[0]["Normalized Score"] == "0.912 ± 0.009"
-        assert df.iloc[1]["Normalized Score"] == "0.854 ± 0.012"
-        assert df.iloc[2]["Normalized Score"] == "0.789 ± 0.023"
         # Check that scores are strings
-        assert isinstance(df.iloc[0]["Normalized Score"], str)
     @patch("src.leaderboard.input.download_github_file_content")
     def test_percentage_conversion(self, mock_download, sample_csv_data):
@@ -121,7 +122,9 @@ class TestDownloadLeaderboard:
         # Check that df is created correctly (extra columns should be filtered)
         assert len(df) == 2
-        assert list(df.columns) == DisplayColumns.values()
         # Verify the df doesn't have extra columns
         assert "extra_col" not in df.columns
@@ -202,38 +205,11 @@ class TestDownloadLeaderboard:
         assert pd.isna(row_001[DisplayColumns.DATE])
         assert row_002[DisplayColumns.DATE] == "2024-01-20"
-    @patch("src.leaderboard.input.download_github_file_content")
-    def test_git_lfs_pointer_file(self, mock_download, sample_csv_data):
-        """Test handling of Git LFS pointer files."""
-        # The utility function handles LFS internally, so we just return the content
-        mock_download.return_value = sample_csv_data
-        df = load_leaderboard()
-        # Should successfully download via download_url
-        assert isinstance(df, pd.DataFrame)
-        assert len(df) == 3
-        assert list(df.columns) == DisplayColumns.values()
-        mock_download.assert_called_once()
-    @patch("src.leaderboard.input.download_github_file_content")
-    def test_large_file_download_url(self, mock_download, sample_csv_data):
-        """Test handling of large files that only have download_url."""
-        # The utility function handles download_url internally, so we just return the content
-        mock_download.return_value = sample_csv_data
-        df = load_leaderboard()
-        assert isinstance(df, pd.DataFrame)
-        assert len(df) == 3
-        assert list(df.columns) == DisplayColumns.values()
-        mock_download.assert_called_once()
 class TestRefreshLeaderboard:
     """Tests for refresh_leaderboard function."""
-    @patch("app.download_leaderboard")
     def test_refresh_leaderboard_success(self, mock_download):
         """Test that refresh_leaderboard returns dataframe and status message."""
         # Setup mocks
@@ -242,7 +218,9 @@ class TestRefreshLeaderboard:
                 DisplayColumns.EXPERIMENT_NAME: ["exp_001"],
                 DisplayColumns.AGENT: ["Agent A"],
                 DisplayColumns.LLM_USED: ["GPT-4"],
                 DisplayColumns.NORMALIZED_SCORE: ["0.850 ± 0.010"],
                 DisplayColumns.ANY_MEDAL_SCORE: ["85.0 ± 1.0"],
                 DisplayColumns.DATE: ["2024-01-15"],
             }
@@ -253,7 +231,7 @@ class TestRefreshLeaderboard:
         df, status = refresh_leaderboard()
         # Assertions
-        assert isinstance(df, pd.DataFrame)
         assert "Showing data from" in status
         assert "GitHub" in status
         # Check that status contains timestamp in expected format (YYYY-MM-DD HH:MM UTC)
@@ -266,7 +244,7 @@ class TestRefreshLeaderboard:
         assert re.search(timestamp_pattern, status) is not None
         mock_download.assert_called_once()
-    @patch("app.download_leaderboard")
     def test_refresh_leaderboard_includes_url(self, mock_download):
         """Test that status message includes the GitHub URL."""
         mock_df = pd.DataFrame()
@@ -277,7 +255,7 @@ class TestRefreshLeaderboard:
         assert "github.com" in status.lower() or "GitHub" in status
         assert "upgini/mle-bench" in status
-    @patch("app.download_leaderboard")
     def test_refresh_leaderboard_propagates_error(self, mock_download):
         """Test that errors from download_leaderboard are propagated."""
         mock_download.side_effect = requests.HTTPError("404 Not Found")

 import requests
 from app import load_leaderboard, refresh_leaderboard
+from src.leaderboard.columns import DisplayColumns, RequiredInputColumns
 @pytest.fixture
         # Assertions
         assert isinstance(df, pd.DataFrame)
         assert len(df) == 3
+        assert all(col in df.columns for col in DisplayColumns.values())
         mock_download.assert_called_once()
     @patch("src.leaderboard.input.download_github_file_content")
         # Check that scores are formatted as strings with mean ± std
         # df is sorted by score descending: exp_003 (0.912), exp_001 (0.854), exp_002 (0.789)
+        assert df.iloc[0][DisplayColumns.NORMALIZED_SCORE] == "0.912 ± 0.009"
+        assert df.iloc[1][DisplayColumns.NORMALIZED_SCORE] == "0.854 ± 0.012"
+        assert df.iloc[2][DisplayColumns.NORMALIZED_SCORE] == "0.789 ± 0.023"
         # Check that scores are strings
+        assert isinstance(df.iloc[0][DisplayColumns.NORMALIZED_SCORE], str)
     @patch("src.leaderboard.input.download_github_file_content")
     def test_percentage_conversion(self, mock_download, sample_csv_data):
         # Check that df is created correctly (extra columns should be filtered)
         assert len(df) == 2
+        assert set(df.columns) == set(
+            DisplayColumns.values() + [RequiredInputColumns.MEAN_NORMALIZED_SCORE, RequiredInputColumns.MEAN_MEDAL_PCT]
+        )
         # Verify the df doesn't have extra columns
         assert "extra_col" not in df.columns
         assert pd.isna(row_001[DisplayColumns.DATE])
         assert row_002[DisplayColumns.DATE] == "2024-01-20"
 class TestRefreshLeaderboard:
     """Tests for refresh_leaderboard function."""
+    @patch("app.load_leaderboard")
     def test_refresh_leaderboard_success(self, mock_download):
         """Test that refresh_leaderboard returns dataframe and status message."""
         # Setup mocks
                 DisplayColumns.EXPERIMENT_NAME: ["exp_001"],
                 DisplayColumns.AGENT: ["Agent A"],
                 DisplayColumns.LLM_USED: ["GPT-4"],
+                RequiredInputColumns.MEAN_NORMALIZED_SCORE: [0.850],
                 DisplayColumns.NORMALIZED_SCORE: ["0.850 ± 0.010"],
+                RequiredInputColumns.MEAN_MEDAL_PCT: [0.850],
                 DisplayColumns.ANY_MEDAL_SCORE: ["85.0 ± 1.0"],
                 DisplayColumns.DATE: ["2024-01-15"],
             }
         df, status = refresh_leaderboard()
         # Assertions
+        assert df is not None
         assert "Showing data from" in status
         assert "GitHub" in status
         # Check that status contains timestamp in expected format (YYYY-MM-DD HH:MM UTC)
         assert re.search(timestamp_pattern, status) is not None
         mock_download.assert_called_once()
+    @patch("app.load_leaderboard")
     def test_refresh_leaderboard_includes_url(self, mock_download):
         """Test that status message includes the GitHub URL."""
         mock_df = pd.DataFrame()
         assert "github.com" in status.lower() or "GitHub" in status
         assert "upgini/mle-bench" in status
+    @patch("app.load_leaderboard")
     def test_refresh_leaderboard_propagates_error(self, mock_download):
         """Test that errors from download_leaderboard are propagated."""
         mock_download.side_effect = requests.HTTPError("404 Not Found")