Spaces:

mlfoundations-cua-dev
/

leaderboard-viewer

Running

App Files Files Community

Anas Awadalla commited on Jul 24

Commit

1ddd951

1 Parent(s): 6ebe143

fix baselines for showdown-clicks

Browse files

Files changed (1) hide show

src/streamlit_app.py +54 -15

src/streamlit_app.py CHANGED Viewed

@@ -53,7 +53,7 @@ BASELINES = {
     }
 }
-@st.cache_data(ttl=300)  # Cache for 5 minutes
 def fetch_leaderboard_data():
     """Fetch all grounding results from HuggingFace leaderboard by streaming JSON files."""
     api = HfApi()
@@ -366,7 +366,8 @@ def create_bar_chart(data: pd.DataFrame, metric: str, title: str):
                                      range=['#4ECDC4', '#FFA726'])),
         tooltip=['Model', 'Score', 'Type']
     ).properties(
-        width=500,
         height=400
     )
@@ -480,19 +481,57 @@ def main():
     else:
         # For non-ScreenSpot datasets, show a simple bar chart
-        chart_data = filtered_df[['model', 'overall_accuracy']].copy()
-        chart_data.columns = ['Model', 'Accuracy']
-        chart = alt.Chart(chart_data).mark_bar().encode(
-            x=alt.X('Model:N', sort='-y', axis=alt.Axis(labelAngle=-45)),
-            y=alt.Y('Accuracy:Q', scale=alt.Scale(domain=[0, 100])),
-            tooltip=['Model', 'Accuracy']
-        ).properties(
-            width=800,
-            height=400
-        )
-        st.altair_chart(chart, use_container_width=True)
 if __name__ == "__main__":
     main()

     }
 }
+@st.cache_data(ttl=1200)  # Cache for 20 minutes
 def fetch_leaderboard_data():
     """Fetch all grounding results from HuggingFace leaderboard by streaming JSON files."""
     api = HfApi()
                                      range=['#4ECDC4', '#FFA726'])),
         tooltip=['Model', 'Score', 'Type']
     ).properties(
+        title=title,
+        width=500,
         height=400
     )
     else:
         # For non-ScreenSpot datasets, show a simple bar chart
+        # Prepare data list for chart with evaluated models and baselines (if any)
+        chart_rows = []
+        # Add evaluated models
+        for _, row in filtered_df.iterrows():
+            chart_rows.append({
+                'Model': row['model'],
+                'Score': row['overall_accuracy'],
+                'Type': 'Evaluated'
+            })
+        # Add baselines if defined for this dataset
+        if selected_dataset in BASELINES:
+            for baseline_name, baseline_metrics in BASELINES[selected_dataset].items():
+                if 'overall' in baseline_metrics:
+                    chart_rows.append({
+                        'Model': baseline_name,
+                        'Score': baseline_metrics['overall'],
+                        'Type': 'Baseline'
+                    })
+        if chart_rows:
+            chart_df = pd.DataFrame(chart_rows)
+            # Create the bar chart similar to create_bar_chart
+            chart = alt.Chart(chart_df).mark_bar().encode(
+                x=alt.X('Model:N', sort=alt.EncodingSortField(field='Score', order='descending'),
+                        axis=alt.Axis(labelAngle=-45)),
+                y=alt.Y('Score:Q', scale=alt.Scale(domain=[0, 100]),
+                        axis=alt.Axis(title='Score (%)')),
+                color=alt.Color('Type:N',
+                                 scale=alt.Scale(domain=['Evaluated', 'Baseline'],
+                                                 range=['#4ECDC4', '#FFA726'])),
+                tooltip=['Model', 'Score', 'Type']
+            ).properties(
+                width=800,
+                height=400
+            )
+            # Add value labels
+            text = chart.mark_text(
+                align='center',
+                baseline='bottom',
+                dy=-5
+            ).encode(
+                text=alt.Text('Score:Q', format='.1f')
+            )
+            st.altair_chart(chart + text, use_container_width=True)
+        else:
+            st.warning("No data available for the selected dataset.")
 if __name__ == "__main__":
     main()