Spaces:

mlfoundations-cua-dev
/

leaderboard-viewer

Running

App Files Files Community

Anas Awadalla commited on Jul 24

Commit

402e797

1 Parent(s): 1ddd951

fix baselines for showdown-clicks

Browse files

Files changed (1) hide show

src/streamlit_app.py +3 -69

src/streamlit_app.py CHANGED Viewed

@@ -53,7 +53,7 @@ BASELINES = {
     }
 }
-@st.cache_data(ttl=1200)  # Cache for 20 minutes
 def fetch_leaderboard_data():
     """Fetch all grounding results from HuggingFace leaderboard by streaming JSON files."""
     api = HfApi()
@@ -433,33 +433,21 @@ def main():
     # Add metric selector for screenspot datasets
     selected_metric = 'overall'  # Default metric
-    if not ui_metrics_df.empty and 'screenspot' in selected_dataset.lower():
         # Metric selector dropdown
         if selected_dataset == 'screenspot-v2':
             metric_options = {
                 'overall': 'Overall Average (Desktop + Web) / 2',
-                'desktop_avg': 'Desktop Average',
-                'web_avg': 'Web Average',
                 'desktop_text': 'Desktop (Text)',
                 'desktop_icon': 'Desktop (Icon)',
                 'web_text': 'Web (Text)',
                 'web_icon': 'Web (Icon)',
-                'text_avg': 'Text Average',
-                'icon_avg': 'Icon Average'
             }
-        elif selected_dataset in ['screenspot-pro', 'showdown-clicks']:
             # For screenspot-pro and showdown-clicks, only show overall average
             metric_options = {
                 'overall': 'Overall Average'
             }
-        else:
-            metric_options = {
-                'overall': 'Overall Average',
-                'desktop_avg': 'Desktop Average',
-                'web_avg': 'Web Average',
-                'text_avg': 'Text Average',
-                'icon_avg': 'Icon Average'
-            }
         selected_metric = st.selectbox(
             "Select metric to visualize:",
@@ -478,60 +466,6 @@ def main():
             st.altair_chart(chart, use_container_width=True)
         else:
             st.warning(f"No data available for {metric_options[selected_metric]}")
-    else:
-        # For non-ScreenSpot datasets, show a simple bar chart
-        # Prepare data list for chart with evaluated models and baselines (if any)
-        chart_rows = []
-        # Add evaluated models
-        for _, row in filtered_df.iterrows():
-            chart_rows.append({
-                'Model': row['model'],
-                'Score': row['overall_accuracy'],
-                'Type': 'Evaluated'
-            })
-        # Add baselines if defined for this dataset
-        if selected_dataset in BASELINES:
-            for baseline_name, baseline_metrics in BASELINES[selected_dataset].items():
-                if 'overall' in baseline_metrics:
-                    chart_rows.append({
-                        'Model': baseline_name,
-                        'Score': baseline_metrics['overall'],
-                        'Type': 'Baseline'
-                    })
-        if chart_rows:
-            chart_df = pd.DataFrame(chart_rows)
-            # Create the bar chart similar to create_bar_chart
-            chart = alt.Chart(chart_df).mark_bar().encode(
-                x=alt.X('Model:N', sort=alt.EncodingSortField(field='Score', order='descending'),
-                        axis=alt.Axis(labelAngle=-45)),
-                y=alt.Y('Score:Q', scale=alt.Scale(domain=[0, 100]),
-                        axis=alt.Axis(title='Score (%)')),
-                color=alt.Color('Type:N',
-                                 scale=alt.Scale(domain=['Evaluated', 'Baseline'],
-                                                 range=['#4ECDC4', '#FFA726'])),
-                tooltip=['Model', 'Score', 'Type']
-            ).properties(
-                width=800,
-                height=400
-            )
-            # Add value labels
-            text = chart.mark_text(
-                align='center',
-                baseline='bottom',
-                dy=-5
-            ).encode(
-                text=alt.Text('Score:Q', format='.1f')
-            )
-            st.altair_chart(chart + text, use_container_width=True)
-        else:
-            st.warning("No data available for the selected dataset.")
 if __name__ == "__main__":
     main()

     }
 }
+@st.cache_data(ttl=300)  # Cache for 5 minutes
 def fetch_leaderboard_data():
     """Fetch all grounding results from HuggingFace leaderboard by streaming JSON files."""
     api = HfApi()
     # Add metric selector for screenspot datasets
     selected_metric = 'overall'  # Default metric
+    if not ui_metrics_df.empty:
         # Metric selector dropdown
         if selected_dataset == 'screenspot-v2':
             metric_options = {
                 'overall': 'Overall Average (Desktop + Web) / 2',
                 'desktop_text': 'Desktop (Text)',
                 'desktop_icon': 'Desktop (Icon)',
                 'web_text': 'Web (Text)',
                 'web_icon': 'Web (Icon)',
             }
+        else:
             # For screenspot-pro and showdown-clicks, only show overall average
             metric_options = {
                 'overall': 'Overall Average'
             }
         selected_metric = st.selectbox(
             "Select metric to visualize:",
             st.altair_chart(chart, use_container_width=True)
         else:
             st.warning(f"No data available for {metric_options[selected_metric]}")
 if __name__ == "__main__":
     main()