Spaces:

mlfoundations-cua-dev
/

leaderboard-viewer

Running

App Files Files Community

Anas Awadalla commited on Aug 4

Commit

fc25316

1 Parent(s): a860139

add subset avg for pro baselines

Browse files

Files changed (1) hide show

src/streamlit_app.py +54 -8

src/streamlit_app.py CHANGED Viewed

@@ -41,12 +41,34 @@ BASELINES = {
         "Qwen2.5-VL-7B-Instruct": {"desktop_text": 87.6, "desktop_icon": 65.7, "web_text": 90.2, "web_icon": 79.8, "overall": 81.9},
     },
     "screenspot-pro": {
-        "Qwen2.5-VL-3B-Instruct": {"overall": 16.1},
-        "Qwen2.5-VL-7B-Instruct": {"overall": 26.8},
-        "Qwen2.5-VL-72B-Instruct": {"overall": 53.3},
-        "UI-TARS-2B": {"overall": 27.7},
-        "UI-TARS-7B": {"overall": 35.7},
-        "UI-TARS-72B": {"overall": 38.1}
     },
     "showdown-clicks": {
         "UI-TARS-2B": {"overall": 59.8},
@@ -491,7 +513,18 @@ def main():
     # Dataset filter
     datasets = sorted(df['dataset'].unique())
     selected_dataset = st.sidebar.selectbox("Select Dataset", datasets)
     st.session_state['selected_dataset'] = selected_dataset
     # Filter data
@@ -511,7 +544,7 @@ def main():
             st.session_state['selected_models'] = []
     # Initialize selected models if not in session state
-    if 'selected_models' not in st.session_state:
         st.session_state['selected_models'] = all_models
     # Multi-select widget for models
@@ -568,8 +601,14 @@ def main():
                 'web_text': 'Web (Text)',
                 'web_icon': 'Web (Icon)',
             }
         else:
-            # For screenspot-pro and showdown-clicks, only show overall average
             metric_options = {
                 'overall': 'Overall Average'
             }
@@ -623,7 +662,14 @@ def main():
                         baseline_row['text_avg'] = (baseline_metrics['desktop_text'] + baseline_metrics['web_text']) / 2
                     if 'desktop_icon' in baseline_metrics and 'web_icon' in baseline_metrics:
                         baseline_row['icon_avg'] = (baseline_metrics['desktop_icon'] + baseline_metrics['web_icon']) / 2
                 else:
                     baseline_row['overall'] = baseline_metrics.get('overall', 0)
                 baseline_rows.append(baseline_row)

         "Qwen2.5-VL-7B-Instruct": {"desktop_text": 87.6, "desktop_icon": 65.7, "web_text": 90.2, "web_icon": 79.8, "overall": 81.9},
     },
     "screenspot-pro": {
+        "Qwen2.5-VL-3B-Instruct": {
+            "overall": 16.1,
+            "text": 23.6,
+            "icon": 3.8
+        },
+        "Qwen2.5-VL-7B-Instruct": {
+            "overall": 26.8,
+            "text": 38.9,
+            "icon": 7.1
+        },
+        "Qwen2.5-VL-72B-Instruct": {
+            "overall": 53.3,
+        },
+        "UI-TARS-2B": {
+            "overall": 27.7,
+            "text": 39.6,
+            "icon": 8.4
+        },
+        "UI-TARS-7B": {
+            "overall": 35.7,
+            "text": 47.8,
+            "icon": 16.2
+        },
+        "UI-TARS-72B": {
+            "overall": 38.1,
+            "text": 50.9,
+            "icon": 17.6
+        }
     },
     "showdown-clicks": {
         "UI-TARS-2B": {"overall": 59.8},
     # Dataset filter
     datasets = sorted(df['dataset'].unique())
+    # Check if dataset has changed
+    if 'previous_dataset' not in st.session_state:
+        st.session_state['previous_dataset'] = None
     selected_dataset = st.sidebar.selectbox("Select Dataset", datasets)
+    # Reset selected models if dataset changed
+    if selected_dataset != st.session_state.get('previous_dataset'):
+        st.session_state['selected_models'] = None  # This will trigger default selection
+        st.session_state['previous_dataset'] = selected_dataset
     st.session_state['selected_dataset'] = selected_dataset
     # Filter data
             st.session_state['selected_models'] = []
     # Initialize selected models if not in session state
+    if 'selected_models' not in st.session_state or st.session_state['selected_models'] is None:
         st.session_state['selected_models'] = all_models
     # Multi-select widget for models
                 'web_text': 'Web (Text)',
                 'web_icon': 'Web (Icon)',
             }
+        elif selected_dataset == 'screenspot-pro':
+            metric_options = {
+                'overall': 'Overall Average',
+                'text': 'Text',
+                'icon': 'Icon'
+            }
         else:
+            # For showdown-clicks, only show overall average
             metric_options = {
                 'overall': 'Overall Average'
             }
                         baseline_row['text_avg'] = (baseline_metrics['desktop_text'] + baseline_metrics['web_text']) / 2
                     if 'desktop_icon' in baseline_metrics and 'web_icon' in baseline_metrics:
                         baseline_row['icon_avg'] = (baseline_metrics['desktop_icon'] + baseline_metrics['web_icon']) / 2
+                elif selected_dataset == 'screenspot-pro':
+                    baseline_row.update({
+                        'overall': baseline_metrics.get('overall', 0),
+                        'text': baseline_metrics.get('text', 0),
+                        'icon': baseline_metrics.get('icon', 0)
+                    })
                 else:
+                    # For other datasets (showdown-clicks, etc.)
                     baseline_row['overall'] = baseline_metrics.get('overall', 0)
                 baseline_rows.append(baseline_row)