Spaces:

Jellyfish042
/

UncheatableEval

Running

App Files Files Community

Jellyfish042 commited on May 26, 2024

Commit

cc8a66b

1 Parent(s): 49c2344

update

Browse files

Files changed (1) hide show

app.py +70 -17

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import requests
 import huggingface_hub
 from huggingface_hub.utils._errors import EntryNotFoundError, RepositoryNotFoundError
 from dotenv import load_dotenv
 load_dotenv()
 webhook_url = os.environ.get("WEBHOOK_URL")
@@ -119,21 +120,25 @@ def get_folders_matching_format(directory):
 def get_unique_column_names(all_data):
-    column_names = set()
     for folder_name, files in all_data.items():
         for file_name, sheets in files.items():
             for sheet_name, dataframe in sheets.items():
-                column_names.update(dataframe.columns)
-                column_names.remove('Name')
-                column_names.remove('Average (The lower the better)')
-                column_names.remove('Parameters Count (B)')
-    return list(column_names)
-def update_table(period: str, models: list, metric: str, visible_columns: list,
-                 sort_by: str = 'Average (The lower the better)', ascending: bool = True):
     target_data = all_data[period]
     target_metric = metric_to_sheet[metric]
@@ -142,15 +147,38 @@ def update_table(period: str, models: list, metric: str, visible_columns: list,
         combined_data = pd.concat([target_data[model][target_metric] for model in target_model_size], axis=0)
         combined_data['Name'] = combined_data['Name'].apply(lambda x: x.replace('.pth', ''))
         if 'Average (The lower the better)' in combined_data.columns:
             relevant_columns = [col for col in visible_columns if
                                 col not in ['Name', 'Parameters Count (B)', 'Average (The lower the better)']]
             combined_data['Average (The lower the better)'] = round(combined_data[relevant_columns].mean(axis=1), 3)
         sorted_data = combined_data.sort_values(by=sort_by, ascending=ascending)
-        visible_columns = ['Name', 'Parameters Count (B)', 'Average (The lower the better)'] + visible_columns
         filtered_data = sorted_data[visible_columns]
-        return filtered_data
     else:
         return pd.DataFrame()
@@ -210,10 +238,25 @@ initial_period = time_list[-1]
 initial_models = model_size_list[:1]
 initial_metric = metric_list[0]
 initial_columns = get_unique_column_names(all_data)
-initial_data = update_table(initial_period, initial_models, initial_metric, initial_columns)
-with gr.Blocks(css=".gradio-container{max-width:95%!important} .tab-buttons button{font-size:1.3em}") as demo:
     gr.HTML('<h1 style="text-align:center"><span style="font-size:1.3em">🏆 Uncheatable Eval Leaderboard</span></h1>')
     gr.HTML(
         "<h1 style='text-align:center'><span style='font-size:0.8em'>Welcome to Uncheatable Eval, where fancy fine-tuning and cheating won’t work 🚫; only compute 💻, data 📊, and real innovation 🔥 can prevail!</span></h1>")
@@ -225,20 +268,30 @@ with gr.Blocks(css=".gradio-container{max-width:95%!important} .tab-buttons butt
                     model_selector = gr.CheckboxGroup(label="Model", choices=model_size_list, value=model_size_list[0])
                     metric_selector = gr.Dropdown(label="Metric", choices=metric_list, value=metric_list[0])
                 with gr.Column():
                     colfilter = gr.CheckboxGroup(label="Data Source",
                                                  choices=get_unique_column_names(all_data),
                                                  value=get_unique_column_names(all_data))
-            table = gr.Dataframe(initial_data)
-            period_selector.change(update_table, inputs=[period_selector, model_selector, metric_selector, colfilter],
                                    outputs=table)
-            model_selector.change(update_table, inputs=[period_selector, model_selector, metric_selector, colfilter],
                                   outputs=table)
-            metric_selector.change(update_table, inputs=[period_selector, model_selector, metric_selector, colfilter],
                                    outputs=table)
-            colfilter.change(update_table, inputs=[period_selector, model_selector, metric_selector, colfilter],
                              outputs=table)
         with gr.Tab("🌍 MultiLang"):
             gr.Markdown("## Coming soon...")

 import huggingface_hub
 from huggingface_hub.utils._errors import EntryNotFoundError, RepositoryNotFoundError
 from dotenv import load_dotenv
+from matplotlib.colors import LinearSegmentedColormap
 load_dotenv()
 webhook_url = os.environ.get("WEBHOOK_URL")
 def get_unique_column_names(all_data):
+    column_names = {}
     for folder_name, files in all_data.items():
         for file_name, sheets in files.items():
             for sheet_name, dataframe in sheets.items():
+                for column in dataframe.columns:
+                    if column not in ['Name', 'Average (The lower the better)', 'Parameters Count (B)']:
+                        column_names[column] = None
+    return list(column_names.keys())
+def update_table(period: str,
+                 models: list,
+                 metric: str,
+                 visible_columns: list,
+                 color_columns: list,
+                 sort_by: str = 'Average (The lower the better)',
+                 ascending: bool = True):
     target_data = all_data[period]
     target_metric = metric_to_sheet[metric]
         combined_data = pd.concat([target_data[model][target_metric] for model in target_model_size], axis=0)
         combined_data['Name'] = combined_data['Name'].apply(lambda x: x.replace('.pth', ''))
+        combined_data.reset_index(drop=True, inplace=True)
         if 'Average (The lower the better)' in combined_data.columns:
             relevant_columns = [col for col in visible_columns if
                                 col not in ['Name', 'Parameters Count (B)', 'Average (The lower the better)']]
             combined_data['Average (The lower the better)'] = round(combined_data[relevant_columns].mean(axis=1), 3)
         sorted_data = combined_data.sort_values(by=sort_by, ascending=ascending)
+        sorted_data = sorted_data.rename(columns={'Average (The lower the better)': 'Average (lower=better)'})
+        visible_columns = ['Name', 'Parameters Count (B)', 'Average (lower=better)'] + visible_columns
         filtered_data = sorted_data[visible_columns]
+        filtered_data.columns = [col.replace('_', ' ') for col in filtered_data.columns]
+        formatter = {col: "{:.3f}" for col in filtered_data.columns if
+                     filtered_data[col].dtype in ['float64', 'float32']}
+        # color gradient
+        colors = ["#63be7b", "#ffffff", "#f8696b"]
+        cmap = LinearSegmentedColormap.from_list("custom_cmap", colors)
+        target_color_columns = []
+        if 'Average' in color_columns:
+            target_color_columns.append('Average (lower=better)')
+        if 'Individual Tests' in color_columns:
+            target_color_columns.extend([col for col in filtered_data.columns if col not in ['Name', 'Parameters Count (B)', 'Average (lower=better)']])
+        styler = filtered_data.style.format(formatter).background_gradient(
+            cmap=cmap,
+            subset=target_color_columns
+        )
+        return styler
     else:
         return pd.DataFrame()
 initial_models = model_size_list[:1]
 initial_metric = metric_list[0]
 initial_columns = get_unique_column_names(all_data)
+initial_colors = ['Average']
+initial_data = update_table(initial_period, initial_models, initial_metric, initial_columns, initial_colors)
+css = '''
+.gradio-container {
+    max-width: 95% !important;
+}
+.tab-buttons button {
+    font-size: 1.3em;
+}
+.gr-dataframe th {
+    white-space: normal;
+    word-break: break-word;
+}
+'''
+with gr.Blocks(css=css) as demo:
     gr.HTML('<h1 style="text-align:center"><span style="font-size:1.3em">🏆 Uncheatable Eval Leaderboard</span></h1>')
     gr.HTML(
         "<h1 style='text-align:center'><span style='font-size:0.8em'>Welcome to Uncheatable Eval, where fancy fine-tuning and cheating won’t work 🚫; only compute 💻, data 📊, and real innovation 🔥 can prevail!</span></h1>")
                     model_selector = gr.CheckboxGroup(label="Model", choices=model_size_list, value=model_size_list[0])
                     metric_selector = gr.Dropdown(label="Metric", choices=metric_list, value=metric_list[0])
                 with gr.Column():
+                    color_selector = gr.CheckboxGroup(label="Colored Columns",
+                                                      choices=['Average', 'Individual Tests'],
+                                                      value=['Average'])
                     colfilter = gr.CheckboxGroup(label="Data Source",
                                                  choices=get_unique_column_names(all_data),
                                                  value=get_unique_column_names(all_data))
+            table = gr.Dataframe(initial_data, column_widths=[110, 35, 35, 35, 35, 35, 35, 35, 35, 35], wrap=True)
+            period_selector.change(update_table,
+                                   inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector],
                                    outputs=table)
+            model_selector.change(update_table,
+                                  inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector],
                                   outputs=table)
+            metric_selector.change(update_table,
+                                   inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector],
                                    outputs=table)
+            colfilter.change(update_table,
+                             inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector],
                              outputs=table)
+            color_selector.change(update_table,
+                                  inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector],
+                                  outputs=table)
         with gr.Tab("🌍 MultiLang"):
             gr.Markdown("## Coming soon...")