Spaces:

Jellyfish042
/

UncheatableEval

Running

App Files Files Community

Jellyfish042 commited on Jul 23, 2024

Commit

3dc582a

2 Parent(s): 41539a4 31bf9ae

Merge remote-tracking branch 'origin/main'

Browse files

Files changed (2) hide show

app.py +19 -13
data/2024-07/14b.xlsx +0 -0

app.py CHANGED Viewed

@@ -164,7 +164,8 @@ def update_table(period: str,
         if len(combined_data) > 0:
             sorted_data = combined_data.sort_values(by=sort_by, ascending=ascending)
             sorted_data = sorted_data.rename(columns={'Average (The lower the better)': 'Average (lower=better)'})
-            visible_columns = ['Name', 'Parameters Count (B)', 'Average (lower=better)'] + visible_columns
             filtered_data = sorted_data[visible_columns]
             filtered_data.columns = [col.replace('_', ' ') for col in filtered_data.columns]
@@ -178,7 +179,7 @@ def update_table(period: str,
             vmin = {}
             vmax = {}
             for column in filtered_data.columns:
-                if column in ['Name', 'Parameters Count (B)']:
                     continue
                 col_values = filtered_data[column]
                 if len(col_values) > 1:
@@ -191,9 +192,11 @@ def update_table(period: str,
                 target_color_columns.append('Average (lower=better)')
             if 'Individual Tests' in color_columns:
                 target_color_columns.extend([col for col in filtered_data.columns if
-                                             col not in ['Name', 'Parameters Count (B)', 'Average (lower=better)']])
-            styler = filtered_data.style.format(formatter)
             for column in target_color_columns:
                 if column in vmin and column in vmax:  # Ensure that the vmin and vmax dicts contain the column
                     styler = styler.background_gradient(cmap=cmap, subset=[column], vmin=vmin[column], vmax=vmax[column])
@@ -271,7 +274,8 @@ def create_scaling_plot(all_data, period):
     names_to_connect = ['Meta-Llama-3-8B',
                         'stablelm-3b-4e1t',
                         'Qwen2-1.5B',
-                        'TinyLlama-1.1B-intermediate-step-1431k-3T']
     connection_points = new_df[new_df['Name'].isin(names_to_connect)]
     new_df['Color'] = new_df['Name'].apply(lambda name: '#39C5BB' if name in names_to_connect else '#636efa')
@@ -284,7 +288,7 @@ def create_scaling_plot(all_data, period):
     x_min = connection_points['Log Params(B)'].min()
     x_max = connection_points['Log Params(B)'].max()
-    extended_x = np.linspace(x_min, x_max * 1.25, 100)
     extended_x_original = np.exp(extended_x)
     trend_line_y = model.predict(extended_x.reshape(-1, 1))
     trend_line_y_original = np.exp(trend_line_y)
@@ -347,8 +351,11 @@ def read_all_data(folder_name):
 all_data, time_list = read_all_data('data')
-initial_fig = create_scaling_plot(all_data, time_list[-1])
-initial_period = time_list[-1]
 initial_models = model_size_list
 initial_metric = metric_list[0]
 initial_columns = get_unique_column_names(all_data)
@@ -379,7 +386,7 @@ with gr.Blocks(css=css) as demo:
         with gr.Tab("🏆 Leaderboard"):
             with gr.Row():
                 with gr.Column():
-                    period_selector = gr.Dropdown(label="Period", choices=time_list, value=time_list[-1])
                     model_selector = gr.CheckboxGroup(label="Model", choices=model_size_list, value=model_size_list)
                     metric_selector = gr.Dropdown(label="Metric", choices=metric_list, value=metric_list[0])
                 with gr.Column():
@@ -390,7 +397,7 @@ with gr.Blocks(css=css) as demo:
                                                  choices=get_unique_column_names(all_data),
                                                  value=get_unique_column_names(all_data))
-            table = gr.Dataframe(initial_data, column_widths=[130, 60, 60, 35, 35, 35, 35, 35, 35, 35],
                                  wrap=True,
                                  height=800,
                                  )
@@ -414,14 +421,13 @@ with gr.Blocks(css=css) as demo:
         with gr.Tab("🌍 MultiLang"):
             gr.Markdown("## Coming soon...")
         with gr.Tab("📈 Scaling Law"):
-            period_selector_2 = gr.Dropdown(label="Period", choices=time_list, value=time_list[0])
             def update_plot(period):
                 new_fig = create_scaling_plot(all_data, period)
                 return new_fig
             plot = gr.Plot(initial_fig)
             period_selector_2.change(update_plot, inputs=period_selector_2, outputs=plot)

         if len(combined_data) > 0:
             sorted_data = combined_data.sort_values(by=sort_by, ascending=ascending)
             sorted_data = sorted_data.rename(columns={'Average (The lower the better)': 'Average (lower=better)'})
+            sorted_data = sorted_data.rename(columns={'Parameters Count (B)': 'Params (B)'})
+            visible_columns = ['Name', 'Params (B)', 'Average (lower=better)'] + visible_columns
             filtered_data = sorted_data[visible_columns]
             filtered_data.columns = [col.replace('_', ' ') for col in filtered_data.columns]
             vmin = {}
             vmax = {}
             for column in filtered_data.columns:
+                if column in ['Name', 'Params (B)']:
                     continue
                 col_values = filtered_data[column]
                 if len(col_values) > 1:
                 target_color_columns.append('Average (lower=better)')
             if 'Individual Tests' in color_columns:
                 target_color_columns.extend([col for col in filtered_data.columns if
+                                             col not in ['Name', 'Params (B)', 'Average (lower=better)']])
+            styler = filtered_data.style.format(formatter).applymap(color_cell, subset=['Params (B)'])
             for column in target_color_columns:
                 if column in vmin and column in vmax:  # Ensure that the vmin and vmax dicts contain the column
                     styler = styler.background_gradient(cmap=cmap, subset=[column], vmin=vmin[column], vmax=vmax[column])
     names_to_connect = ['Meta-Llama-3-8B',
                         'stablelm-3b-4e1t',
                         'Qwen2-1.5B',
+                        'TinyLlama-1.1B-intermediate-step-1431k-3T',
+                        'Mistral-Nemo-Base-2407']
     connection_points = new_df[new_df['Name'].isin(names_to_connect)]
     new_df['Color'] = new_df['Name'].apply(lambda name: '#39C5BB' if name in names_to_connect else '#636efa')
     x_min = connection_points['Log Params(B)'].min()
     x_max = connection_points['Log Params(B)'].max()
+    extended_x = np.linspace(x_min, x_max * 1.5, 100)
     extended_x_original = np.exp(extended_x)
     trend_line_y = model.predict(extended_x.reshape(-1, 1))
     trend_line_y_original = np.exp(trend_line_y)
 all_data, time_list = read_all_data('data')
+time_list.sort()
+last_period = time_list[-1]
+initial_fig = create_scaling_plot(all_data, last_period)
+initial_period = last_period
 initial_models = model_size_list
 initial_metric = metric_list[0]
 initial_columns = get_unique_column_names(all_data)
         with gr.Tab("🏆 Leaderboard"):
             with gr.Row():
                 with gr.Column():
+                    period_selector = gr.Dropdown(label="Period", choices=time_list, value=last_period)
                     model_selector = gr.CheckboxGroup(label="Model", choices=model_size_list, value=model_size_list)
                     metric_selector = gr.Dropdown(label="Metric", choices=metric_list, value=metric_list[0])
                 with gr.Column():
                                                  choices=get_unique_column_names(all_data),
                                                  value=get_unique_column_names(all_data))
+            table = gr.Dataframe(initial_data, column_widths=[130, 50, 50, 35, 35, 35, 35, 35, 35, 35],
                                  wrap=True,
                                  height=800,
                                  )
         with gr.Tab("🌍 MultiLang"):
             gr.Markdown("## Coming soon...")
         with gr.Tab("📈 Scaling Law"):
+            print(time_list)
+            period_selector_2 = gr.Dropdown(label="Period", choices=time_list, value=last_period)
             def update_plot(period):
                 new_fig = create_scaling_plot(all_data, period)
                 return new_fig
             plot = gr.Plot(initial_fig)
             period_selector_2.change(update_plot, inputs=period_selector_2, outputs=plot)

data/2024-07/14b.xlsx CHANGED Viewed

Binary files a/data/2024-07/14b.xlsx and b/data/2024-07/14b.xlsx differ