Spaces:

Jellyfish042
/

UncheatableEval

Running

App Files Files Community

Jellyfish042 commited on Feb 5

Commit

c89c654

1 Parent(s): ca643ea

update

Browse files

Files changed (1) hide show

app.py +177 -169

app.py CHANGED Viewed

@@ -19,45 +19,45 @@ load_dotenv()
 webhook_url = os.environ.get("WEBHOOK_URL")
 file_name_list = [
-    '14b',
-    '9b',
-    '7b',
-    '3b',
-    '1b5',
 ]
 sheet_name_list = [
-    'cr',
-    'bpc',
-    'bpb',
 ]
 metric_list = [
-    'Compression Rate (%)',
-    'Bits Per Character (BPC)',
-    'Bits Per Byte (BPB)',
 ]
 model_size_list = [
-    '~14B',
-    '~9B',
-    '~7B',
-    '~3B',
-    '~1.5B',
 ]
 metric_to_sheet = {
-    'Compression Rate (%)': 'cr',
-    'Bits Per Character (BPC)': 'bpc',
-    'Bits Per Byte (BPB)': 'bpb',
 }
 model_size_to_file_name = {
-    '~14B': '14b',
-    '~9B': '9b',
-    '~7B': '7b',
-    '~3B': '3b',
-    '~1.5B': '1b5',
 }
 about_md = """
@@ -100,12 +100,12 @@ In fact, the model rankings obtained through Uncheatable Eval are very stable. F
 def rename_columns(df):
-    df.columns = [col.rsplit('_', maxsplit=1)[0] for col in df.columns]
     return df
 def get_folders_matching_format(directory):
-    pattern = re.compile(r'^\d{4}-\d{2}$')
     folders = []
     if not os.path.exists(directory):
@@ -131,52 +131,60 @@ def get_unique_column_names(all_data):
     #
     # return list(column_names.keys())
-    return ['ao3_\u200benglish', 'bbc_\u200bnews', 'wikipedia_\u200benglish', 'arxiv_\u200bcomputer_\u200bscience',
-            'arxiv_\u200bphysics', 'github_\u200bcpp', 'github_\u200bpython', 'ao3_\u200bchinese']
 def color_cell(value):
-    return 'background-color: #fffdd0' if pd.notna(value) else 'default'
-def update_table(period: str,
-                 models: list,
-                 metric: str,
-                 visible_columns: list,
-                 color_columns: list,
-                 size_range: list,
-                 sort_by: str = 'Average (The lower the better)',
-                 ascending: bool = True):
     target_data = all_data[period]
     target_metric = metric_to_sheet[metric]
     if models:
         target_model_size = [model_size_to_file_name[model] for model in models]
         combined_data = pd.concat([target_data[model][target_metric] for model in target_model_size], axis=0)
-        combined_data['Name'] = combined_data['Name'].apply(lambda x: x.replace('.pth', ''))
         # Filter models based on the size range
-        combined_data = combined_data[combined_data['Parameters Count (B)'].between(size_range[0], size_range[1])]
         combined_data.reset_index(drop=True, inplace=True)
-        if 'Average (The lower the better)' in combined_data.columns:
-            relevant_columns = [col for col in visible_columns if
-                                col not in ['Name', 'Parameters Count (B)', 'Average (The lower the better)']]
             if len(combined_data) > 0:
-                combined_data['Average (The lower the better)'] = round(combined_data[relevant_columns].mean(axis=1), 3)
         if len(combined_data) > 0:
             sorted_data = combined_data.sort_values(by=sort_by, ascending=ascending)
-            sorted_data = sorted_data.rename(columns={'Average (The lower the better)': 'Average (lower=better)'})
-            sorted_data = sorted_data.rename(columns={'Parameters Count (B)': 'Params (B)'})
-            visible_columns = ['Name', 'Params (B)', 'Average (lower=better)'] + visible_columns
             filtered_data = sorted_data[visible_columns]
-            filtered_data.columns = [col.replace('_', ' ') for col in filtered_data.columns]
-            formatter = {col: "{:.3f}" for col in filtered_data.columns if
-                         filtered_data[col].dtype in ['float64', 'float32']}
             # color gradient
             colors = ["#63be7b", "#ffffff", "#f8696b"]
@@ -184,7 +192,7 @@ def update_table(period: str,
             vmin = {}
             vmax = {}
             for column in filtered_data.columns:
-                if column in ['Name', 'Params (B)']:
                     continue
                 col_values = filtered_data[column]
                 if len(col_values) > 1:
@@ -193,14 +201,12 @@ def update_table(period: str,
                     vmax[column] = second_largest
             target_color_columns = []
-            if 'Average' in color_columns:
-                target_color_columns.append('Average (lower=better)')
-            if 'Individual Tests' in color_columns:
-                target_color_columns.extend([col for col in filtered_data.columns if
-                                             col not in ['Name', 'Params (B)', 'Average (lower=better)']])
-            styler = filtered_data.style.format(formatter).applymap(color_cell, subset=['Params (B)'])
             for column in target_color_columns:
                 if column in vmin and column in vmax:  # Ensure that the vmin and vmax dicts contain the column
@@ -212,30 +218,35 @@ def update_table(period: str,
     else:
         return pd.DataFrame()
 def create_world_languages_gdp_chart():
-    languages = ['English', 'Chinese', 'Spanish', 'Japanese', 'German', 'French', 'Arabic', 'Italian', 'Portuguese', 'Korean', 'Other']
     shares = [27, 18, 8, 6, 5, 4, 3, 2, 2, 2, 23]
-    colors = ['#FF7F7F', '#FFA07A', '#FFDB58', '#90EE90', '#98FB98', '#87CEFA', '#B0C4DE', '#DDA0DD', '#D8BFD8', '#F0E68C', '#E0FFFF']
-    fig = go.Figure(data=[go.Pie(
-        labels=languages,
-        values=shares,
-        hole=0.3,
-        marker=dict(colors=colors, line=dict(color='#FFFFFF', width=2)),
-        textinfo='label+percent',
-        textposition='outside',
-        insidetextorientation='radial',
-        textfont=dict(size=12),
-    )])
     fig.update_layout(
         title={
-            'text': "World Languages by Share of Global GDP",
-            'y':0.95,
-            'x':0.5,
-            'xanchor': 'center',
-            'yanchor': 'top',
-            'font': dict(size=20, color='black')
         },
         showlegend=False,
         width=700,
@@ -245,6 +256,7 @@ def create_world_languages_gdp_chart():
     return fig
 def check_model_exists(model_id):
     api = HfApi()
     try:
@@ -260,14 +272,14 @@ def check_model_exists(model_id):
 def submit_model(name):
-    if 'Exists' not in check_model_exists(name):
         return f"# ERROR: Model {name} does not exist on Hugging Face!"
     try:
         response = requests.post(webhook_url, json={"content": name})
         if response.status_code == 200:
             response_data = response.json()
-            if response_data.get('status') == 'success':
                 return "# SUCCESS: We will check the model as soon as possible. Thank you for your submission!"
             else:
                 return f"# ERROR: {response_data.get('message', 'Unknown error')}"
@@ -281,54 +293,59 @@ def submit_model(name):
 def create_scaling_plot(all_data, period):
-    selected_columns = ['Name', 'Parameters Count (B)', 'Average (The lower the better)']
     target_data = all_data[period]
     new_df = pd.DataFrame()
     for size in target_data.keys():
-        new_df = pd.concat([new_df, target_data[size]['cr'].loc[:, selected_columns]], axis=0)
-    new_df.rename(columns={
-        'Parameters Count (B)': 'Params(B)',
-        'Average (The lower the better)': 'Compression Rate (%)'
-    }, inplace=True)
-    new_df['Log Params(B)'] = np.log(new_df['Params(B)'])
-    new_df['Log Compression Rate (%)'] = np.log(new_df['Compression Rate (%)'])
-    fig = px.scatter(new_df,
-                     x='Log Params(B)',
-                     y='Log Compression Rate (%)',
-                     title='Compression Rate Scaling Law',
-                     hover_name='Name',
-                     custom_data=['Params(B)', 'Compression Rate (%)']
-                     )
     fig.update_traces(
         hovertemplate="<b>%{hovertext}</b><br>Params(B): %{customdata[0]:.2f} B<br>Compression Rate (%): %{customdata[1]:.2f}<extra></extra>"
     )
     names_to_connect_dict = {
-        '2024-05': ['Meta-Llama-3-8B', 'stablelm-3b-4e1t', 'Qwen2-1.5B', 'TinyLlama-1.1B-intermediate-step-1431k-3T', 'Mistral-Nemo-Base-2407'],
-        '2024-06': ['Meta-Llama-3-8B', 'stablelm-3b-4e1t', 'Qwen2-1.5B', 'TinyLlama-1.1B-intermediate-step-1431k-3T', 'Mistral-Nemo-Base-2407'],
-        '2024-07': ['Meta-Llama-3.1-8B', 'stablelm-3b-4e1t', 'Qwen2-1.5B', 'TinyLlama-1.1B-intermediate-step-1431k-3T', 'Mistral-Nemo-Base-2407'],
-        '2024-08': ['Meta-Llama-3.1-8B', 'Rene-v0.1-1.3b-pytorch', 'stablelm-3b-4e1t', 'Qwen2-1.5B', 'TinyLlama-1.1B-intermediate-step-1431k-3T', 'Mistral-Nemo-Base-2407'],
     }
-    names_to_connect = names_to_connect_dict.get(period, names_to_connect_dict['2024-08'])
-    connection_points = new_df[new_df['Name'].isin(names_to_connect)]
-    new_df['Color'] = new_df['Name'].apply(lambda name: '#39C5BB' if name in names_to_connect else '#636efa')
-    fig.update_traces(marker=dict(color=new_df['Color']))
-    X = connection_points['Log Params(B)'].values.reshape(-1, 1)
-    y = connection_points['Log Compression Rate (%)'].values
     model = LinearRegression().fit(X, y)
-    x_min = connection_points['Log Params(B)'].min()
-    x_max = connection_points['Log Params(B)'].max()
     extended_x = np.linspace(x_min, x_max * 1.5, 100)
     extended_x_original = np.exp(extended_x)
     trend_line_y = model.predict(extended_x.reshape(-1, 1))
@@ -337,34 +354,29 @@ def create_scaling_plot(all_data, period):
     trend_line = go.Scatter(
         x=extended_x,
         y=trend_line_y,
-        mode='lines',
-        line=dict(color='skyblue', dash='dash'),
-        name='Trend Line',
-        hovertemplate='<b>Params(B):</b> %{customdata[0]:.2f}<br>' +
-                      '<b>Compression Rate (%):</b> %{customdata[1]:.2f}<extra></extra>',
-        customdata=np.stack((extended_x_original, trend_line_y_original), axis=-1)
     )
     fig.add_trace(trend_line)
-    x_min = new_df['Params(B)'].min()
-    x_max = new_df['Params(B)'].max()
     x_tick_vals = np.geomspace(x_min, x_max, num=5)
     x_tick_text = [f"{val:.1f}" for val in x_tick_vals]
-    y_min = new_df['Compression Rate (%)'].min()
-    y_max = new_df['Compression Rate (%)'].max()
     y_tick_vals = np.geomspace(y_min, y_max, num=5)
     y_tick_text = [f"{val:.1f}" for val in y_tick_vals]
-    fig.update_xaxes(tickvals=np.log(x_tick_vals), ticktext=x_tick_text, title='Params(B)')
-    fig.update_yaxes(tickvals=np.log(y_tick_vals), ticktext=y_tick_text, title='Compression Rate (%)',
-                     autorange='reversed')
-    fig.update_layout(
-        xaxis=dict(showgrid=True, zeroline=False),
-        yaxis=dict(showgrid=True, zeroline=False)
-    )
     fig.update_traces(marker=dict(size=12))
@@ -384,8 +396,7 @@ def read_all_data(folder_name):
                 all_data[folder_name][file_name] = {}
             for sheet_name in sheet_name_list:
                 final_file_name = os.path.join(folder, file_name)
-                all_data[folder_name][file_name][sheet_name] = rename_columns(
-                    pd.read_excel(final_file_name + '.xlsx', sheet_name=sheet_name))
     return all_data, time_list
@@ -404,7 +415,7 @@ def read_all_data(folder_name):
 #     return mutilange_data, time_list
-all_data, time_list = read_all_data('data')
 # muti_lang_data, muti_lang_time_list = read_mutilange_data()
 time_list.sort()
@@ -415,11 +426,13 @@ initial_period = last_period
 initial_models = model_size_list
 initial_metric = metric_list[0]
 initial_columns = get_unique_column_names(all_data)
-initial_colors = ['Average']
 initial_size_range = [0, 15]
 initial_data = update_table(initial_period, initial_models, initial_metric, initial_columns, initial_colors, initial_size_range)
-css = '''
 .gradio-container {
     max-width: 95% !important;
 }
@@ -431,7 +444,7 @@ css = '''
     word-break: break-word;
 }
-'''
 TITLE_HTML = '<h1 style="text-align:center"><span style="font-size:1.3em">🏆 LLM Compression Leaderboard</span></h1>'
 SUBTITLE_HTML = "<h1 style='text-align:center'><span style='font-size:0.8em'>Welcome to Uncheatable Eval LLM Compression Leaderboard, where fancy fine-tuning and cheating won’t work 🚫; only compute 💻, data 📊, and real innovation 🔥 can prevail!</span></h1>"
@@ -448,37 +461,36 @@ with gr.Blocks(css=css) as demo:
                     size_range_slider = RangeSlider(minimum=0, maximum=15, value=[0, 15], step=0.1, label="Model Size Range")
                     metric_selector = gr.Dropdown(label="Metric", choices=metric_list, value=metric_list[0])
                 with gr.Column():
-                    color_selector = gr.CheckboxGroup(label="Colored Columns",
-                                                      choices=['Average', 'Individual Tests'],
-                                                      value=['Average'])
-                    colfilter = gr.CheckboxGroup(label="Data Source",
-                                                 choices=get_unique_column_names(all_data),
-                                                 value=get_unique_column_names(all_data))
-            table = gr.Dataframe(initial_data,
-                                 column_widths=[130, 50, 50, 35, 35, 35, 35, 35, 35, 35, 35],
-                                 wrap=True,
-                                 height=800,
-                                 )
-            period_selector.change(update_table,
-                                   inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider],
-                                   outputs=table)
-            model_selector.change(update_table,
-                                  inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider],
-                                  outputs=table)
-            metric_selector.change(update_table,
-                                   inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider],
-                                   outputs=table)
-            colfilter.change(update_table,
-                             inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider],
-                             outputs=table)
-            color_selector.change(update_table,
-                                  inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider],
-                                  outputs=table)
-            size_range_slider.change(update_table,
-                                    inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider],
-                                    outputs=table)
         with gr.Tab("🌍 MultiLang"):
             gr.Markdown("## Coming soon...")
@@ -499,13 +511,9 @@ with gr.Blocks(css=css) as demo:
         with gr.Tab("🚀 Submit"):
             with gr.Group():
                 with gr.Row():
-                    model_name = gr.Textbox(max_lines=1,
-                                            placeholder="Enter model name...",
-                                            show_label=False,
-                                            scale=4)
                     submit = gr.Button("Submit", variant="primary", scale=0)
-            output = gr.Markdown(
-                "# Enter a public HF repo id, then hit Submit to add it to the evaluation queue.")
             submit.click(fn=submit_model, inputs=model_name, outputs=output)

 webhook_url = os.environ.get("WEBHOOK_URL")
 file_name_list = [
+    "14b",
+    "9b",
+    "7b",
+    "3b",
+    "1b5",
 ]
 sheet_name_list = [
+    "cr",
+    "bpc",
+    "bpb",
 ]
 metric_list = [
+    "Compression Rate (%)",
+    "Bits Per Character (BPC)",
+    "Bits Per Byte (BPB)",
 ]
 model_size_list = [
+    "~14B",
+    "~9B",
+    "~7B",
+    "~3B",
+    "~1.5B",
 ]
 metric_to_sheet = {
+    "Compression Rate (%)": "cr",
+    "Bits Per Character (BPC)": "bpc",
+    "Bits Per Byte (BPB)": "bpb",
 }
 model_size_to_file_name = {
+    "~14B": "14b",
+    "~9B": "9b",
+    "~7B": "7b",
+    "~3B": "3b",
+    "~1.5B": "1b5",
 }
 about_md = """
 def rename_columns(df):
+    df.columns = [col.rsplit("_", maxsplit=1)[0] for col in df.columns]
     return df
 def get_folders_matching_format(directory):
+    pattern = re.compile(r"^\d{4}-\d{2}$")
     folders = []
     if not os.path.exists(directory):
     #
     # return list(column_names.keys())
+    return [
+        "ao3_\u200benglish",
+        "bbc_\u200bnews",
+        "wikipedia_\u200benglish",
+        "arxiv_\u200bcomputer_\u200bscience",
+        "arxiv_\u200bphysics",
+        "github_\u200bcpp",
+        "github_\u200bpython",
+        "ao3_\u200bchinese",
+    ]
 def color_cell(value):
+    return "background-color: #fffdd0" if pd.notna(value) else "default"
+def update_table(
+    period: str,
+    models: list,
+    metric: str,
+    visible_columns: list,
+    color_columns: list,
+    size_range: list,
+    sort_by: str = "Average (The lower the better)",
+    ascending: bool = True,
+):
     target_data = all_data[period]
     target_metric = metric_to_sheet[metric]
     if models:
         target_model_size = [model_size_to_file_name[model] for model in models]
         combined_data = pd.concat([target_data[model][target_metric] for model in target_model_size], axis=0)
+        combined_data["Name"] = combined_data["Name"].apply(lambda x: x.replace(".pth", ""))
         # Filter models based on the size range
+        combined_data = combined_data[combined_data["Parameters Count (B)"].between(size_range[0], size_range[1])]
         combined_data.reset_index(drop=True, inplace=True)
+        if "Average (The lower the better)" in combined_data.columns:
+            relevant_columns = [col for col in visible_columns if col not in ["Name", "Parameters Count (B)", "Average (The lower the better)"]]
             if len(combined_data) > 0:
+                combined_data["Average (The lower the better)"] = round(combined_data[relevant_columns].mean(axis=1), 3)
         if len(combined_data) > 0:
             sorted_data = combined_data.sort_values(by=sort_by, ascending=ascending)
+            sorted_data = sorted_data.rename(columns={"Average (The lower the better)": "Average (lower=better)"})
+            sorted_data = sorted_data.rename(columns={"Parameters Count (B)": "Params (B)"})
+            visible_columns = ["Name", "Params (B)", "Average (lower=better)"] + visible_columns
             filtered_data = sorted_data[visible_columns]
+            filtered_data.columns = [col.replace("_", " ") for col in filtered_data.columns]
+            formatter = {col: "{:.3f}" for col in filtered_data.columns if filtered_data[col].dtype in ["float64", "float32"]}
             # color gradient
             colors = ["#63be7b", "#ffffff", "#f8696b"]
             vmin = {}
             vmax = {}
             for column in filtered_data.columns:
+                if column in ["Name", "Params (B)"]:
                     continue
                 col_values = filtered_data[column]
                 if len(col_values) > 1:
                     vmax[column] = second_largest
             target_color_columns = []
+            if "Average" in color_columns:
+                target_color_columns.append("Average (lower=better)")
+            if "Individual Tests" in color_columns:
+                target_color_columns.extend([col for col in filtered_data.columns if col not in ["Name", "Params (B)", "Average (lower=better)"]])
+            styler = filtered_data.style.format(formatter).applymap(color_cell, subset=["Params (B)"])
             for column in target_color_columns:
                 if column in vmin and column in vmax:  # Ensure that the vmin and vmax dicts contain the column
     else:
         return pd.DataFrame()
 def create_world_languages_gdp_chart():
+    languages = ["English", "Chinese", "Spanish", "Japanese", "German", "French", "Arabic", "Italian", "Portuguese", "Korean", "Other"]
     shares = [27, 18, 8, 6, 5, 4, 3, 2, 2, 2, 23]
+    colors = ["#FF7F7F", "#FFA07A", "#FFDB58", "#90EE90", "#98FB98", "#87CEFA", "#B0C4DE", "#DDA0DD", "#D8BFD8", "#F0E68C", "#E0FFFF"]
+    fig = go.Figure(
+        data=[
+            go.Pie(
+                labels=languages,
+                values=shares,
+                hole=0.3,
+                marker=dict(colors=colors, line=dict(color="#FFFFFF", width=2)),
+                textinfo="label+percent",
+                textposition="outside",
+                insidetextorientation="radial",
+                textfont=dict(size=12),
+            )
+        ]
+    )
     fig.update_layout(
         title={
+            "text": "World Languages by Share of Global GDP",
+            "y": 0.95,
+            "x": 0.5,
+            "xanchor": "center",
+            "yanchor": "top",
+            "font": dict(size=20, color="black"),
         },
         showlegend=False,
         width=700,
     return fig
 def check_model_exists(model_id):
     api = HfApi()
     try:
 def submit_model(name):
+    if "Exists" not in check_model_exists(name):
         return f"# ERROR: Model {name} does not exist on Hugging Face!"
     try:
         response = requests.post(webhook_url, json={"content": name})
         if response.status_code == 200:
             response_data = response.json()
+            if response_data.get("status") == "success":
                 return "# SUCCESS: We will check the model as soon as possible. Thank you for your submission!"
             else:
                 return f"# ERROR: {response_data.get('message', 'Unknown error')}"
 def create_scaling_plot(all_data, period):
+    selected_columns = ["Name", "Parameters Count (B)", "Average (The lower the better)"]
     target_data = all_data[period]
     new_df = pd.DataFrame()
     for size in target_data.keys():
+        new_df = pd.concat([new_df, target_data[size]["cr"].loc[:, selected_columns]], axis=0)
+    new_df.rename(columns={"Parameters Count (B)": "Params(B)", "Average (The lower the better)": "Compression Rate (%)"}, inplace=True)
+    new_df["Log Params(B)"] = np.log(new_df["Params(B)"])
+    new_df["Log Compression Rate (%)"] = np.log(new_df["Compression Rate (%)"])
+    fig = px.scatter(
+        new_df,
+        x="Log Params(B)",
+        y="Log Compression Rate (%)",
+        title="Compression Rate Scaling Law",
+        hover_name="Name",
+        custom_data=["Params(B)", "Compression Rate (%)"],
+    )
     fig.update_traces(
         hovertemplate="<b>%{hovertext}</b><br>Params(B): %{customdata[0]:.2f} B<br>Compression Rate (%): %{customdata[1]:.2f}<extra></extra>"
     )
     names_to_connect_dict = {
+        "2024-05": ["Meta-Llama-3-8B", "stablelm-3b-4e1t", "Qwen2-1.5B", "TinyLlama-1.1B-intermediate-step-1431k-3T", "Mistral-Nemo-Base-2407"],
+        "2024-06": ["Meta-Llama-3-8B", "stablelm-3b-4e1t", "Qwen2-1.5B", "TinyLlama-1.1B-intermediate-step-1431k-3T", "Mistral-Nemo-Base-2407"],
+        "2024-07": ["Meta-Llama-3.1-8B", "stablelm-3b-4e1t", "Qwen2-1.5B", "TinyLlama-1.1B-intermediate-step-1431k-3T", "Mistral-Nemo-Base-2407"],
+        "2024-08": [
+            "Meta-Llama-3.1-8B",
+            "Rene-v0.1-1.3b-pytorch",
+            "stablelm-3b-4e1t",
+            "Qwen2-1.5B",
+            "TinyLlama-1.1B-intermediate-step-1431k-3T",
+            "Mistral-Nemo-Base-2407",
+        ],
     }
+    names_to_connect = names_to_connect_dict.get(period, names_to_connect_dict["2024-08"])
+    connection_points = new_df[new_df["Name"].isin(names_to_connect)]
+    new_df["Color"] = new_df["Name"].apply(lambda name: "#39C5BB" if name in names_to_connect else "#636efa")
+    fig.update_traces(marker=dict(color=new_df["Color"]))
+    X = connection_points["Log Params(B)"].values.reshape(-1, 1)
+    y = connection_points["Log Compression Rate (%)"].values
     model = LinearRegression().fit(X, y)
+    x_min = connection_points["Log Params(B)"].min()
+    x_max = connection_points["Log Params(B)"].max()
     extended_x = np.linspace(x_min, x_max * 1.5, 100)
     extended_x_original = np.exp(extended_x)
     trend_line_y = model.predict(extended_x.reshape(-1, 1))
     trend_line = go.Scatter(
         x=extended_x,
         y=trend_line_y,
+        mode="lines",
+        line=dict(color="skyblue", dash="dash"),
+        name="Trend Line",
+        hovertemplate="<b>Params(B):</b> %{customdata[0]:.2f}<br>" + "<b>Compression Rate (%):</b> %{customdata[1]:.2f}<extra></extra>",
+        customdata=np.stack((extended_x_original, trend_line_y_original), axis=-1),
     )
     fig.add_trace(trend_line)
+    x_min = new_df["Params(B)"].min()
+    x_max = new_df["Params(B)"].max()
     x_tick_vals = np.geomspace(x_min, x_max, num=5)
     x_tick_text = [f"{val:.1f}" for val in x_tick_vals]
+    y_min = new_df["Compression Rate (%)"].min()
+    y_max = new_df["Compression Rate (%)"].max()
     y_tick_vals = np.geomspace(y_min, y_max, num=5)
     y_tick_text = [f"{val:.1f}" for val in y_tick_vals]
+    fig.update_xaxes(tickvals=np.log(x_tick_vals), ticktext=x_tick_text, title="Params(B)")
+    fig.update_yaxes(tickvals=np.log(y_tick_vals), ticktext=y_tick_text, title="Compression Rate (%)", autorange="reversed")
+    fig.update_layout(xaxis=dict(showgrid=True, zeroline=False), yaxis=dict(showgrid=True, zeroline=False))
     fig.update_traces(marker=dict(size=12))
                 all_data[folder_name][file_name] = {}
             for sheet_name in sheet_name_list:
                 final_file_name = os.path.join(folder, file_name)
+                all_data[folder_name][file_name][sheet_name] = rename_columns(pd.read_excel(final_file_name + ".xlsx", sheet_name=sheet_name))
     return all_data, time_list
 #     return mutilange_data, time_list
+all_data, time_list = read_all_data("data")
 # muti_lang_data, muti_lang_time_list = read_mutilange_data()
 time_list.sort()
 initial_models = model_size_list
 initial_metric = metric_list[0]
 initial_columns = get_unique_column_names(all_data)
+initial_columns = initial_columns[:-1]
+# initial_colors = ["Average"]
+initial_colors = ["Average", "Individual Tests"]
 initial_size_range = [0, 15]
 initial_data = update_table(initial_period, initial_models, initial_metric, initial_columns, initial_colors, initial_size_range)
+css = """
 .gradio-container {
     max-width: 95% !important;
 }
     word-break: break-word;
 }
+"""
 TITLE_HTML = '<h1 style="text-align:center"><span style="font-size:1.3em">🏆 LLM Compression Leaderboard</span></h1>'
 SUBTITLE_HTML = "<h1 style='text-align:center'><span style='font-size:0.8em'>Welcome to Uncheatable Eval LLM Compression Leaderboard, where fancy fine-tuning and cheating won’t work 🚫; only compute 💻, data 📊, and real innovation 🔥 can prevail!</span></h1>"
                     size_range_slider = RangeSlider(minimum=0, maximum=15, value=[0, 15], step=0.1, label="Model Size Range")
                     metric_selector = gr.Dropdown(label="Metric", choices=metric_list, value=metric_list[0])
                 with gr.Column():
+                    color_selector = gr.CheckboxGroup(label="Colored Columns", choices=["Average", "Individual Tests"], value=["Average"])
+                    colfilter = gr.CheckboxGroup(
+                        label="Data Source", choices=get_unique_column_names(all_data), value=get_unique_column_names(all_data)
+                    )
+            table = gr.Dataframe(
+                initial_data,
+                column_widths=[130, 50, 50, 35, 35, 35, 35, 35, 35, 35, 35],
+                wrap=True,
+                height=800,
+            )
+            period_selector.change(
+                update_table, inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider], outputs=table
+            )
+            model_selector.change(
+                update_table, inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider], outputs=table
+            )
+            metric_selector.change(
+                update_table, inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider], outputs=table
+            )
+            colfilter.change(
+                update_table, inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider], outputs=table
+            )
+            color_selector.change(
+                update_table, inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider], outputs=table
+            )
+            size_range_slider.change(
+                update_table, inputs=[period_selector, model_selector, metric_selector, colfilter, color_selector, size_range_slider], outputs=table
+            )
         with gr.Tab("🌍 MultiLang"):
             gr.Markdown("## Coming soon...")
         with gr.Tab("🚀 Submit"):
             with gr.Group():
                 with gr.Row():
+                    model_name = gr.Textbox(max_lines=1, placeholder="Enter model name...", show_label=False, scale=4)
                     submit = gr.Button("Submit", variant="primary", scale=0)
+            output = gr.Markdown("# Enter a public HF repo id, then hit Submit to add it to the evaluation queue.")
             submit.click(fn=submit_model, inputs=model_name, outputs=output)