leaderboard

Runtime error

App Files Files Community

nan commited on Oct 15, 2024

Commit

32ee53f

1 Parent(s): 270c122

refactor: refactor the codes

Browse files

Files changed (5) hide show

app.py +3 -2
src/display/columns.py +3 -6
src/display/gradio_listener.py +0 -53
src/utils.py +38 -5
tests/src/display/test_utils.py +1 -2

app.py CHANGED Viewed

@@ -19,7 +19,8 @@ from src.loaders import (
     load_eval_results
 )
 from src.utils import (
-    update_metric
 )
 from src.display.gradio_formatting import (
     get_version_dropdown,
@@ -32,7 +33,7 @@ from src.display.gradio_formatting import (
     get_revision_and_ts_checkbox,
     get_leaderboard_table
 )
-from src.display.gradio_listener import set_listeners
 def restart_space():
     API.restart_space(repo_id=REPO_ID)

     load_eval_results
 )
 from src.utils import (
+    update_metric,
+    set_listeners
 )
 from src.display.gradio_formatting import (
     get_version_dropdown,
     get_revision_and_ts_checkbox,
     get_leaderboard_table
 )
 def restart_space():
     API.restart_space(repo_id=REPO_ID)

src/display/columns.py CHANGED Viewed

@@ -66,7 +66,7 @@ def get_default_auto_eval_column_dict():
     return auto_eval_column_dict
-def make_autoevalcolumn(cls_name="QABenchmarks", benchmarks=QABenchmarks):
     auto_eval_column_dict = get_default_auto_eval_column_dict()
     # Leaderboard columns
     for benchmark in benchmarks:
@@ -78,10 +78,8 @@ def make_autoevalcolumn(cls_name="QABenchmarks", benchmarks=QABenchmarks):
     return make_dataclass(cls_name, auto_eval_column_dict, frozen=True)
-AutoEvalColumnQA = make_autoevalcolumn(
-    "AutoEvalColumnQA", QABenchmarks)
-AutoEvalColumnLongDoc = make_autoevalcolumn(
-    "AutoEvalColumnLongDoc", LongDocBenchmarks)
 fixed_cols = get_default_auto_eval_column_dict()[:-3]
@@ -93,4 +91,3 @@ COLS_QA = [c.name for c in fields(AutoEvalColumnQA) if not c.hidden]
 COLS_LONG_DOC = [c.name for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
 TYPES_QA = [c.type for c in fields(AutoEvalColumnQA) if not c.hidden]
 TYPES_LONG_DOC = [c.type for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
-COLS_LITE = [c.name for c in fields(AutoEvalColumnQA) if c.displayed_by_default and not c.hidden]

     return auto_eval_column_dict
+def make_autoevalcolumn(cls_name, benchmarks):
     auto_eval_column_dict = get_default_auto_eval_column_dict()
     # Leaderboard columns
     for benchmark in benchmarks:
     return make_dataclass(cls_name, auto_eval_column_dict, frozen=True)
+AutoEvalColumnQA = make_autoevalcolumn("AutoEvalColumnQA", QABenchmarks)
+AutoEvalColumnLongDoc = make_autoevalcolumn("AutoEvalColumnLongDoc", LongDocBenchmarks)
 fixed_cols = get_default_auto_eval_column_dict()[:-3]
 COLS_LONG_DOC = [c.name for c in fields(AutoEvalColumnLongDoc) if not c.hidden]
 TYPES_QA = [c.type for c in fields(AutoEvalColumnQA) if not c.hidden]
 TYPES_LONG_DOC = [c.type for c in fields(AutoEvalColumnLongDoc) if not c.hidden]

src/display/gradio_listener.py DELETED Viewed

@@ -1,53 +0,0 @@
-from src.utils import update_table, update_table_long_doc
-def set_listeners(
-        task,
-        displayed_leaderboard,
-        hidden_leaderboard,
-        search_bar,
-        selected_domains,
-        selected_langs,
-        selected_rerankings,
-        show_anonymous,
-        show_revision_and_timestamp,
-):
-    if task == "qa":
-        update_table_func = update_table
-    elif task == "long-doc":
-        update_table_func = update_table_long_doc
-    else:
-        raise NotImplementedError
-    # Set search_bar listener
-    search_bar.submit(
-        update_table_func,
-        [
-            hidden_leaderboard,  #  hidden_leaderboard_table_for_search,
-            selected_domains,
-            selected_langs,
-            selected_rerankings,
-            search_bar,
-            show_anonymous,
-        ],
-        displayed_leaderboard
-    )
-    # Set column-wise listener
-    for selector in [
-        selected_domains, selected_langs, show_anonymous, show_revision_and_timestamp, selected_rerankings
-    ]:
-        selector.change(
-            update_table_func,
-            [
-                hidden_leaderboard,
-                selected_domains,
-                selected_langs,
-                selected_rerankings,
-                search_bar,
-                show_anonymous,
-                show_revision_and_timestamp
-            ],
-            displayed_leaderboard,
-            queue=True,
-        )

src/utils.py CHANGED Viewed

@@ -96,9 +96,6 @@ def get_default_cols(task: str, columns: list=[], add_fix_cols: bool=True) -> li
     return cols, types
 def select_columns(
         df: pd.DataFrame,
         domain_query: list,
@@ -162,7 +159,8 @@ def update_table(
         reset_ranking: bool = True
 ):
     return _update_table(
-        "qa", hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking, show_revision_and_timestamp)
 def update_table_long_doc(
@@ -177,7 +175,8 @@ def update_table_long_doc(
 ):
     return _update_table(
-        "long-doc", hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking, show_revision_and_timestamp)
 def update_metric(
@@ -360,3 +359,37 @@ def get_leaderboard_df(raw_data: List[FullEvalResult], task: str, metric: str) -
     # # replace "0" with "-" for average score
     # df[COL_NAME_AVG] = df[COL_NAME_AVG].replace(0, "-")
     return df

     return cols, types
 def select_columns(
         df: pd.DataFrame,
         domain_query: list,
         reset_ranking: bool = True
 ):
     return _update_table(
+        "qa",
+        hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking, show_revision_and_timestamp)
 def update_table_long_doc(
 ):
     return _update_table(
+        "long-doc",
+        hidden_df, domains, langs, reranking_query, query, show_anonymous, reset_ranking, show_revision_and_timestamp)
 def update_metric(
     # # replace "0" with "-" for average score
     # df[COL_NAME_AVG] = df[COL_NAME_AVG].replace(0, "-")
     return df
+def set_listeners(
+        task,
+        target_df,
+        source_df,
+        search_bar,
+        selected_domains,
+        selected_langs,
+        selected_rerankings,
+        show_anonymous,
+        show_revision_and_timestamp,
+):
+    if task == "qa":
+        update_table_func = update_table
+    elif task == "long-doc":
+        update_table_func = update_table_long_doc
+    else:
+        raise NotImplementedError
+    selector_list = [
+        selected_domains,
+        selected_langs,
+        selected_rerankings,
+        search_bar,
+        show_anonymous
+    ]
+    search_bar_args = [source_df,] + selector_list
+    selector_args = search_bar_args + [show_revision_and_timestamp,]
+    # Set search_bar listener
+    search_bar.submit(update_table_func, search_bar_args, target_df)
+    # Set column-wise listener
+    for selector in selector_list:
+        selector.change(update_table_func, selector_args, target_df, queue=True,)

tests/src/display/test_utils.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import pytest
-from src.display.utils import fields, AutoEvalColumnQA, COLS_QA, COLS_LONG_DOC, COLS_LITE, TYPES_QA, TYPES_LONG_DOC, get_default_auto_eval_column_dict
 def test_fields():
@@ -10,7 +10,6 @@ def test_fields():
 def test_macro_variables():
     print(f'COLS_QA: {COLS_QA}')
     print(f'COLS_LONG_DOC: {COLS_LONG_DOC}')
-    print(f'COLS_LITE: {COLS_LITE}')
     print(f'TYPES_QA: {TYPES_QA}')
     print(f'TYPES_LONG_DOC: {TYPES_LONG_DOC}')

 import pytest
+from src.display.utils import fields, AutoEvalColumnQA, COLS_QA, COLS_LONG_DOC, TYPES_QA, TYPES_LONG_DOC, get_default_auto_eval_column_dict
 def test_fields():
 def test_macro_variables():
     print(f'COLS_QA: {COLS_QA}')
     print(f'COLS_LONG_DOC: {COLS_LONG_DOC}')
     print(f'TYPES_QA: {TYPES_QA}')
     print(f'TYPES_LONG_DOC: {TYPES_LONG_DOC}')