leaderboard

Sleeping

pminervini commited on Feb 13, 2024

Commit

e5e2b84

1 Parent(s): d374577

update

Files changed (3) hide show

src/display/utils.py CHANGED Viewed

@@ -44,7 +44,9 @@ class Tasks(Enum):
     halueval_summ = Task("halueval_summarization", "acc", "HaluSumm/Acc")
     halueval_dial = Task("halueval_dialogue", "acc", "HaluDial/Acc")
-    selfcheck = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT")
 # These classes are for user facing column names,
 # to avoid having to change them all around the code

     halueval_summ = Task("halueval_summarization", "acc", "HaluSumm/Acc")
     halueval_dial = Task("halueval_dialogue", "acc", "HaluDial/Acc")
+    # XXX include me back at some point
+    # selfcheck = Task("selfcheckgpt", "max-selfcheckgpt", "SelfCheckGPT")
 # These classes are for user facing column names,
 # to avoid having to change them all around the code

src/leaderboard/filter_models.py CHANGED Viewed

@@ -20,6 +20,7 @@ DO_NOT_SUBMIT_MODELS = [
     "Voicelab/trurl-2-13b",  # trained on MMLU
 ]
 def flag_models(leaderboard_data: list[dict]):
     for model_data in leaderboard_data:
         if model_data["model_name_for_query"] in FLAGGED_MODELS:

     "Voicelab/trurl-2-13b",  # trained on MMLU
 ]
 def flag_models(leaderboard_data: list[dict]):
     for model_data in leaderboard_data:
         if model_data["model_name_for_query"] in FLAGGED_MODELS:

src/utils.py CHANGED Viewed

@@ -19,6 +19,7 @@ def get_dataset_url(row):
     benchmark = f'<a target="_blank" href="{dataset_url}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{dataset_name}</a>'
     return benchmark
 def get_dataset_summary_table(file_path):
     df = pd.read_csv(file_path)

     benchmark = f'<a target="_blank" href="{dataset_url}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{dataset_name}</a>'
     return benchmark
 def get_dataset_summary_table(file_path):
     df = pd.read_csv(file_path)