Spaces:

saeedfarzi
/

eCREAM_LLM_Leaderboard_Beta

Runtime error

App Files Files Community

Sfarzi commited on Nov 14, 2025

Commit

e6c5ca5

1 Parent(s): 16ce187

Initial clone with modifications

Browse files

Files changed (4) hide show

.ipynb_checkpoints/app-checkpoint.py +23 -18
app.py +18 -18
src/__pycache__/about.cpython-310.pyc +0 -0
src/about.py +37 -37

.ipynb_checkpoints/app-checkpoint.py CHANGED Viewed

@@ -52,7 +52,7 @@ def create_best_model_comparison_table(dataframe, lang: str | None = None, shot:
       - lang in {EN, IT, SL, SK, GR, PL} or None/"All"
       - shot in {"0","10"} or None/"All" (mapped to IS_FS False/True)
     """
-    tasks = ["NER", "REL", "RML", "HIS", "DIA"]
     df = dataframe.copy()
     if lang and lang != "All" and "LANG" in df.columns:
@@ -141,7 +141,7 @@ def create_best_model_comparison_table_without_lang(dataframe):
     Table with the best overall model per task (NER, REL,) and the model that
     achieves the best score with its own best prompt.
     """
-    tasks = ["NER", "REL", "RML", "HIS", "DIA"]
     table_data = {'Task': [], 'Best Overall Model': [], 'CPS': [], 'Best Prompt Model': [], 'Acc.': []}
     for task in tasks:
@@ -216,7 +216,7 @@ def create_prompt_heatmap(dataframe, lang: str | None = None, shot: str | None =
       - lang: None or one of EN/IT/SL/SK/GR/PL (None means All)
       - shot: None or "0"/"10" (None means All) mapped to IS_FS False/True
     """
-    tasks = ["NER", "REL", "RML", "HIS", "DIA"]
     df = dataframe.copy()
     # Language filter
@@ -236,6 +236,8 @@ def create_prompt_heatmap(dataframe, lang: str | None = None, shot: str | None =
     for task in tasks:
         col = f"{task} Best Prompt Id"
         if col in df.columns:
             all_ids.update(df[col].dropna().unique())
     prompt_ids_raw = sorted(list(all_ids), key=lambda x: int(re.sub(r'[^0-9]', '', str(x)) or 0))
     prompt_ids_raw = [pid for pid in prompt_ids_raw if label_for(pid) in {"p1", "p2", "p3"}] or [1, 2, 3]
@@ -294,7 +296,7 @@ def create_prompt_heatmap_without_lang(dataframe):
     for tasks NER and REL, with exactly 3 prompts (p1, p2, p3). It supports columns storing
     ids as integers (1/2/3) or strings ('p1'/'p2'/'p3').
     """
-    tasks = ["NER", "REL", "RML", "HIS", "DIA"]
     # Collect unique prompt ids as they appear (int or 'pX'); restrict to 3 prompts
     all_ids = set()
@@ -395,10 +397,11 @@ def mean_of_max_per_field(df):
         float: media dei valori massimi dei campi
     """
     #fields = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
-    fields = ["NER", "REL", "RML", "DIA", "HIS"]
     #print(df.columns)
     # Controlla che tutte le colonne esistano nel DataFrame
     missing = [f for f in fields if f not in df.columns]
     if missing:
         raise ValueError(f"Le seguenti colonne mancano nel DataFrame: {missing}")
@@ -414,7 +417,7 @@ def mean_of_max_per_field(df):
 def barplot_mean_few_minus_zero_shot(dataframe, tasks=None):
     if tasks is None:
-        tasks = [ "NER", "REL", "RML", "DIA", "HIS"]
     task_means = {}
@@ -489,7 +492,7 @@ def boxplot_per_task(dataframe=None, baselines=None, references=None):
     #print(dataframe.columns)
     #tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
-    tasks =["NER", "REL", "RML", "HIS", "DIA"]
     if dataframe is None:
         np.random.seed(42)
         dataframe = pd.DataFrame({
@@ -598,7 +601,7 @@ REFERENCES = {
 def boxplot_prompts_per_task(dataframe, tasks=None):
     if tasks is None:
-        tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
     # Lista delle colonne da aggiornare
     cols_to_update = ["REL Best Prompt Id", "NER Best Prompt Id", "SU Best Prompt Id", "LS Best Prompt Id"]
@@ -808,11 +811,13 @@ TASK_METADATA_MULTIPLECHOICE = {
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_GENERATIVE = {
-    "NER": {"icon": "🏷️", "name": "Named Entity Recognition", "tooltip": ""},
-    "REL": {"icon": "🔗", "name": "Relation Extraction", "tooltip": ""},
-    "RML": {"icon": "😃", "name": "CRF RML", "tooltip": "CRF RML"},
-    "DIA": {"icon": "🏥", "name": "CRF Diagnosis", "tooltip": "CRF Diagnosis"},
-    "HIS": {"icon": "📝", "name": "CRF History", "tooltip": "CRF History"},
 }
 def restart_space():
@@ -891,7 +896,7 @@ def init_leaderboard(dataframe, default_selection=None, hidden_columns=None):
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
-            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languges: "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max = 100, default = [0,100], label="Select the number of parameters (B)"),
         ],
         bool_checkboxgroup_label="Evaluation Mode",
@@ -975,7 +980,7 @@ def update_task_leaderboard(dataframe, default_selection=None, hidden_columns=No
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
-            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languges:  "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max=100, default=[0, 100],
                          label="Select the number of parameters (B)"),
@@ -1075,8 +1080,8 @@ with demo:
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
-                default_selection=['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL", "RML", "DIA", "HIS"],
-                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL", "RML", "DIA", "HIS"]]
             )
@@ -1107,7 +1112,7 @@ with demo:
             with gr.TabItem(f"{metadata['icon']}{task}"):
                 task_description = TASK_DESCRIPTIONS.get(task, "Description not available.")
                 gr.Markdown(task_description, elem_classes="markdown-text1")
-                #print (LEADERBOARD_DF)
                 leaderboard = update_task_leaderboard(
                     LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average",
                                                    f"{task} Prompt Std": "Prompt Std",

       - lang in {EN, IT, SL, SK, GR, PL} or None/"All"
       - shot in {"0","10"} or None/"All" (mapped to IS_FS False/True)
     """
+    tasks = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA", "NER-PHA"]
     df = dataframe.copy()
     if lang and lang != "All" and "LANG" in df.columns:
     Table with the best overall model per task (NER, REL,) and the model that
     achieves the best score with its own best prompt.
     """
+    tasks = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA", "NER-PHA"]
     table_data = {'Task': [], 'Best Overall Model': [], 'CPS': [], 'Best Prompt Model': [], 'Acc.': []}
     for task in tasks:
       - lang: None or one of EN/IT/SL/SK/GR/PL (None means All)
       - shot: None or "0"/"10" (None means All) mapped to IS_FS False/True
     """
+    tasks = ["NER-E3C", "REL-E3C", "RML-CRF", "HIS-CRF", "DIA-CRF", "NER-PHA"]
     df = dataframe.copy()
     # Language filter
     for task in tasks:
         col = f"{task} Best Prompt Id"
         if col in df.columns:
+            #print (col)
+            #print(df[col])
             all_ids.update(df[col].dropna().unique())
     prompt_ids_raw = sorted(list(all_ids), key=lambda x: int(re.sub(r'[^0-9]', '', str(x)) or 0))
     prompt_ids_raw = [pid for pid in prompt_ids_raw if label_for(pid) in {"p1", "p2", "p3"}] or [1, 2, 3]
     for tasks NER and REL, with exactly 3 prompts (p1, p2, p3). It supports columns storing
     ids as integers (1/2/3) or strings ('p1'/'p2'/'p3').
     """
+    tasks = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA", "NER-PHA"]
     # Collect unique prompt ids as they appear (int or 'pX'); restrict to 3 prompts
     all_ids = set()
         float: media dei valori massimi dei campi
     """
     #fields = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
+    fields = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-DIA", "CRF-HIS", "NER-PHA"]
     #print(df.columns)
     # Controlla che tutte le colonne esistano nel DataFrame
+    print(df.columns)
     missing = [f for f in fields if f not in df.columns]
     if missing:
         raise ValueError(f"Le seguenti colonne mancano nel DataFrame: {missing}")
 def barplot_mean_few_minus_zero_shot(dataframe, tasks=None):
     if tasks is None:
+        tasks = [ "NER-E3C", "REL-E3C", "RML-CRF", "DIA-CRF", "HIS-CRF","NER-PHA"]
     task_means = {}
     #print(dataframe.columns)
     #tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
+    tasks =["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA" , "NER-PHA"]
     if dataframe is None:
         np.random.seed(42)
         dataframe = pd.DataFrame({
 def boxplot_prompts_per_task(dataframe, tasks=None):
     if tasks is None:
+        tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER-E3C", "REL-E3C"]
     # Lista delle colonne da aggiornare
     cols_to_update = ["REL Best Prompt Id", "NER Best Prompt Id", "SU Best Prompt Id", "LS Best Prompt Id"]
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_GENERATIVE = {
+    "NER-E3C": {"icon": "🏷️", "name": "Named Entity Recognition", "tooltip": ""},
+    "REL-E3C": {"icon": "🔗", "name": "Relation Extraction", "tooltip": ""},
+    "CRF-RML": {"icon": "🔗", "name": "CRF RML", "tooltip": "CRF RML"},
+    "CRF-DIA": {"icon": "🏥", "name": "CRF Diagnosis", "tooltip": "CRF Diagnosis"},
+    "CRF-HIS": {"icon": "📝", "name": "CRF History", "tooltip": "CRF History"},
+    "NER-PHA": {"icon": "🏷️", "name": "Named Entity Recognition over PharmaER.It Datasets", "tooltip": ""},
 }
 def restart_space():
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
+            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languages: "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max = 100, default = [0,100], label="Select the number of parameters (B)"),
         ],
         bool_checkboxgroup_label="Evaluation Mode",
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
+            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languages:  "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max=100, default=[0, 100],
                          label="Select the number of parameters (B)"),
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
+                default_selection=['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER-E3C", "REL-E3C", "CRF-RML", "CRF-DIA", "CRF-HIS", "NER-PHA"],
+                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER-E3C", "REL-E3C", "CRF-RML", "CRF-DIA", "CRF-HIS", "NER-PHA"]]
             )
             with gr.TabItem(f"{metadata['icon']}{task}"):
                 task_description = TASK_DESCRIPTIONS.get(task, "Description not available.")
                 gr.Markdown(task_description, elem_classes="markdown-text1")
+                print (task)
                 leaderboard = update_task_leaderboard(
                     LEADERBOARD_DF.rename(columns={f"{task} Prompt Average": "Prompt Average",
                                                    f"{task} Prompt Std": "Prompt Std",

app.py CHANGED Viewed

@@ -52,7 +52,7 @@ def create_best_model_comparison_table(dataframe, lang: str | None = None, shot:
       - lang in {EN, IT, SL, SK, GR, PL} or None/"All"
       - shot in {"0","10"} or None/"All" (mapped to IS_FS False/True)
     """
-    tasks = ["NER", "REL", "RML-CRF", "HIS-CRF", "DIA-CRF", "NER-PHARMAER"]
     df = dataframe.copy()
     if lang and lang != "All" and "LANG" in df.columns:
@@ -141,7 +141,7 @@ def create_best_model_comparison_table_without_lang(dataframe):
     Table with the best overall model per task (NER, REL,) and the model that
     achieves the best score with its own best prompt.
     """
-    tasks = ["NER", "REL", "RML-CRF", "HIS-CRF", "DIA-CRF", "NER-PHARMAER"]
     table_data = {'Task': [], 'Best Overall Model': [], 'CPS': [], 'Best Prompt Model': [], 'Acc.': []}
     for task in tasks:
@@ -216,7 +216,7 @@ def create_prompt_heatmap(dataframe, lang: str | None = None, shot: str | None =
       - lang: None or one of EN/IT/SL/SK/GR/PL (None means All)
       - shot: None or "0"/"10" (None means All) mapped to IS_FS False/True
     """
-    tasks = ["NER", "REL", "RML-CRF", "HIS-CRF", "DIA-CRF", "NER-PHARMAER"]
     df = dataframe.copy()
     # Language filter
@@ -296,7 +296,7 @@ def create_prompt_heatmap_without_lang(dataframe):
     for tasks NER and REL, with exactly 3 prompts (p1, p2, p3). It supports columns storing
     ids as integers (1/2/3) or strings ('p1'/'p2'/'p3').
     """
-    tasks = ["NER", "REL", "RML-CRF", "HIS-CRF", "DIA-CRF", "NER-PHARMAER"]
     # Collect unique prompt ids as they appear (int or 'pX'); restrict to 3 prompts
     all_ids = set()
@@ -397,7 +397,7 @@ def mean_of_max_per_field(df):
         float: media dei valori massimi dei campi
     """
     #fields = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
-    fields = ["NER", "REL", "RML-CRF", "DIA-CRF", "HIS-CRF", "NER-PHARMAER"]
     #print(df.columns)
     # Controlla che tutte le colonne esistano nel DataFrame
@@ -417,7 +417,7 @@ def mean_of_max_per_field(df):
 def barplot_mean_few_minus_zero_shot(dataframe, tasks=None):
     if tasks is None:
-        tasks = [ "NER", "REL", "RML-CRF", "DIA-CRF", "HIS-CRF","NER-PHARMAER"]
     task_means = {}
@@ -492,7 +492,7 @@ def boxplot_per_task(dataframe=None, baselines=None, references=None):
     #print(dataframe.columns)
     #tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
-    tasks =["NER", "REL", "RML-CRF", "HIS-CRF", "DIA-CRF" , "NER-PHARMAER"]
     if dataframe is None:
         np.random.seed(42)
         dataframe = pd.DataFrame({
@@ -601,7 +601,7 @@ REFERENCES = {
 def boxplot_prompts_per_task(dataframe, tasks=None):
     if tasks is None:
-        tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
     # Lista delle colonne da aggiornare
     cols_to_update = ["REL Best Prompt Id", "NER Best Prompt Id", "SU Best Prompt Id", "LS Best Prompt Id"]
@@ -811,12 +811,12 @@ TASK_METADATA_MULTIPLECHOICE = {
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_GENERATIVE = {
-    "NER": {"icon": "🏷️", "name": "Named Entity Recognition", "tooltip": ""},
-    "REL": {"icon": "🔗", "name": "Relation Extraction", "tooltip": ""},
-    "RML-CRF": {"icon": "😃", "name": "CRF RML", "tooltip": "CRF RML"},
-    "DIA-CRF": {"icon": "🏥", "name": "CRF Diagnosis", "tooltip": "CRF Diagnosis"},
-    "HIS-CRF": {"icon": "📝", "name": "CRF History", "tooltip": "CRF History"},
-    "NER-PHARMAER": {"icon": "🏷️", "name": "Named Entity Recognition over PharmaER.It Datasets", "tooltip": ""},
 }
@@ -896,7 +896,7 @@ def init_leaderboard(dataframe, default_selection=None, hidden_columns=None):
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
-            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languges: "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max = 100, default = [0,100], label="Select the number of parameters (B)"),
         ],
         bool_checkboxgroup_label="Evaluation Mode",
@@ -980,7 +980,7 @@ def update_task_leaderboard(dataframe, default_selection=None, hidden_columns=No
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
-            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languges:  "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max=100, default=[0, 100],
                          label="Select the number of parameters (B)"),
@@ -1080,8 +1080,8 @@ with demo:
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
-                default_selection=['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL", "RML-CRF", "DIA-CRF", "HIS-CRF", "NER-PHARMAER"],
-                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL", "RML-CRF", "DIA-CRF", "HIS-CRF", "NER-PHARMAER"]]
             )

       - lang in {EN, IT, SL, SK, GR, PL} or None/"All"
       - shot in {"0","10"} or None/"All" (mapped to IS_FS False/True)
     """
+    tasks = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA", "NER-PHA"]
     df = dataframe.copy()
     if lang and lang != "All" and "LANG" in df.columns:
     Table with the best overall model per task (NER, REL,) and the model that
     achieves the best score with its own best prompt.
     """
+    tasks = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA", "NER-PHA"]
     table_data = {'Task': [], 'Best Overall Model': [], 'CPS': [], 'Best Prompt Model': [], 'Acc.': []}
     for task in tasks:
       - lang: None or one of EN/IT/SL/SK/GR/PL (None means All)
       - shot: None or "0"/"10" (None means All) mapped to IS_FS False/True
     """
+    tasks = ["NER-E3C", "REL-E3C", "RML-CRF", "HIS-CRF", "DIA-CRF", "NER-PHA"]
     df = dataframe.copy()
     # Language filter
     for tasks NER and REL, with exactly 3 prompts (p1, p2, p3). It supports columns storing
     ids as integers (1/2/3) or strings ('p1'/'p2'/'p3').
     """
+    tasks = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA", "NER-PHA"]
     # Collect unique prompt ids as they appear (int or 'pX'); restrict to 3 prompts
     all_ids = set()
         float: media dei valori massimi dei campi
     """
     #fields = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
+    fields = ["NER-E3C", "REL-E3C", "CRF-RML", "CRF-DIA", "CRF-HIS", "NER-PHA"]
     #print(df.columns)
     # Controlla che tutte le colonne esistano nel DataFrame
 def barplot_mean_few_minus_zero_shot(dataframe, tasks=None):
     if tasks is None:
+        tasks = [ "NER-E3C", "REL-E3C", "RML-CRF", "DIA-CRF", "HIS-CRF","NER-PHA"]
     task_means = {}
     #print(dataframe.columns)
     #tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER", "REL"]
+    tasks =["NER-E3C", "REL-E3C", "CRF-RML", "CRF-HIS", "CRF-DIA" , "NER-PHA"]
     if dataframe is None:
         np.random.seed(42)
         dataframe = pd.DataFrame({
 def boxplot_prompts_per_task(dataframe, tasks=None):
     if tasks is None:
+        tasks = ["TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER-E3C", "REL-E3C"]
     # Lista delle colonne da aggiornare
     cols_to_update = ["REL Best Prompt Id", "NER Best Prompt Id", "SU Best Prompt Id", "LS Best Prompt Id"]
 # Define task metadata (icons, names, descriptions)
 TASK_METADATA_GENERATIVE = {
+    "NER-E3C": {"icon": "🏷️", "name": "Named Entity Recognition", "tooltip": ""},
+    "REL-E3C": {"icon": "🔗", "name": "Relation Extraction", "tooltip": ""},
+    "CRF-RML": {"icon": "🔗", "name": "CRF RML", "tooltip": "CRF RML"},
+    "CRF-DIA": {"icon": "🏥", "name": "CRF Diagnosis", "tooltip": "CRF Diagnosis"},
+    "CRF-HIS": {"icon": "📝", "name": "CRF History", "tooltip": "CRF History"},
+    "NER-PHA": {"icon": "🏷️", "name": "Named Entity Recognition over PharmaER.It Datasets", "tooltip": ""},
 }
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
+            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languages: "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max = 100, default = [0,100], label="Select the number of parameters (B)"),
         ],
         bool_checkboxgroup_label="Evaluation Mode",
         hide_columns=hidden_columns or [c.name for c in field_list if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.fewshot_symbol.name, type="checkboxgroup", label="N-Shot Learning (FS): "),
+            ColumnFilter(AutoEvalColumn.LANG.name, type="checkboxgroup", label="Languages:  "),
             ColumnFilter(AutoEvalColumn.params.name, type="slider", min=0, max=100, default=[0, 100],
                          label="Select the number of parameters (B)"),
             leaderboard = init_leaderboard(
                 LEADERBOARD_DF,
+                default_selection=['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER-E3C", "REL-E3C", "CRF-RML", "CRF-DIA", "CRF-HIS", "NER-PHA"],
+                hidden_columns=[col for col in LEADERBOARD_DF.columns if col not in ['Rank', 'Size', 'LANG', 'FS', 'Model', "Avg. Comb. Perf. ⬆️", "TE", "SA", "HS", "AT", "WIC", "FAQ", "LS", "SU", "NER-E3C", "REL-E3C", "CRF-RML", "CRF-DIA", "CRF-HIS", "NER-PHA"]]
             )

src/__pycache__/about.cpython-310.pyc CHANGED Viewed

Binary files a/src/__pycache__/about.cpython-310.pyc and b/src/__pycache__/about.cpython-310.pyc differ

src/about.py CHANGED Viewed

@@ -72,43 +72,43 @@ class Tasks(Enum):
     #task48 = Task("relation-extraction_5", "acc", "std_accuracy", "REL Prompt Std")
     #task49 = Task("relation-extraction_3", "acc", "best_prompt", "REL Best Prompt")
     #task50 = Task("relation-extraction_4", "acc", "prompt_id", "REL Best Prompt Id")
-    task1 = Task("RE_1", "acc", "CPS", "REL")
-    task2 = Task("RE_2", "acc", "average_accuracy", "REL Prompt Average")
-    task3 = Task("RE_5", "acc", "std_accuracy", "REL Prompt Std")
-    task4 = Task("RE_3", "acc", "best_prompt", "REL Best Prompt")
-    task5 = Task("RE_4", "acc", "prompt_id", "REL Best Prompt Id")
-    task6 = Task("NER_1", "acc", "CPS", "NER")
-    task7 = Task("NER_2", "acc", "average_accuracy", "NER Prompt Average")
-    task8 = Task("NER_3", "acc", "std_accuracy", "NER Prompt Std")
-    task9 = Task("NER_4", "acc", "best_prompt", "NER Best Prompt")
-    task10 = Task("NER_5", "acc", "prompt_id", "NER Best Prompt Id")
-    task11 = Task("RML-CRF_1", "acc", "CPS", "RML-CRF")
-    task12 = Task("RML-CRF_2", "acc", "average_accuracy", "RML-CRF Prompt Average")
-    task13 = Task("RML-CRF_3", "acc", "std_accuracy", "RML-CRF Prompt Std")
-    task14 = Task("RML-CRF_4", "acc", "best_prompt", "RML-CRF Best Prompt")
-    task15 = Task("RML-CRF_5", "acc", "prompt_id", "RML-CRF Best Prompt Id")
-    task16 = Task("DIA-CRF_1", "acc", "CPS", "DIA-CRF")
-    task17 = Task("DIA-CRF_2", "acc", "average_accuracy", "DIA-CRF Prompt Average")
-    task18 = Task("DIA-CRF_3", "acc", "std_accuracy", "DIA-CRF Prompt Std")
-    task19 = Task("DIA-CRF_4", "acc", "best_prompt", "DIA-CRF Best Prompt")
-    task20 = Task("DIA-CRF_5", "acc", "prompt_id", "DIA-CRF Best Prompt Id")
-    task21 = Task("HIS-CRF_1", "acc", "CPS", "HIS-CRF")
-    task22 = Task("HIS-CRF_2", "acc", "average_accuracy", "HIS-CRF Prompt Average")
-    task23 = Task("HIS-CRF_3", "acc", "std_accuracy", "HIS-CRF Prompt Std")
-    task24 = Task("HIS-CRF_4", "acc", "best_prompt", "HIS-CRF Best Prompt")
-    task25 = Task("HIS-CRF_5", "acc", "prompt_id", "HIS-CRF Best Prompt Id")
-    task26 = Task("NER-PHARMAER_1", "acc", "CPS", "NER-PHARMAER")
-    task27 = Task("NER-PHARMAER_2", "acc", "average_accuracy", "NER-PHARMAER Prompt Average")
-    task28 = Task("NER-PHARMAER_3", "acc", "std_accuracy", "NER-PHARMAER Prompt Std")
-    task29 = Task("NER-PHARMAER_4", "acc", "best_prompt", "NER-PHARMAER Best Prompt")
-    task30 = Task("NER-PHARMAER_5", "acc", "prompt_id", "NER-PHARMAER Best Prompt Id")
     '''
     task0 = Task("TextualEntailment", "acc", "Textual Entailment")

     #task48 = Task("relation-extraction_5", "acc", "std_accuracy", "REL Prompt Std")
     #task49 = Task("relation-extraction_3", "acc", "best_prompt", "REL Best Prompt")
     #task50 = Task("relation-extraction_4", "acc", "prompt_id", "REL Best Prompt Id")
+    task1 = Task("RE_1", "acc", "CPS", "REL-E3C")
+    task2 = Task("RE_2", "acc", "average_accuracy", "REL-E3C Prompt Average")
+    task3 = Task("RE_5", "acc", "std_accuracy", "REL-E3C Prompt Std")
+    task4 = Task("RE_3", "acc", "best_prompt", "REL-E3C Best Prompt")
+    task5 = Task("RE_4", "acc", "prompt_id", "REL-E3C Best Prompt Id")
+    task6 = Task("NER_1", "acc", "CPS", "NER-E3C")
+    task7 = Task("NER_2", "acc", "average_accuracy", "NER-E3C Prompt Average")
+    task8 = Task("NER_3", "acc", "std_accuracy", "NER-E3C Prompt Std")
+    task9 = Task("NER_4", "acc", "best_prompt", "NER-E3C Best Prompt")
+    task10 = Task("NER_5", "acc", "prompt_id", "NER-E3C Best Prompt Id")
+    task11 = Task("RML-CRF_1", "acc", "CPS", "CRF-RML")
+    task12 = Task("RML-CRF_2", "acc", "average_accuracy", "CRF-RML Prompt Average")
+    task13 = Task("RML-CRF_3", "acc", "std_accuracy", "CRF-RML Prompt Std")
+    task14 = Task("RML-CRF_4", "acc", "best_prompt", "CRF-RML Best Prompt")
+    task15 = Task("RML-CRF_5", "acc", "prompt_id", "CRF-RML Best Prompt Id")
+    task16 = Task("DIA-CRF_1", "acc", "CPS", "CRF-DIA")
+    task17 = Task("DIA-CRF_2", "acc", "average_accuracy", "CRF-DIA Prompt Average")
+    task18 = Task("DIA-CRF_3", "acc", "std_accuracy", "CRF-DIA Prompt Std")
+    task19 = Task("DIA-CRF_4", "acc", "best_prompt", "CRF-DIA Best Prompt")
+    task20 = Task("DIA-CRF_5", "acc", "prompt_id", "CRF-DIA Best Prompt Id")
+    task21 = Task("HIS-CRF_1", "acc", "CPS", "CRF-HIS")
+    task22 = Task("HIS-CRF_2", "acc", "average_accuracy", "CRF-HIS Prompt Average")
+    task23 = Task("HIS-CRF_3", "acc", "std_accuracy", "CRF-HIS Prompt Std")
+    task24 = Task("HIS-CRF_4", "acc", "best_prompt", "CRF-HIS Best Prompt")
+    task25 = Task("HIS-CRF_5", "acc", "prompt_id", "CRF-HIS Best Prompt Id")
+    task26 = Task("NER-PHARMAER_1", "acc", "CPS", "NER-PHA")
+    task27 = Task("NER-PHARMAER_2", "acc", "average_accuracy", "NER-PHA Prompt Average")
+    task28 = Task("NER-PHARMAER_3", "acc", "std_accuracy", "NER-PHA Prompt Std")
+    task29 = Task("NER-PHARMAER_4", "acc", "best_prompt", "NER-PHA Best Prompt")
+    task30 = Task("NER-PHARMAER_5", "acc", "prompt_id", "NER-PHA Best Prompt Id")
     '''
     task0 = Task("TextualEntailment", "acc", "Textual Entailment")