Spaces:

MERaLiON
/

SeaEval_Leaderboard

Running

App Files Files Community

binwang commited on Jan 19, 2024

Commit

7d66eb7

1 Parent(s): b383046

new

Browse files

Files changed (1) hide show

app.py +0 -45

app.py CHANGED Viewed

@@ -9,10 +9,8 @@ from statistics import median
 print("Loading datasets...")
 # =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
 def add_rank(df, compute_average=True):
     cols_to_rank = [col for col in df.columns if col not in ["Model", "Model Size (Params)", "Embedding Dimensions", "Sequence Length"]]
     if len(cols_to_rank) == 1:
@@ -78,7 +76,6 @@ def get_data_cross_mmlu_overall(eval_mode='zero_shot', fillna=True, rank=True):
             AC3_3 = median(AC3_3)
         except:
-            print(results_list)
             consistency_score_3 = -1
             overall_acc = -1
             AC3_3 = -1
@@ -146,7 +143,6 @@ def get_data_cross_mmlu_language(eval_mode='zero_shot', fillna=True, rank=True):
         except:
-            print(results_list)
             English = -1
             Vietnamese = -1
             Chinese = -1
@@ -219,7 +215,6 @@ def get_data_cross_logiqa_overall(eval_mode='zero_shot', fillna=True, rank=True)
             AC3_3 = median(AC3_3)
         except:
-            print(results_list)
             consistency_score_3 = -1
             overall_acc = -1
             AC3_3 = -1
@@ -287,7 +282,6 @@ def get_data_cross_logiqa_language(eval_mode='zero_shot', fillna=True, rank=True
         except:
-            print(results_list)
             English = -1
             Vietnamese = -1
             Chinese = -1
@@ -351,7 +345,6 @@ def get_data_sg_eval(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
         res = {
@@ -404,7 +397,6 @@ def get_data_us_eval(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -458,7 +450,6 @@ def get_data_cn_eval(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -512,7 +503,6 @@ def get_data_ph_eval(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -566,7 +556,6 @@ def get_data_sing2eng(eval_mode='zero_shot', fillna=True, rank=True):
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
-            print(results_list)
             bleu_score = -1
@@ -619,7 +608,6 @@ def get_data_flores_ind2eng(eval_mode='zero_shot', fillna=True, rank=True):
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
-            print(results_list)
             bleu_score = -1
@@ -674,7 +662,6 @@ def get_data_flores_vie2eng(eval_mode='zero_shot', fillna=True, rank=True):
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
-            print(results_list)
             bleu_score = -1
@@ -727,7 +714,6 @@ def get_data_flores_zho2eng(eval_mode='zero_shot', fillna=True, rank=True):
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
-            print(results_list)
             bleu_score = -1
@@ -781,7 +767,6 @@ def get_data_flores_zsm2eng(eval_mode='zero_shot', fillna=True, rank=True):
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
-            print(results_list)
             bleu_score = -1
@@ -835,7 +820,6 @@ def get_data_mmlu(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -890,7 +874,6 @@ def get_data_mmlu_full(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -944,7 +927,6 @@ def get_data_c_eval(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -998,7 +980,6 @@ def get_data_c_eval_full(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1054,7 +1035,6 @@ def get_data_cmmlu(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1112,7 +1092,6 @@ def get_data_cmmlu_full(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1167,7 +1146,6 @@ def get_data_zbench(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1222,7 +1200,6 @@ def get_data_ind_emotion(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1278,7 +1255,6 @@ def get_data_ocnli(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1333,7 +1309,6 @@ def get_data_c3(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1388,7 +1363,6 @@ def get_data_dream(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1445,7 +1419,6 @@ def get_data_samsum(eval_mode='zero_shot', fillna=True, rank=True):
             rougeL = median([results['rougeL'] for results in results_list])
         except:
-            print(results_list)
             rouge1 = -1
             rouge2 = -1
             rougeL = -1
@@ -1505,7 +1478,6 @@ def get_data_dialogsum(eval_mode='zero_shot', fillna=True, rank=True):
             rougeL = median([results['rougeL'] for results in results_list])
         except:
-            print(results_list)
             rouge1 = -1
             rouge2 = -1
             rougeL = -1
@@ -1565,7 +1537,6 @@ def get_data_sst2(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1621,7 +1592,6 @@ def get_data_cola(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1678,7 +1648,6 @@ def get_data_qqp(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1735,7 +1704,6 @@ def get_data_mnli(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1792,7 +1760,6 @@ def get_data_qnli(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1849,7 +1816,6 @@ def get_data_wnli(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1906,7 +1872,6 @@ def get_data_rte(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -1964,7 +1929,6 @@ def get_data_mrpc(eval_mode='zero_shot', fillna=True, rank=True):
             accuracy = median([results['accuracy'] for results in results_list])
         except:
-            print(results_list)
             accuracy = -1
@@ -3052,15 +3016,6 @@ with block:
     gr.Markdown(r"""
     If this work is useful to you, please citing our work:

 print("Loading datasets...")
 # =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
 def add_rank(df, compute_average=True):
     cols_to_rank = [col for col in df.columns if col not in ["Model", "Model Size (Params)", "Embedding Dimensions", "Sequence Length"]]
     if len(cols_to_rank) == 1:
             AC3_3 = median(AC3_3)
         except:
             consistency_score_3 = -1
             overall_acc = -1
             AC3_3 = -1
         except:
             English = -1
             Vietnamese = -1
             Chinese = -1
             AC3_3 = median(AC3_3)
         except:
             consistency_score_3 = -1
             overall_acc = -1
             AC3_3 = -1
         except:
             English = -1
             Vietnamese = -1
             Chinese = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
         res = {
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
             bleu_score = -1
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
             bleu_score = -1
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
             bleu_score = -1
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
             bleu_score = -1
             bleu_score = median([results['bleu_score'] for results in results_list])
         except:
             bleu_score = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             rougeL = median([results['rougeL'] for results in results_list])
         except:
             rouge1 = -1
             rouge2 = -1
             rougeL = -1
             rougeL = median([results['rougeL'] for results in results_list])
         except:
             rouge1 = -1
             rouge2 = -1
             rougeL = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
             accuracy = median([results['accuracy'] for results in results_list])
         except:
             accuracy = -1
     gr.Markdown(r"""
     If this work is useful to you, please citing our work: