Spaces:

autogenCTF
/

agent_ctf_leaderboard

Running

App Files Files Community

bhys commited on Jun 15, 2024

Commit

b7695f0

verified ·

1 Parent(s): e2800b2

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -29

app.py CHANGED Viewed

@@ -73,16 +73,17 @@ def get_dataframe_from_results(eval_results, split):
     local_df = local_df.remove_columns(["url"])
     local_df = local_df.rename_column("model", "Model name")
     local_df = local_df.rename_column("model_family", "Model family")
-    # local_df = local_df.rename_column("score", "Average score (%)")
-    # for i in [1, 2, 3]:
-    #     local_df = local_df.rename_column(f"score_level{i}", f"Level {i} score (%)")
     df = pd.DataFrame(local_df)
     df = df.sort_values(by=["completion_level"], ascending=False)
-    numeric_cols = [c for c in local_df.column_names
-                    if c in ["success_rate", "completion_level"]]
-    df[numeric_cols] = df[numeric_cols].multiply(100).round(decimals=2)
-    df = df.style.format("{:.2%}", subset=numeric_cols)
     return df
@@ -103,20 +104,6 @@ TYPES = ["markdown", "str", "str", "str", "number", "number", "number", "number"
 LEVELS = ["all", 1, 2, 3]
-def round_and_pad(number, ndigits=2):
-    # 四舍五入到指定的小数位数
-    rounded_number = round(number, ndigits)
-    # 转换为字符串
-    number_str = str(rounded_number)
-    # 分离整数部分和小数部分
-    integer_part, decimal_part = number_str.split('.')
-    # 如果小数部分不足指定的位数，补零
-    while len(decimal_part) < ndigits:
-        decimal_part += '0'
-    # 拼接回去，并转换回数字
-    return '.'.join([integer_part, decimal_part])
 def add_new_eval(
         dataset_version: str,
         model: str,
@@ -156,7 +143,6 @@ def add_new_eval(
     comprehension = {'all': 0, 1: 0, 2: 0, 3: 0}
     num = {'all': 0, 1: 0, 2: 0, 3: 0}
-    # with open(f"scored/{organisation}_{model}.jsonl", "w") as scored_file:
     with open(f"scored/{organisation}_{model}.jsonl", "w") as scored_file:
         with open(file_path, 'r') as f:
             for ix, line in enumerate(f):
@@ -173,7 +159,8 @@ def add_new_eval(
                     level = int(gold_results[val_or_test][task_name]["Level"])
                     score = question_scorer(task, gold_results[val_or_test][task_name])
                 except KeyError:
-                    return format_error(f"{task_name} not found in split {val_or_test}. Are you sure you submitted the correct file?")
                 scored_file.write(
                     json.dumps({
@@ -201,11 +188,11 @@ def add_new_eval(
                     success_rate['all'] += 1
         for key in LEVELS:
-            success_rate[key] = round_and_pad(success_rate[key] / num[key] / 100)
-            completion_level[key] = round_and_pad(completion_level[key] / num[key] / 1000)
-            expertise[key] = round_and_pad(expertise[key] / num[key])
-            reasoning[key] = round_and_pad(reasoning[key] / num[key])
-            comprehension[key] = round_and_pad(comprehension[key] / num[key])
         print(success_rate, completion_level, expertise, reasoning, comprehension)
@@ -265,7 +252,8 @@ def refresh():
             dataset_version,
             token=TOKEN,
             download_mode="force_redownload",
-            verification_mode="no_checks"
         )
     new_eval_dataframe = {}

     local_df = local_df.remove_columns(["url"])
     local_df = local_df.rename_column("model", "Model name")
     local_df = local_df.rename_column("model_family", "Model family")
     df = pd.DataFrame(local_df)
     df = df.sort_values(by=["completion_level"], ascending=False)
+    numeric_cols = [c for c in local_df.column_names if c in ["expertise", "reasoning", "comprehension"]]
+    df[numeric_cols] = df[numeric_cols].round(decimals=2)
+    percent_cols = [c for c in local_df.column_names if c in ["success_rate", "completion_level"]]
+    df = df.style.format("{:.2%}", subset=percent_cols)
+    df = df[["Model name", "Model family", "organisation", "completion_level", "success_rate", "expertise", "reasoning",
+             "comprehension"]]
     return df
 LEVELS = ["all", 1, 2, 3]
 def add_new_eval(
         dataset_version: str,
         model: str,
     comprehension = {'all': 0, 1: 0, 2: 0, 3: 0}
     num = {'all': 0, 1: 0, 2: 0, 3: 0}
     with open(f"scored/{organisation}_{model}.jsonl", "w") as scored_file:
         with open(file_path, 'r') as f:
             for ix, line in enumerate(f):
                     level = int(gold_results[val_or_test][task_name]["Level"])
                     score = question_scorer(task, gold_results[val_or_test][task_name])
                 except KeyError:
+                    return format_error(
+                        f"{task_name} not found in split {val_or_test}. Are you sure you submitted the correct file?")
                 scored_file.write(
                     json.dumps({
                     success_rate['all'] += 1
         for key in LEVELS:
+            success_rate[key] = success_rate[key] / num[key]
+            completion_level[key] = completion_level[key] / num[key] / 10
+            expertise[key] = expertise[key] / num[key]
+            reasoning[key] = reasoning[key] / num[key]
+            comprehension[key] = comprehension[key] / num[key]
         print(success_rate, completion_level, expertise, reasoning, comprehension)
             dataset_version,
             token=TOKEN,
             download_mode="force_redownload",
+            verification_mode="no_checks",
+            trust_remote_code=True
         )
     new_eval_dataframe = {}