Spaces:

whitecircle-ai
/

circle-guard-bench

Running

App Files Files Community

apsys commited on Apr 25

Commit

7012feb

1 Parent(s): 4bcb70a

mode

Browse files

Files changed (2) hide show

app.py +11 -2
src/display/utils.py +25 -25

app.py CHANGED Viewed

@@ -13,7 +13,7 @@ import plotly.graph_objects as go
 from apscheduler.schedulers.background import BackgroundScheduler
 import numpy as np
 from gradio.themes.utils import fonts, colors
-from dataclasses import fields, ColumnInfo
 from src.about import (
     CITATION_BUTTON_LABEL,
@@ -148,7 +148,16 @@ custom_theme = gr.themes.Default(
     block_border_color_dark="#333333",            # Cooler Grey
 )
-# Define the update_column_choices function before initializing the leaderboard components
 def update_column_choices(df):
     """Update column choices based on what's actually in the dataframe"""
     if df is None or df.empty:

 from apscheduler.schedulers.background import BackgroundScheduler
 import numpy as np
 from gradio.themes.utils import fonts, colors
+from dataclasses import fields, dataclass
 from src.about import (
     CITATION_BUTTON_LABEL,
     block_border_color_dark="#333333",            # Cooler Grey
 )
+@dataclass
+class ColumnInfo:
+    """Information about a column in the leaderboard."""
+    name: str
+    display_name: str
+    type: str = "text"
+    hidden: bool = False
+    never_hidden: bool = False
+    displayed_by_default: bool = True
 def update_column_choices(df):
     """Update column choices based on what's actually in the dataframe"""
     if df is None or df.empty:

src/display/utils.py CHANGED Viewed

@@ -109,7 +109,7 @@ class GuardBenchColumn:
     ))
     submission_date: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="submission_date",
-        display_name="Submission Date",
         displayed_by_default=False
     ))
     version: ColumnInfo = field(default_factory=lambda: ColumnInfo(
@@ -146,37 +146,37 @@ class GuardBenchColumn:
     # Default prompts metrics
     default_prompts_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_f1_binary",
-        display_name="Default Prompts F1 Binary",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_f1",
-        display_name="Default Prompts F1",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_recall_binary",
-        display_name="Default Prompts Recall",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_precision_binary",
-        display_name="Default Prompts Precision",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_error_ratio",
-        display_name="Default Prompts Error Ratio",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_avg_runtime_ms",
-        display_name="Default Prompts Avg Runtime (ms)",
         type="number",
         displayed_by_default=False
     ))
@@ -184,37 +184,37 @@ class GuardBenchColumn:
     # Jailbreaked prompts metrics
     jailbreaked_prompts_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_f1_binary",
-        display_name="Jailbreaked Prompts F1 Binary",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_f1",
-        display_name="Jailbreaked Prompts F1",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_recall_binary",
-        display_name="Jailbreaked Prompts Recall",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_precision_binary",
-        display_name="Jailbreaked Prompts Precision",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_error_ratio",
-        display_name="Jailbreaked Prompts Error Ratio",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_avg_runtime_ms",
-        display_name="Jailbreaked Prompts Avg Runtime (ms)",
         type="number",
         displayed_by_default=False
     ))
@@ -222,37 +222,37 @@ class GuardBenchColumn:
     # Default answers metrics
     default_answers_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_f1_binary",
-        display_name="Default Answers F1 Binary",
         type="number",
         displayed_by_default=False
     ))
     default_answers_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_f1",
-        display_name="Default Answers F1",
         type="number",
         displayed_by_default=False
     ))
     default_answers_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_recall_binary",
-        display_name="Default Answers Recall",
         type="number",
         displayed_by_default=False
     ))
     default_answers_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_precision_binary",
-        display_name="Default Answers Precision",
         type="number",
         displayed_by_default=False
     ))
     default_answers_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_error_ratio",
-        display_name="Default Answers Error Ratio",
         type="number",
         displayed_by_default=False
     ))
     default_answers_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_avg_runtime_ms",
-        display_name="Default Answers Avg Runtime (ms)",
         type="number",
         displayed_by_default=False
     ))
@@ -260,37 +260,37 @@ class GuardBenchColumn:
     # Jailbreaked answers metrics
     jailbreaked_answers_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_f1_binary",
-        display_name="Jailbreaked Answers F1 Binary",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_f1",
-        display_name="Jailbreaked Answers F1",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_recall_binary",
-        display_name="Jailbreaked Answers Recall",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_precision_binary",
-        display_name="Jailbreaked Answers Precision",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_error_ratio",
-        display_name="Jailbreaked Answers Error Ratio",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_avg_runtime_ms",
-        display_name="Jailbreaked Answers Avg Runtime (ms)",
         type="number",
         displayed_by_default=False
     ))

     ))
     submission_date: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="submission_date",
+        display_name="Submission_Date",
         displayed_by_default=False
     ))
     version: ColumnInfo = field(default_factory=lambda: ColumnInfo(
     # Default prompts metrics
     default_prompts_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_f1_binary",
+        display_name="Default_Prompts_F1_Binary",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_f1",
+        display_name="Default_Prompts_F1",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_recall_binary",
+        display_name="Default_Prompts_Recall",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_precision_binary",
+        display_name="Default_Prompts_Precision",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_error_ratio",
+        display_name="Default_Prompts_Error_Ratio",
         type="number",
         displayed_by_default=False
     ))
     default_prompts_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_prompts_avg_runtime_ms",
+        display_name="Default_Prompts_Avg_Runtime_ms",
         type="number",
         displayed_by_default=False
     ))
     # Jailbreaked prompts metrics
     jailbreaked_prompts_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_f1_binary",
+        display_name="Jailbreaked_Prompts_F1_Binary",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_f1",
+        display_name="Jailbreaked_Prompts_F1",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_recall_binary",
+        display_name="Jailbreaked_Prompts_Recall",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_precision_binary",
+        display_name="Jailbreaked_Prompts_Precision",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_error_ratio",
+        display_name="Jailbreaked_Prompts_Error_Ratio",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_prompts_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_prompts_avg_runtime_ms",
+        display_name="Jailbreaked_Prompts_Avg_Runtime_ms",
         type="number",
         displayed_by_default=False
     ))
     # Default answers metrics
     default_answers_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_f1_binary",
+        display_name="Default_Answers_F1_Binary",
         type="number",
         displayed_by_default=False
     ))
     default_answers_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_f1",
+        display_name="Default_Answers_F1",
         type="number",
         displayed_by_default=False
     ))
     default_answers_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_recall_binary",
+        display_name="Default_Answers_Recall",
         type="number",
         displayed_by_default=False
     ))
     default_answers_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_precision_binary",
+        display_name="Default_Answers_Precision",
         type="number",
         displayed_by_default=False
     ))
     default_answers_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_error_ratio",
+        display_name="Default_Answers_Error_Ratio",
         type="number",
         displayed_by_default=False
     ))
     default_answers_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="default_answers_avg_runtime_ms",
+        display_name="Default_Answers_Avg_Runtime_ms",
         type="number",
         displayed_by_default=False
     ))
     # Jailbreaked answers metrics
     jailbreaked_answers_f1_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_f1_binary",
+        display_name="Jailbreaked_Answers_F1_Binary",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_f1: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_f1",
+        display_name="Jailbreaked_Answers_F1",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_recall_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_recall_binary",
+        display_name="Jailbreaked_Answers_Recall",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_precision_binary: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_precision_binary",
+        display_name="Jailbreaked_Answers_Precision",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_error_ratio: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_error_ratio",
+        display_name="Jailbreaked_Answers_Error_Ratio",
         type="number",
         displayed_by_default=False
     ))
     jailbreaked_answers_avg_runtime_ms: ColumnInfo = field(default_factory=lambda: ColumnInfo(
         name="jailbreaked_answers_avg_runtime_ms",
+        display_name="Jailbreaked_Answers_Avg_Runtime_ms",
         type="number",
         displayed_by_default=False
     ))