PandaGuard-leaderboard

Running

App Files Files Community

xianghe commited on Nov 26, 2025

Commit

96efaf9

1 Parent(s): fb82abb

update

Browse files

Files changed (7) hide show

app.py +139 -27
figs/PAIR_llama_attack_model.jpg +3 -0
figs/PAIR_llama_defense_model.jpg +3 -0
figs/PAIR_qwen_attack_model.jpg +3 -0
figs/PAIR_qwen_defense_model.jpg +3 -0
figs/attack_model_heatmap.jpg +3 -0
figs/defense_model_heatmap.jpg +3 -0

app.py CHANGED Viewed

@@ -460,13 +460,35 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
         background-color: #FFF0E6 !important;
     }
-    /* 悬停效果 */
-    table tbody tr:hover,
-    table tbody tr:hover > *,
-    .dataframe tbody tr:hover,
-    .dataframe tbody tr:hover > * {
         background-color: #E8F4F8 !important;
     }
 """) as app:
     # 预加载数据
     print("Preloading data...")
@@ -511,41 +533,27 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
                 - **PAIR_gpt-4o**: PAIR attack using GPT-4o
                 - **PAIR_Qwen**: PAIR attack using Qwen model
                 - **PAIR_meta-llama**: PAIR attack using Llama model
-                ### Scoring:
-                Lower scores indicate better resistance to jailbreak attempts.
                 ---
                 """
             )
-            with gr.Row():
-                with gr.Column():
-                    gr.Markdown("### 📈 GCG Attack Model Visualization")
-                    gr.Image(
-                        value="./figs/GCG_attack_model.jpg",
-                        label="GCG Attack Model",
-                        show_label=False,
-                        interactive=False
-                    )
-                with gr.Column():
-                    gr.Markdown("### 📈 GCG Defense Model Visualization")
-                    gr.Image(
-                        value="./figs/GCG_defense_model.jpg",
-                        label="GCG Defense Model",
-                        show_label=False,
-                        interactive=False
-                    )
         with gr.Tab("🤖 Model View"):
             gr.Markdown("### Compare how models perform against various evaluation methods")
             model_checkbox = gr.CheckboxGroup(
                 choices=get_unique_models(),
                 label="📋 Select Models",
                 value=get_unique_models()
             )
             jailbreak_type_checkbox = gr.CheckboxGroup(
                 choices=get_unique_jailbreak_types(),
                 label="🎯 Select Jailbreak Types",
@@ -559,6 +567,24 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
                 return filter_by_model(models, jailbreak_types)
             for component in [model_checkbox, jailbreak_type_checkbox]:
                 component.change(
                     fn=update_model_view,
@@ -575,6 +601,10 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
         with gr.Tab("⚔️ Attack View"):
             gr.Markdown("### Compare attack methods across different models")
             attack_checkbox = gr.CheckboxGroup(
                 choices=get_attack_methods(),
                 label="🎯 Select Attack Methods",
@@ -594,6 +624,16 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
                 return filter_by_attack(attacks, [eval_method])
             for component in [attack_checkbox, evaluation_method_radio]:
                 component.change(
                     fn=update_attack_view,
@@ -607,9 +647,42 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
                 outputs=attack_table
             )
         with gr.Tab("🛡️ Defense View"):
             gr.Markdown("### Compare defense methods against different attacks")
             defense_checkbox = gr.CheckboxGroup(
                 choices=get_defense_methods(),
                 label="🛡️ Select Defense Methods",
@@ -629,6 +702,16 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
                 return filter_by_defense(defenses, [eval_method])
             for component in [defense_checkbox, evaluation_method_radio_defense]:
                 component.change(
                     fn=update_defense_view,
@@ -642,6 +725,35 @@ with gr.Blocks(title="Jailbreak Attack Results Leaderboard", css="""
                 outputs=defense_table
             )
         with gr.Tab("📊 Jailbreak Type View"):
             gr.Markdown("### Comprehensive statistics across all dimensions")

         background-color: #FFF0E6 !important;
     }
+    /* 悬停效果 - 只对第4名及以后生效 */
+    table tbody tr:nth-child(n+4):hover,
+    table tbody tr:nth-child(n+4):hover > *,
+    .dataframe tbody tr:nth-child(n+4):hover,
+    .dataframe tbody tr:nth-child(n+4):hover > * {
         background-color: #E8F4F8 !important;
     }
+    /* 前三名悬停时保持原背景色 */
+    table tbody tr:nth-child(1):hover,
+    table tbody tr:nth-child(1):hover > *,
+    .dataframe tbody tr:nth-child(1):hover,
+    .dataframe tbody tr:nth-child(1):hover > * {
+        background-color: #FFF9E6 !important;
+    }
+    table tbody tr:nth-child(2):hover,
+    table tbody tr:nth-child(2):hover > *,
+    .dataframe tbody tr:nth-child(2):hover,
+    .dataframe tbody tr:nth-child(2):hover > * {
+        background-color: #F5F5F5 !important;
+    }
+    table tbody tr:nth-child(3):hover,
+    table tbody tr:nth-child(3):hover > *,
+    .dataframe tbody tr:nth-child(3):hover,
+    .dataframe tbody tr:nth-child(3):hover > * {
+        background-color: #FFF0E6 !important;
+    }
 """) as app:
     # 预加载数据
     print("Preloading data...")
                 - **PAIR_gpt-4o**: PAIR attack using GPT-4o
                 - **PAIR_Qwen**: PAIR attack using Qwen model
                 - **PAIR_meta-llama**: PAIR attack using Llama model
                 ---
                 """
             )
         with gr.Tab("🤖 Model View"):
             gr.Markdown("### Compare how models perform against various evaluation methods")
+            with gr.Row():
+                model_select_all = gr.Button("✓ Select All Models", size="sm")
+                model_clear_all = gr.Button("✗ Clear All Models", size="sm")
             model_checkbox = gr.CheckboxGroup(
                 choices=get_unique_models(),
                 label="📋 Select Models",
                 value=get_unique_models()
             )
+            with gr.Row():
+                jailbreak_select_all = gr.Button("✓ Select All Jailbreak Types", size="sm")
+                jailbreak_clear_all = gr.Button("✗ Clear All Jailbreak Types", size="sm")
             jailbreak_type_checkbox = gr.CheckboxGroup(
                 choices=get_unique_jailbreak_types(),
                 label="🎯 Select Jailbreak Types",
                 return filter_by_model(models, jailbreak_types)
+            # 全选/取消全选按钮事件
+            model_select_all.click(
+                fn=lambda: get_unique_models(),
+                outputs=model_checkbox
+            )
+            model_clear_all.click(
+                fn=lambda: [],
+                outputs=model_checkbox
+            )
+            jailbreak_select_all.click(
+                fn=lambda: get_unique_jailbreak_types(),
+                outputs=jailbreak_type_checkbox
+            )
+            jailbreak_clear_all.click(
+                fn=lambda: [],
+                outputs=jailbreak_type_checkbox
+            )
             for component in [model_checkbox, jailbreak_type_checkbox]:
                 component.change(
                     fn=update_model_view,
         with gr.Tab("⚔️ Attack View"):
             gr.Markdown("### Compare attack methods across different models")
+            with gr.Row():
+                attack_select_all = gr.Button("✓ Select All Attacks", size="sm")
+                attack_clear_all = gr.Button("✗ Clear All Attacks", size="sm")
             attack_checkbox = gr.CheckboxGroup(
                 choices=get_attack_methods(),
                 label="🎯 Select Attack Methods",
                 return filter_by_attack(attacks, [eval_method])
+            # 全选/取消全选按钮事件
+            attack_select_all.click(
+                fn=lambda: get_attack_methods(),
+                outputs=attack_checkbox
+            )
+            attack_clear_all.click(
+                fn=lambda: [],
+                outputs=attack_checkbox
+            )
             for component in [attack_checkbox, evaluation_method_radio]:
                 component.change(
                     fn=update_attack_view,
                 outputs=attack_table
             )
+            with gr.Row():
+                with gr.Column():
+                    gr.Markdown("### 📈 Attack Model Visualization (rule-based GCG judge) ")
+                    gr.Image(
+                        value="./figs/GCG_attack_model.jpg",
+                        interactive=True
+                    )
+                with gr.Column():
+                    gr.Markdown("### 📈 Attack Model Visualization (gpt-4o-based PAIR judge)")
+                    gr.Image(
+                        value="./figs/attack_model_heatmap.jpg",
+                        interactive=True
+                    )
+                with gr.Column():
+                    gr.Markdown("### 📈 Attack Model Visualization (Llama-3.3-70B-based PAIR judge) ")
+                    gr.Image(
+                        value="./figs/PAIR_llama_attack_model.jpg",
+                        interactive=True
+                    )
+                with gr.Column():
+                    gr.Markdown("### 📈 Attack Model Visualization (Qwen2.5-72B-based PAIR judge)")
+                    gr.Image(
+                        value="./figs/PAIR_qwen_attack_model.jpg",
+                        interactive=True
+                    )
         with gr.Tab("🛡️ Defense View"):
             gr.Markdown("### Compare defense methods against different attacks")
+            with gr.Row():
+                defense_select_all = gr.Button("✓ Select All Defenses", size="sm")
+                defense_clear_all = gr.Button("✗ Clear All Defenses", size="sm")
             defense_checkbox = gr.CheckboxGroup(
                 choices=get_defense_methods(),
                 label="🛡️ Select Defense Methods",
                 return filter_by_defense(defenses, [eval_method])
+            # 全选/取消全选按钮事件
+            defense_select_all.click(
+                fn=lambda: get_defense_methods(),
+                outputs=defense_checkbox
+            )
+            defense_clear_all.click(
+                fn=lambda: [],
+                outputs=defense_checkbox
+            )
             for component in [defense_checkbox, evaluation_method_radio_defense]:
                 component.change(
                     fn=update_defense_view,
                 outputs=defense_table
             )
+            with gr.Row():
+                with gr.Column():
+                    gr.Markdown("### 📈 Defense Model Visualization (rule-based GCG judge) ")
+                    gr.Image(
+                        value="./figs/GCG_defense_model.jpg",
+                        interactive=True
+                    )
+                with gr.Column():
+                    gr.Markdown("### 📈 Defense Model Visualization (gpt-4o-based PAIR judge)")
+                    gr.Image(
+                        value="./figs/defense_model_heatmap.jpg",
+                        interactive=True
+                    )
+                with gr.Column():
+                    gr.Markdown("### 📈 Defense Model Visualization (Llama-3.3-70B-based PAIR judge) ")
+                    gr.Image(
+                        value="./figs/PAIR_llama_defense_model.jpg",
+                        interactive=True
+                    )
+                with gr.Column():
+                    gr.Markdown("### 📈 Defense Model Visualization (Qwen2.5-72B-based PAIR judge)")
+                    gr.Image(
+                        value="./figs/PAIR_qwen_defense_model.jpg",
+                        interactive=True
+                    )
         with gr.Tab("📊 Jailbreak Type View"):
             gr.Markdown("### Comprehensive statistics across all dimensions")