Spaces:

TrustSafeAI
/

GradientCuff-Jailbreak-Defense

Running

gregH commited on Feb 29, 2024

Commit

2f76d7a

verified ·

1 Parent(s): 28c42a4

Update index.html

Files changed (1) hide show

index.html CHANGED Viewed

@@ -163,28 +163,32 @@ Exploring Refusal Loss Landscapes </title>
       <h3>Perpleixty Filter</h3>
       <div>
         <ul>
-          <li>Paper: </li>
           <li>Brief Introduction: </li>
         </ul>
       </div>
       <h3>SmoothLLM</h3>
       <div>
         <ul>
-          <li>Paper: </li>
           <li>Brief Introduction: </li>
         </ul>
       </div>
       <h3>Erase-Check</h3>
       <div>
         <ul>
-          <li>Paper: </li>
           <li>Brief Introduction: </li>
         </ul>
       </div>
       <h3>Self-Reminder</h3>
       <div>
         <ul>
-          <li>Paper: </li>
           <li>Brief Introduction: </li>
         </ul>
       </div>

       <h3>Perpleixty Filter</h3>
       <div>
         <ul>
+          <li>Paper: <a href="https://arxiv.org/abs/2309.00614" target="_blank" rel="noopener noreferrer">
+            Baseline Defenses for Adversarial Attacks Against Aligned Language Models</a></li>
           <li>Brief Introduction: </li>
         </ul>
       </div>
       <h3>SmoothLLM</h3>
       <div>
         <ul>
+          <li>Paper: <a href="https://arxiv.org/abs/2310.03684" target="_blank" rel="noopener noreferrer">
+            SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks</a></li>
           <li>Brief Introduction: </li>
         </ul>
       </div>
       <h3>Erase-Check</h3>
       <div>
         <ul>
+          <li>Paper: <a href="https://arxiv.org/abs/2309.02705" target="_blank" rel="noopener noreferrer">
+            Certifying LLM Safety against Adversarial Prompting</a></li>
           <li>Brief Introduction: </li>
         </ul>
       </div>
       <h3>Self-Reminder</h3>
       <div>
         <ul>
+          <li>Paper: <a href="https://assets.researchsquare.com/files/rs-2873090/v1_covered_eb589a01-bf05-4f32-b3eb-0d6864f64ad9.pdf?c=1702456350" target="_blank" rel="noopener noreferrer">
+            Defending ChatGPT against Jailbreak Attack via Self-Reminder</a></li>
           <li>Brief Introduction: </li>
         </ul>
       </div>