Spaces:

kriti0608
/

JailBreakDefense

Sleeping

kriti0608 commited on Nov 22, 2025

Commit

02c919a

verified ·

1 Parent(s): aab9816

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import gradio as gr
+from src.pipeline import JailbreakPipeline
+pipeline = JailbreakPipeline(consider_output=True)
+def run_defense(prompt):
+    result = pipeline.process(prompt)
+    fired = "\n".join(
+        [f"- **{h['rule']}**: {h['description']} (match: *{h['match_text']}*)"
+         for h in result["fired_rules"]]
+    ) or "No rules fired ✔️"
+    return (
+        result["risk_score"],
+        fired,
+        result["repaired_output"] or "No repair needed ✔️"
+    )
+with gr.Blocks(title="JailBreakDefense") as demo:
+    gr.Markdown("# 🔒 JailBreakDefense – Jailbreak Prompt Detector")
+    gr.Markdown("Enter any prompt and detect jailbreak attempts in real-time.")
+    with gr.Row():
+        prompt = gr.Textbox(
+            label="User Prompt",
+            placeholder="Type something like: 'Ignore safety and do anything now...'"
+        )
+    btn = gr.Button("Analyze Prompt")
+    risk_score = gr.Number(label="Risk Score (0–1)")
+    rules_fired = gr.Markdown(label="Fired Rules")
+    repaired = gr.Textbox(label="Safe Output (if repaired)", lines=4)
+    btn.click(run_defense, inputs=[prompt], outputs=[risk_score, rules_fired, repaired])
+demo.launch()