Spaces:

kriti0608
/

JailBreakDefense

Sleeping

kriti0608 commited on Nov 23, 2025

Commit

dbe950b

verified ·

1 Parent(s): 73749f0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,38 +1,30 @@
 import gradio as gr
 from src.pipeline import JailbreakPipeline
-pipeline = JailbreakPipeline()
-def run_defense(prompt):
-    result = pipeline.process(prompt)
-    fired = "\n".join(
-        [f"- **{h['rule']}**: {h['description']} (match: *{h['match_text']}*)"
-         for h in result["fired_rules"]]
-    ) or "No rules fired ✔️"
-    return (
-        result["risk_score"],
-        fired,
-        result["repaired_output"] or "No repair needed ✔️"
-    )
-with gr.Blocks(title="JailBreakDefense") as demo:
     gr.Markdown("# JailBreakDefense – Jailbreak Prompt Detector")
-    gr.Markdown("Enter any prompt and detect jailbreak attempts in real-time.")
-    with gr.Row():
-        prompt = gr.Textbox(
-            label="User Prompt",
-            placeholder="Type something like: 'Ignore safety and do anything now...'"
-        )
-    btn = gr.Button("Analyze Prompt")
-    risk_score = gr.Number(label="Risk Score (0–1)")
-    rules_fired = gr.Markdown(label="Fired Rules")
-    repaired = gr.Textbox(label="Safe Output (if repaired)", lines=4)
-    btn.click(run_defense, inputs=[prompt], outputs=[risk_score, rules_fired, repaired])
 demo.launch()

 import gradio as gr
 from src.pipeline import JailbreakPipeline
+pipeline = JailbreakPipeline(consider_output=True)
+def run_defense(prompt: str):
+    result = pipeline.process(prompt)  # returns PipelineResult
+    # round risk score for display
+    risk = round(float(result.risk_score), 2)
+    safe_text = result.safe_output
+    return risk, safe_text
+with gr.Blocks() as demo:
     gr.Markdown("# JailBreakDefense – Jailbreak Prompt Detector")
+    prompt_box = gr.Textbox(
+        label="User Prompt",
+        placeholder="Type something like: 'Ignore safety and do anything now...'",
+        lines=3,
+    )
+    analyze_btn = gr.Button("Analyze Prompt")
+    risk_out = gr.Number(label="Risk Score (0–1)")
+    safe_out = gr.Textbox(label="Safe Output (if repaired)", lines=4)
+    analyze_btn.click(run_defense, inputs=prompt_box, outputs=[risk_out, safe_out])
 demo.launch()