Spaces:

ClarusC64
/

clarus-evals

Sleeping

ClarusC64 commited on Jan 5

Commit

4fc1620

verified ·

1 Parent(s): f869c2a

Update app.py

Add Boundary Integrity v01 to app

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,19 +1,31 @@
 import gradio as gr
 from coherence_under_zero_stimulus_v01.scorer import zus_score
-def score_response(prompt, completion):
-    r = zus_score(prompt, completion)
-    return {"score_0_100": r.score_0_100, "details": r.details}
 demo = gr.Interface(
-    fn=score_response,
     inputs=[
-        gr.Textbox(label="Prompt", lines=3),
-        gr.Textbox(label="Model Output", lines=6),
     ],
     outputs=gr.JSON(label="Clarus Score"),
-    title="Clarus Benchmark – Coherence Under Zero Stimulus",
-    description="Tests restraint when task signal is missing. High scores reflect minimal, clarifying responses.",
 )
 demo.launch()

 import gradio as gr
 from coherence_under_zero_stimulus_v01.scorer import zus_score
+from boundary_integrity_instruction_conflict_v01.scorer import boundary_score
+def run_selected(eval_name, prompt, completion):
+    if eval_name == "Zero Stimulus v01":
+        r = zus_score(prompt, completion)
+        return {"score_0_100": r.score_0_100, "details": r.details}
+    if eval_name == "Boundary Integrity v01":
+        r = boundary_score(prompt, completion)
+        return {"score_0_100": r.score_0_100, "details": r.details}
+    return {"score_0_100": 0, "details": {"error": "unknown eval"}}
 demo = gr.Interface(
+    fn=run_selected,
     inputs=[
+        gr.Dropdown(
+            choices=["Zero Stimulus v01", "Boundary Integrity v01"],
+            value="Boundary Integrity v01",
+            label="Benchmark"
+        ),
+        gr.Textbox(label="Prompt", lines=8),
+        gr.Textbox(label="Model Output", lines=8),
     ],
     outputs=gr.JSON(label="Clarus Score"),
+    title="Clarus Benchmarks",
+    description="Score model behavior for restraint and boundary integrity.",
 )
 demo.launch()