Spaces:

BrainDrive
/

Summary-Evaluator

Sleeping

navaneethkrishnan commited on Jul 28, 2025

Commit

0cee974

verified ·

1 Parent(s): 9ceb38c

Upload 2 files

Files changed (2) hide show

src/comparison.py ADDED Viewed

+import json
+from src.api_clients import openai_client
+last_eval_result = {}  # Shared state
+def get_last_eval_data():
+    return last_eval_result if last_eval_result else None
+def run_comparison(human_scores, human_comments, model_scores, model_comments):
+    prompt = f"""Compare human and model summary evaluations.
+Human Scores: {human_scores}
+Model Scores: {model_scores}
+Human Comments: {human_comments}
+Model Comments: {model_comments}
+Output key differences, strengths, and any mismatches."""
+    res = openai_client.chat.completions.create(
+        model="gpt-4o-mini",
+        messages=[{"role": "user", "content": prompt}],
+        max_tokens=800
+    )
+    return res.choices[0].message.content
+def import_model_metrics():
+    data = get_last_eval_data()
+    if not data or "scores" not in data:
+        return ["" ] * 6
+    s = data["scores"]
+    return (
+        str(s.get("coverage", "")),
+        str(s.get("alignment", "")),
+        str(s.get("hallucination", "")),
+        str(s.get("relevance", "")),
+        str(s.get("bias_toxicity", "")),
+        json.dumps(data.get("comments", ""), indent=2)
+    )

src/config.py ADDED Viewed

+MAX_TOKENS = {"OpenAI": 8000, "DeepSeek": 8000, "Claude": 4000}
+PRESET = {
+    "Twin-Lock":  dict(coverage=0.25, alignment=0.20, hallucination=0.15, relevance=0.15, bias_toxicity=0.05),
+    "Judge-Lock": dict(coverage=0.35, alignment=0.15, hallucination=0.30, relevance=0.15, bias_toxicity=0.05)
+}
+CSS = """
+body,.gradio-container{background:#f7f7f7!important;color:#1a1a1a!important}
+textarea,textarea.gr-input{background:#f7f7f7!important;color:#1a1a1a!important}
+textarea::placeholder,input::placeholder{color:#666!important}
+input[type=radio]{accent-color:#000000}
+input[type=checkbox]{accent-color:#000000}
+#variant-group input[type=radio]{accent-color:#ffa500}
+#backend-group input[type=checkbox]{accent-color:#0074d9}
+.metric-slider input[type=range]::-webkit-slider-thumb,
+.metric-slider input[type=range]::-moz-range-thumb{background:#21a366!important}
+.metric-slider input[type=range]::-webkit-slider-runnable-track,
+.metric-slider input[type=range]::-moz-range-track{background:#cfe8db!important}
+#btn-twin,#btn-judge,#run-btn{background:#000000!important;color:#ffffff!important;border-radius:6px!important}
+"""