Spaces:

BrainDrive
/

FinanceEval

Sleeping

App Files Files Community

navaneethkrishnan commited on Sep 13, 2025

Commit

f971355

verified ·

1 Parent(s): 43aa499

Update app.py "Model Bugs Fixed"

Browse files

Files changed (1) hide show

app.py +50 -47

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py (LLM-only scoring, NLP as flags only, privacy-safe temp files)
 import os, glob, json, zipfile, traceback
 import gradio as gr
@@ -29,9 +29,7 @@ def run_eval(conversation: str,
              use_openai: bool,
              use_anthropic: bool,
              w_trust: float, w_accuracy: float, w_explain: float,
-             w_client: float, w_risk: float, w_clarity: float,
-             model_openai: str = "gpt-4o",
-             model_anthropic: str = "claude-3-5-sonnet-20240620"):
     try:
         if not conversation or conversation.strip() == "":
@@ -44,7 +42,7 @@ def run_eval(conversation: str,
             except Exception:
                 pass
-        # normalize weights
         user_weights = {
             "trust": w_trust, "accuracy": w_accuracy, "explain": w_explain,
             "client_first": w_client, "risk_safety": w_risk, "clarity": w_clarity
@@ -59,9 +57,9 @@ def run_eval(conversation: str,
         providers = []
         if use_openai:
-            providers.append(get_provider(ProviderKind.OPENAI, model_openai))
         if use_anthropic:
-            providers.append(get_provider(ProviderKind.ANTHROPIC, model_anthropic))
         if not providers:
             return None, None, None, None, "❌ Select at least one model provider."
@@ -69,7 +67,7 @@ def run_eval(conversation: str,
         for p in providers:
             metrics_out, usage, raw_json = evaluate_all_metrics(
-                provider=p, conversation_text=model_only, alpha_map={}  # alpha_map ignored now
             )
             rows = []
             for m, payload in metrics_out.items():
@@ -78,10 +76,14 @@ def run_eval(conversation: str,
                     "LLM Score (1-5)": payload.get("judge_score", None),
                     "Final Score (0-10)": round(payload.get("score_0_10", 0.0), 2),
                     "Comment": payload.get("comment", ""),
-                    "NLP Flags": json.dumps(payload.get("nlp_details", {}))[:200]  # truncated
                 })
             df = pd.DataFrame(rows)
-            total = weighted_total({k: v.get("score_0_10", 0.0) for k, v in metrics_out.items()}, user_weights)
             compare_rows.append({
                 "Model": p.label,
                 **{r["Metric"]: r["Final Score (0-10)"] for _, r in df.iterrows()},
@@ -102,7 +104,7 @@ def run_eval(conversation: str,
                 avg_row[c] = round(compare_df[c].mean(), 2)
             avg_df = pd.DataFrame([avg_row])
-        # ---- Write ZIP into /tmp (ephemeral, privacy-safe) ----
         ts = datetime.now(timezone.utc).strftime("%Y%m%dT%H%M%SZ")
         zip_path = f"/tmp/financeeval_{ts}.zip"
         with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
@@ -144,41 +146,42 @@ def run_eval(conversation: str,
 # -----------------------------
 # Gradio UI
 # -----------------------------
-with gr.Blocks(title="FinanceEval – Hybrid Judge (Gradio)") as demo:
-    gr.Markdown("# 🔎 FinanceEval – Hybrid Evaluation (Gradio / HF Spaces)")
-    conversation = gr.Textbox(label="Conversation", lines=16, placeholder="Paste transcript here...")
-    with gr.Accordion("Model Selection", open=True):
-        use_openai = gr.Checkbox(value=True, label="Use OpenAI GPT-4o")
-        use_anthropic = gr.Checkbox(value=False, label="Use Claude 3.5 Sonnet")
-        model_openai = gr.Textbox(value="gpt-4o", label="OpenAI model name")
-        model_anthropic = gr.Textbox(value="claude-3-5-sonnet-20240620", label="Anthropic model name")
-    with gr.Accordion("Metric Weights", open=True):
-        w_trust = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["trust"],step=0.01,label="Trust")
-        w_accuracy = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["accuracy"],step=0.01,label="Accuracy")
-        w_explain = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["explain"],step=0.01,label="Explainability")
-        w_client = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["client_first"],step=0.01,label="Client-First")
-        w_risk = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["risk_safety"],step=0.01,label="Risk Safety")
-        w_clarity = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["clarity"],step=0.01,label="Clarity")
-    run_btn = gr.Button("Evaluate")
-    with gr.Tab("Per-Model Results"):
-        table_out = gr.Dataframe()
-    with gr.Tab("Comparison"):
-        compare_out = gr.Dataframe()
-        avg_out = gr.Dataframe()
-    with gr.Tab("Downloads & Usage"):
-        zip_file = gr.File(label="Download ZIP (CSVs + JSON)", type="filepath")
-        usage_text = gr.Textbox(label="Token Usage / Errors", lines=8)
-    run_btn.click(
-        fn=run_eval,
-        inputs=[conversation, use_openai, use_anthropic,
-                w_trust, w_accuracy, w_explain, w_client, w_risk, w_clarity,
-                model_openai, model_anthropic],
-        outputs=[table_out, compare_out, avg_out, zip_file, usage_text]
-    )
 if __name__ == "__main__":
-    demo.launch()

+# app.py
 import os, glob, json, zipfile, traceback
 import gradio as gr
              use_openai: bool,
              use_anthropic: bool,
              w_trust: float, w_accuracy: float, w_explain: float,
+             w_client: float, w_risk: float, w_clarity: float):
     try:
         if not conversation or conversation.strip() == "":
             except Exception:
                 pass
+        # normalize weights from sliders
         user_weights = {
             "trust": w_trust, "accuracy": w_accuracy, "explain": w_explain,
             "client_first": w_client, "risk_safety": w_risk, "clarity": w_clarity
         providers = []
         if use_openai:
+            providers.append(get_provider(ProviderKind.OPENAI, "gpt-4o"))
         if use_anthropic:
+            providers.append(get_provider(ProviderKind.ANTHROPIC, "claude-3-5-sonnet-20240620"))
         if not providers:
             return None, None, None, None, "❌ Select at least one model provider."
         for p in providers:
             metrics_out, usage, raw_json = evaluate_all_metrics(
+                provider=p, conversation_text=model_only, alpha_map={}
             )
             rows = []
             for m, payload in metrics_out.items():
                     "LLM Score (1-5)": payload.get("judge_score", None),
                     "Final Score (0-10)": round(payload.get("score_0_10", 0.0), 2),
                     "Comment": payload.get("comment", ""),
+                    "NLP Flags": json.dumps(payload.get("nlp_details", {}))[:200]
                 })
             df = pd.DataFrame(rows)
+            # total score with weight sliders
+            total = weighted_total({k: v.get("score_0_10", 0.0) for k, v in metrics_out.items()},
+                                   user_weights)
             compare_rows.append({
                 "Model": p.label,
                 **{r["Metric"]: r["Final Score (0-10)"] for _, r in df.iterrows()},
                 avg_row[c] = round(compare_df[c].mean(), 2)
             avg_df = pd.DataFrame([avg_row])
+        # ---- Write ZIP into /tmp ----
         ts = datetime.now(timezone.utc).strftime("%Y%m%dT%H%M%SZ")
         zip_path = f"/tmp/financeeval_{ts}.zip"
         with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as zf:
 # -----------------------------
 # Gradio UI
 # -----------------------------
+def create_demo():
+    with gr.Blocks(title="FinanceEval – Localhost") as demo:
+        gr.Markdown("# 🔎 FinanceEval – Localhost Evaluation")
+        conversation = gr.Textbox(label="Conversation", lines=16, placeholder="Paste transcript here...")
+        with gr.Accordion("Model Selection", open=True):
+            use_openai = gr.Checkbox(value=True, label="Use OpenAI GPT-4o")
+            use_anthropic = gr.Checkbox(value=False, label="Use Claude 3.5 Sonnet")
+        with gr.Accordion("Metric Weights", open=True):
+            w_trust = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["trust"],step=0.01,label="Trust")
+            w_accuracy = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["accuracy"],step=0.01,label="Accuracy")
+            w_explain = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["explain"],step=0.01,label="Explainability")
+            w_client = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["client_first"],step=0.01,label="Client-First")
+            w_risk = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["risk_safety"],step=0.01,label="Risk Safety")
+            w_clarity = gr.Slider(0,1,value=DEFAULT_METRIC_WEIGHTS["clarity"],step=0.01,label="Clarity")
+        run_btn = gr.Button("Evaluate")
+        with gr.Tab("Per-Model Results"):
+            table_out = gr.Dataframe()
+        with gr.Tab("Comparison"):
+            compare_out = gr.Dataframe()
+            avg_out = gr.Dataframe()
+        with gr.Tab("Downloads & Usage"):
+            zip_file = gr.File(label="Download ZIP (CSVs + JSON)", type="filepath")
+            usage_text = gr.Textbox(label="Token Usage / Errors", lines=8)
+        run_btn.click(
+            fn=run_eval,
+            inputs=[conversation, use_openai, use_anthropic,
+                    w_trust, w_accuracy, w_explain, w_client, w_risk, w_clarity],
+            outputs=[table_out, compare_out, avg_out, zip_file, usage_text]
+        )
+    return demo
 if __name__ == "__main__":
+    demo = create_demo()
+    demo.launch()