Spaces:

BrainDrive
/

FinanceEval

Running

App Files Files Community

navaneethkrishnan commited on Sep 11, 2025

Commit

43aa499

verified ·

1 Parent(s): f843798

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -27

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# app.py (final: temp-file ZIP + auto-clean + error handling)
 import os, glob, json, zipfile, traceback
 import gradio as gr
@@ -22,15 +22,6 @@ DEFAULT_METRIC_WEIGHTS = {
     "clarity": 0.10,
 }
-JUDGE_ALPHA = {
-    "trust": 0.70,
-    "accuracy": 0.65,
-    "explain": 0.50,
-    "client_first": 0.70,
-    "risk_safety": 0.60,
-    "clarity": 0.70,
-}
 # -----------------------------
 # Core runner
 # -----------------------------
@@ -78,25 +69,22 @@ def run_eval(conversation: str,
         for p in providers:
             metrics_out, usage, raw_json = evaluate_all_metrics(
-                provider=p, conversation_text=model_only, alpha_map=JUDGE_ALPHA
             )
             rows = []
             for m, payload in metrics_out.items():
                 rows.append({
                     "Metric": m,
                     "LLM Score (1-5)": payload.get("judge_score", None),
-                    "NLP Subscore (0-1)": round(payload.get("nlp_subscore", 0.0), 3),
-                    "Fused (0-10)": round(payload.get("fused_0_10", 0.0), 2),
-                    "Comment": payload.get("comment", "")
                 })
             df = pd.DataFrame(rows)
-            total = weighted_total(
-                {k: v.get("fused_0_10", 0.0) for k, v in metrics_out.items()},
-                user_weights
-            )
             compare_rows.append({
                 "Model": p.label,
-                **{r["Metric"]: r["Fused (0-10)"] for _, r in df.iterrows()},
                 "Total (0-10)": round(total, 2)
             })
             token_usage_blocks.append(
@@ -123,9 +111,9 @@ def run_eval(conversation: str,
                 df2.loc[len(df2)] = {
                     "Metric": "TOTAL",
                     "LLM Score (1-5)": "-",
-                    "NLP Subscore (0-1)": "-",
-                    "Fused (0-10)": total,
-                    "Comment": ""
                 }
                 zf.writestr(f"results_{label}_{ts}.csv", df2.to_csv(index=False).encode("utf-8"))
             zf.writestr(f"comparison_{ts}.csv", compare_df.to_csv(index=False).encode("utf-8"))
@@ -137,9 +125,9 @@ def run_eval(conversation: str,
             merged_tables.append(pd.DataFrame({
                 "Metric": [f"— {label} —"],
                 "LLM Score (1-5)": [""],
-                "NLP Subscore (0-1)": [""],
-                "Fused (0-10)": [""],
-                "Comment": [""]
             }))
             merged_tables.append(df)
         merged_df = pd.concat(merged_tables, ignore_index=True)
@@ -181,7 +169,6 @@ with gr.Blocks(title="FinanceEval – Hybrid Judge (Gradio)") as demo:
         compare_out = gr.Dataframe()
         avg_out = gr.Dataframe()
     with gr.Tab("Downloads & Usage"):
-        # ✅ Fixed: type must be 'filepath' not 'file'
         zip_file = gr.File(label="Download ZIP (CSVs + JSON)", type="filepath")
         usage_text = gr.Textbox(label="Token Usage / Errors", lines=8)
@@ -194,4 +181,4 @@ with gr.Blocks(title="FinanceEval – Hybrid Judge (Gradio)") as demo:
     )
 if __name__ == "__main__":
-    demo.launch(show_error=True)

+# app.py (LLM-only scoring, NLP as flags only, privacy-safe temp files)
 import os, glob, json, zipfile, traceback
 import gradio as gr
     "clarity": 0.10,
 }
 # -----------------------------
 # Core runner
 # -----------------------------
         for p in providers:
             metrics_out, usage, raw_json = evaluate_all_metrics(
+                provider=p, conversation_text=model_only, alpha_map={}  # alpha_map ignored now
             )
             rows = []
             for m, payload in metrics_out.items():
                 rows.append({
                     "Metric": m,
                     "LLM Score (1-5)": payload.get("judge_score", None),
+                    "Final Score (0-10)": round(payload.get("score_0_10", 0.0), 2),
+                    "Comment": payload.get("comment", ""),
+                    "NLP Flags": json.dumps(payload.get("nlp_details", {}))[:200]  # truncated
                 })
             df = pd.DataFrame(rows)
+            total = weighted_total({k: v.get("score_0_10", 0.0) for k, v in metrics_out.items()}, user_weights)
             compare_rows.append({
                 "Model": p.label,
+                **{r["Metric"]: r["Final Score (0-10)"] for _, r in df.iterrows()},
                 "Total (0-10)": round(total, 2)
             })
             token_usage_blocks.append(
                 df2.loc[len(df2)] = {
                     "Metric": "TOTAL",
                     "LLM Score (1-5)": "-",
+                    "Final Score (0-10)": total,
+                    "Comment": "",
+                    "NLP Flags": ""
                 }
                 zf.writestr(f"results_{label}_{ts}.csv", df2.to_csv(index=False).encode("utf-8"))
             zf.writestr(f"comparison_{ts}.csv", compare_df.to_csv(index=False).encode("utf-8"))
             merged_tables.append(pd.DataFrame({
                 "Metric": [f"— {label} —"],
                 "LLM Score (1-5)": [""],
+                "Final Score (0-10)": [""],
+                "Comment": [""],
+                "NLP Flags": [""]
             }))
             merged_tables.append(df)
         merged_df = pd.concat(merged_tables, ignore_index=True)
         compare_out = gr.Dataframe()
         avg_out = gr.Dataframe()
     with gr.Tab("Downloads & Usage"):
         zip_file = gr.File(label="Download ZIP (CSVs + JSON)", type="filepath")
         usage_text = gr.Textbox(label="Token Usage / Errors", lines=8)
     )
 if __name__ == "__main__":
+    demo.launch()