Spaces:

DelaliScratchwerk
/

TextPeriod_Summarization

Sleeping

App Files Files Community

DelaliScratchwerk commited on Nov 3, 2025

Commit

d6c5a54

verified ·

1 Parent(s): 0a06046

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -15

app.py CHANGED Viewed

@@ -1,21 +1,23 @@
-import json, numpy as np, gradio as gr
 from setfit import SetFitModel
 from huggingface_hub import hf_hub_download
 from evidence import extract_evidence
-import shutil, os, pathlib
-CACHE_DIR = os.path.expanduser("~/.cache/huggingface")
-shutil.rmtree(CACHE_DIR, ignore_errors=True)  # nuke old cached models
-pathlib.Path(CACHE_DIR).mkdir(parents=True, exist_ok=True)
 MODEL_ID = "DelaliScratchwerk/text-period-setfit"
-# ---- thresholds (use your tuned values)
 TOP_K = 3
-UNCERTAINTY_THRESHOLD = 0.516   # from tune_thresholds.py
-MARGIN_THRESHOLD = 0.387        # from tune_thresholds.py
-# ---- load labels (Hub -> local fallback)
 try:
     labels_path = hf_hub_download(MODEL_ID, "labels.json")
     LABELS = json.load(open(labels_path))
@@ -24,19 +26,24 @@ except Exception:
 model = SetFitModel.from_pretrained(MODEL_ID)
-def format_evidence(ev):
     parts = []
     if ev.get("years"):
         parts.append("**Years found:** " + ", ".join(ev["years"]))
     if ev.get("keyword_hits"):
-        for b, ks in ev["keyword_hits"].items():
-            parts.append(f"**{b}:** " + ", ".join(ks))
     return "\n\n".join(parts) if parts else "_No explicit time clues found._"
 def predict(txt: str):
-    if not txt.strip():
         return "—", "Paste some text.", {}
     probs = np.asarray(model.predict_proba([txt])[0], dtype=float).ravel()
     if probs.size != len(LABELS):
         return "—", f"Label mismatch: model has {probs.size} classes, labels.json has {len(LABELS)}", {}
@@ -50,7 +57,7 @@ def predict(txt: str):
     if top1 < UNCERTAINTY_THRESHOLD or (top1 - top2) < MARGIN_THRESHOLD:
         topk = [{"label": LABELS[i], "score": float(probs[i])} for i in order[:TOP_K]]
         md = "**Uncertain** — top candidates:\n" + "\n".join(
-            [f"- **{d['label']}**: {d['score']:.3f}" for d in topk]
         )
         return "uncertain", md + "\n\n" + format_evidence(ev), {LABELS[i]: float(probs[i]) for i in order}
@@ -69,7 +76,8 @@ with gr.Blocks(title="Text → Time Period (SetFit)") as demo:
     scores = gr.JSON(label="Scores")
     btn = gr.Button("Submit", variant="primary")
-    btn.click(predict, inputs=text, outputs=[pred, reason, scores])
     gr.Examples(
         examples=[

+ import json, numpy as np, gradio as gr
 from setfit import SetFitModel
 from huggingface_hub import hf_hub_download
 from evidence import extract_evidence
+import os, shutil, pathlib
+# Optional: only clear cache if you set CLEAR_HF_CACHE=1 in the Space secrets
+if os.getenv("CLEAR_HF_CACHE") == "1":
+    CACHE_DIR = os.path.expanduser("~/.cache/huggingface")
+    shutil.rmtree(CACHE_DIR, ignore_errors=True)
+    pathlib.Path(CACHE_DIR).mkdir(parents=True, exist_ok=True)
 MODEL_ID = "DelaliScratchwerk/text-period-setfit"
+# thresholds (your tuned values)
 TOP_K = 3
+UNCERTAINTY_THRESHOLD = 0.516
+MARGIN_THRESHOLD = 0.387
+# labels (Hub -> local fallback)
 try:
     labels_path = hf_hub_download(MODEL_ID, "labels.json")
     LABELS = json.load(open(labels_path))
 model = SetFitModel.from_pretrained(MODEL_ID)
+def format_evidence(ev: dict) -> str:
     parts = []
     if ev.get("years"):
         parts.append("**Years found:** " + ", ".join(ev["years"]))
     if ev.get("keyword_hits"):
+        for bucket, keys in ev["keyword_hits"].items():
+            if keys:
+                parts.append(f"**{bucket}:** " + ", ".join(keys))
     return "\n\n".join(parts) if parts else "_No explicit time clues found._"
 def predict(txt: str):
+    txt = (txt or "").strip()
+    if not txt:
         return "—", "Paste some text.", {}
     probs = np.asarray(model.predict_proba([txt])[0], dtype=float).ravel()
+    if probs.size == 0:
+        return "—", "Model returned no probabilities.", {}
     if probs.size != len(LABELS):
         return "—", f"Label mismatch: model has {probs.size} classes, labels.json has {len(LABELS)}", {}
     if top1 < UNCERTAINTY_THRESHOLD or (top1 - top2) < MARGIN_THRESHOLD:
         topk = [{"label": LABELS[i], "score": float(probs[i])} for i in order[:TOP_K]]
         md = "**Uncertain** — top candidates:\n" + "\n".join(
+            f"- **{d['label']}**: {d['score']:.3f}" for d in topk
         )
         return "uncertain", md + "\n\n" + format_evidence(ev), {LABELS[i]: float(probs[i]) for i in order}
     scores = gr.JSON(label="Scores")
     btn = gr.Button("Submit", variant="primary")
+    # 👇 Explicit, stable API route (your Space docs will show /api/predict)
+    btn.click(predict, inputs=text, outputs=[pred, reason, scores], api_name="/predict")
     gr.Examples(
         examples=[