Spaces:

timagonch
/

algospeak-classifier

Running

App Files Files Community

timagonch commited on Apr 8

Commit

8cf9caf

1 Parent(s): 20a4b09

Log predictions to HF dataset repo via CommitScheduler

Browse files

Files changed (1) hide show

app.py +43 -1

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ app.py — Algospeak Classifier demo
 Streamlit UI for the dual BERTweet model.
 Type a social media post and see the predicted class + confidence scores.
 """
 import sys
@@ -10,18 +11,24 @@ from pathlib import Path
 sys.path.insert(0, str(Path(__file__).parent / "poc" / "src"))
 import yaml
 import torch
 import numpy as np
 import emoji
 import streamlit as st
 from transformers import AutoTokenizer
-from huggingface_hub import hf_hub_download
 from inference import load_unsupervised_encoder, classify_text
 BASE_DIR = Path(__file__).parent
 MODEL_REPO = "timagonch/algospeak-classifier-model"
 CLASS_COLORS = {
     "Allowed":            "green",
@@ -46,6 +53,39 @@ def load_model():
     return encoder, prototypes, tokenizer, cfg, device
 # ─────────────────────────────────────────────────────────────────────
 # UI
 # ─────────────────────────────────────────────────────────────────────
@@ -68,3 +108,5 @@ if st.button("Classify", type="primary") and text.strip():
     st.write("**Confidence scores:**")
     for name, score in sorted(result["scores"].items(), key=lambda x: -x[1]):
         st.progress(float(score), text=f"{name}: {score:.1%}")

 Streamlit UI for the dual BERTweet model.
 Type a social media post and see the predicted class + confidence scores.
+Predictions are logged to a private HF dataset repo via CommitScheduler.
 """
 import sys
 sys.path.insert(0, str(Path(__file__).parent / "poc" / "src"))
+import csv
 import yaml
 import torch
 import numpy as np
 import emoji
 import streamlit as st
+from datetime import datetime
 from transformers import AutoTokenizer
+from huggingface_hub import hf_hub_download, CommitScheduler
 from inference import load_unsupervised_encoder, classify_text
 BASE_DIR = Path(__file__).parent
 MODEL_REPO = "timagonch/algospeak-classifier-model"
+LOG_REPO   = "timagonch/algospeak-logs"
+LOG_DIR    = BASE_DIR / "logs"
+LOG_FILE   = LOG_DIR / "predictions.csv"
+LOG_COLS   = ["text", "predicted_label", "score_allowed", "score_offensive", "score_mature", "score_algospeak", "timestamp"]
 CLASS_COLORS = {
     "Allowed":            "green",
     return encoder, prototypes, tokenizer, cfg, device
+@st.cache_resource
+def get_scheduler():
+    LOG_DIR.mkdir(exist_ok=True)
+    return CommitScheduler(
+        repo_id=LOG_REPO,
+        repo_type="dataset",
+        folder_path=LOG_DIR,
+        path_in_repo="logs",
+        every=5,
+    )
+def log_prediction(text, result):
+    scheduler = get_scheduler()
+    scores = result["scores"]
+    row = {
+        "text":              text,
+        "predicted_label":   result["predicted_label"],
+        "score_allowed":     round(scores["Allowed"], 4),
+        "score_offensive":   round(scores["Offensive Language"], 4),
+        "score_mature":      round(scores["Mature Content"], 4),
+        "score_algospeak":   round(scores["Algospeak"], 4),
+        "timestamp":         datetime.utcnow().isoformat(),
+    }
+    with scheduler.lock:
+        write_header = not LOG_FILE.exists()
+        with open(LOG_FILE, "a", newline="", encoding="utf-8") as f:
+            writer = csv.DictWriter(f, fieldnames=LOG_COLS)
+            if write_header:
+                writer.writeheader()
+            writer.writerow(row)
 # ─────────────────────────────────────────────────────────────────────
 # UI
 # ─────────────────────────────────────────────────────────────────────
     st.write("**Confidence scores:**")
     for name, score in sorted(result["scores"].items(), key=lambda x: -x[1]):
         st.progress(float(score), text=f"{name}: {score:.1%}")
+    log_prediction(text, result)