Spaces:

Lordemarco
/

sentiment-fastapi

Sleeping

App Files Files Community

LorenzoBioinfo commited on Nov 3, 2025

Commit

8b7e49b

1 Parent(s): d32d7f7

Update monitoring

Browse files

Files changed (2) hide show

src/data_preparation.py +4 -0
src/monitoring.py +20 -27

src/data_preparation.py CHANGED Viewed

@@ -42,6 +42,8 @@ def tokenize_function(examples):
     )
 # ----------------------------- #
 #   PREPARAZIONE DEI DATASET    #
 # ----------------------------- #
@@ -126,6 +128,8 @@ def prepare_youtube(tokenizer, output_path):
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description="Prepara dataset per sentiment analysis.")
     parser.add_argument("dataset", choices=["tweet_eval", "youtube"], help="Nome del dataset da preparare.")

     )
 # ----------------------------- #
 #   PREPARAZIONE DEI DATASET    #
 # ----------------------------- #
 if __name__ == "__main__":
     parser = argparse.ArgumentParser(description="Prepara dataset per sentiment analysis.")
     parser.add_argument("dataset", choices=["tweet_eval", "youtube"], help="Nome del dataset da preparare.")

src/monitoring.py CHANGED Viewed

@@ -1,10 +1,10 @@
-from transformers import AutoTokenizer, AutoModelForSequenceClassification
 from datasets import load_from_disk
 from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
 import torch
 import json
 import os
-from src.train_model import train_model
 ACCURACY_THRESHOLD = 0.75
 MODEL_PATH = "models/sentiment_model"
@@ -13,61 +13,55 @@ YT_PATH = "data/processed/youtube_tokenized"
 REPORTS_DIR = "reports"
-def evaluate_model(model, tokenizer, dataset, dataset_name, sample_size=300):
     print(f"Valutazione su {dataset_name}")
-    if "test" not in dataset:
-        subset = dataset["train"].train_test_split(test_size=0.1)
-    else:
         subset = dataset["test"].select(range(min(sample_size, len(dataset["test"]))))
-    texts = subset["text"]
-    labels = subset["label"]
-    inputs = tokenizer(texts, truncation=True, padding=True, return_tensors="pt")
     with torch.no_grad():
-        outputs = model(**inputs)
-        preds = torch.argmax(outputs.logits, dim=1).numpy()
-    acc = accuracy_score(labels, preds)
-    f1 = f1_score(labels, preds, average="weighted")
-    cm = confusion_matrix(labels, preds).tolist()
     print(f"{dataset_name} — Accuracy: {acc:.3f}, F1: {f1:.3f}")
     return {"dataset": dataset_name, "accuracy": acc, "f1": f1, "confusion_matrix": cm}
 def retrain_on_youtube_sample():
-    from datasets import load_from_disk
     youtube_data = load_from_disk(YT_PATH)["train"]
     youtube_sample = youtube_data.shuffle(seed=42).select(range(500))
     train_model(additional_data=youtube_sample, output_dir=MODEL_PATH)
 def main():
     print("Caricamento del modello")
     if os.path.exists(MODEL_PATH):
         model = AutoModelForSequenceClassification.from_pretrained(MODEL_PATH)
-        tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
     else:
-        print("⚠️ Modello locale non trovato. Uso modello pre-addestrato di default.")
         model = AutoModelForSequenceClassification.from_pretrained(
             "cardiffnlp/twitter-roberta-base-sentiment-latest"
         )
-        tokenizer = AutoTokenizer.from_pretrained(
-            "cardiffnlp/twitter-roberta-base-sentiment-latest"
-        )
     model.eval()
     tweet_ds = load_from_disk(TWEET_PATH)
     youtube_ds = load_from_disk(YT_PATH)
-    tweet_metrics = evaluate_model(model, tokenizer, tweet_ds, "TweetEval")
-    youtube_metrics = evaluate_model(model, tokenizer, youtube_ds, "YouTube Comments")
     print(f"Accuracy su YouTube: {youtube_metrics['accuracy']:.3f}")
     if youtube_metrics["accuracy"] < ACCURACY_THRESHOLD:
@@ -84,6 +78,5 @@ def main():
     print(f"Risultati salvati in: {metrics_path}")
 if __name__ == "__main__":
-    main()

+from transformers import AutoModelForSequenceClassification
 from datasets import load_from_disk
 from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
 import torch
 import json
 import os
+from train_model import train_model
 ACCURACY_THRESHOLD = 0.75
 MODEL_PATH = "models/sentiment_model"
 REPORTS_DIR = "reports"
+def evaluate_model(model, dataset, dataset_name, sample_size=300):
     print(f"Valutazione su {dataset_name}")
+    # Prendo il sottoinsieme dei dati
+    if "test" in dataset:
         subset = dataset["test"].select(range(min(sample_size, len(dataset["test"]))))
+    else:
+        subset = dataset["train"].train_test_split(test_size=0.1)["test"]
+    input_ids = torch.tensor(subset["input_ids"])
+    attention_mask = torch.tensor(subset["attention_mask"])
+    labels = torch.tensor(subset["label"])
     with torch.no_grad():
+        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
+        preds = torch.argmax(outputs.logits, dim=1)
+    acc = accuracy_score(labels.numpy(), preds.numpy())
+    f1 = f1_score(labels.numpy(), preds.numpy(), average="weighted")
+    cm = confusion_matrix(labels.numpy(), preds.numpy()).tolist()
     print(f"{dataset_name} — Accuracy: {acc:.3f}, F1: {f1:.3f}")
     return {"dataset": dataset_name, "accuracy": acc, "f1": f1, "confusion_matrix": cm}
 def retrain_on_youtube_sample():
     youtube_data = load_from_disk(YT_PATH)["train"]
     youtube_sample = youtube_data.shuffle(seed=42).select(range(500))
     train_model(additional_data=youtube_sample, output_dir=MODEL_PATH)
 def main():
     print("Caricamento del modello")
     if os.path.exists(MODEL_PATH):
         model = AutoModelForSequenceClassification.from_pretrained(MODEL_PATH)
     else:
+        print("Modello locale non trovato. Uso modello pre-addestrato di default.")
         model = AutoModelForSequenceClassification.from_pretrained(
             "cardiffnlp/twitter-roberta-base-sentiment-latest"
         )
     model.eval()
     tweet_ds = load_from_disk(TWEET_PATH)
     youtube_ds = load_from_disk(YT_PATH)
+    tweet_metrics = evaluate_model(model, tweet_ds, "TweetEval")
+    youtube_metrics = evaluate_model(model, youtube_ds, "YouTube Comments")
     print(f"Accuracy su YouTube: {youtube_metrics['accuracy']:.3f}")
     if youtube_metrics["accuracy"] < ACCURACY_THRESHOLD:
     print(f"Risultati salvati in: {metrics_path}")
 if __name__ == "__main__":
+    main()