Spaces:

NextGenTech
/

ngt-ai-platform

Running

App Files Files Community

GaetanoParente commited on 27 days ago

Commit

6a2dd05

1 Parent(s): 4634051

fix logger timestamp e aggiunto testo request

Browse files

Files changed (4) hide show

app.py +0 -1
modules/bpo_dispatcher.py +22 -30
modules/utilities/logger.py +14 -5
requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 from modules.utilities import logger
 import time
 import gradio as gr
-import cv2
 import os
 import modules.utilities.utils as utils
 from modules.binary_classification import binary_classification as binary

 from modules.utilities import logger
 import time
 import gradio as gr
 import os
 import modules.utilities.utils as utils
 from modules.binary_classification import binary_classification as binary

modules/bpo_dispatcher.py CHANGED Viewed

@@ -2,7 +2,6 @@ import torch
 from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
 import spacy
 import re
-import os
 import torch.nn.functional as F
 try:
@@ -24,12 +23,10 @@ class BPODispatcher:
         self.model = None
         self.tokenizer = None
         self.nlp = None
-        self.device = "cpu" # In uno Space CPU basic, usa "cuda" solo se hai GPU
-        # 1. BERT (Caricamento da Hugging Face Hub)
         print(f"🔄 Tentativo di caricamento modello da: {model_id}...")
         try:
-            # token=True usa automaticamente il Secret 'HF_TOKEN' dello Space
             self.tokenizer = DistilBertTokenizerFast.from_pretrained(model_id, token=True)
             self.model = DistilBertForSequenceClassification.from_pretrained(model_id, token=True)
             self.model.to(self.device)
@@ -41,7 +38,6 @@ class BPODispatcher:
         except Exception as e:
             print(f"❌ Errore generico BERT: {e}")
-        # 2. spaCy
         try:
             self.nlp = spacy.load("it_core_news_lg")
             print("✅ spaCy caricato.")
@@ -50,7 +46,7 @@ class BPODispatcher:
     def _extract_smart_entities(self, text):
         entities = []
-        occupied_spans = [] # Tiene traccia delle zone di testo già etichettate
         def is_overlapping(start, end):
             """Controlla se la posizione è già occupata"""
@@ -65,19 +61,18 @@ class BPODispatcher:
                 entities.append((text_val, label))
                 occupied_spans.append((start, end))
-        # --- FASE 1: REGEX ALTA PRIORITÀ (Dati Strutturati) ---
-        # A. EMAIL
         for m in re.finditer(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text):
             add_entity(m.group(), "EMAIL", m.start(), m.end())
-        # B. TELEFONO (Mobile e Fisso Italiano)
-        # Cerca pattern tipo 3xx... o 0x... con spazi opzionali
         for m in re.finditer(r'\b(?:3\d{2}|0\d{1,4})[\s.-]?\d{6,10}\b', text):
             add_entity(m.group(), "TELEFONO", m.start(), m.end())
-        # C. NUMERI CONTESTUALI (Fatture, Clienti, Forniture)
-        # Regex migliorata: Accetta anche alfanumerici per codici cliente
         # Pattern: Parola che inizia o finisce con cifra, lunga 4-15 chars
         candidates = re.finditer(r'\b(?=[A-Za-z0-9]*\d)[A-Za-z0-9]{4,15}\b', text)
@@ -92,34 +87,33 @@ class BPODispatcher:
             context = text[max(0, start - window_size):start].lower()
-            # 1. Fatture
             if any(w in context for w in ["fattura", "bolletta", "nota", "nr.", "n."]):
-                # Verifica extra: le fatture solitamente sono solo numeri o hanno /
                 if val.isdigit() or '/' in val:
                     add_entity(val, "N. FATTURA", start, end)
                     continue
-            # 2. Forniture (POD/PDR/Luce/Gas)
             if any(w in context for w in ["luce", "gas", "fornitura", "pod", "pdr", "contatore"]):
                 add_entity(val, "COD. FORNITURA", start, end)
                 continue
-            # 3. Codici Cliente (più generico, accetta alfanumerici)
             if any(w in context for w in ["cliente", "codice", "utenza", "pratica", "id"]):
                 add_entity(val, "CODICE CLIENTE", start, end)
                 continue
-        # --- FASE 2: SPACY BASSA PRIORITÀ (Entità Semantiche) ---
         if self.nlp:
             doc = self.nlp(text)
             for ent in doc.ents:
-                # VALIDAZIONE ANTI-ALLUCINAZIONE
                 # Regola: Una PERSONA non può contenere cifre
                 if ent.label_ == "PER":
                     if any(char.isdigit() for char in ent.text):
-                        continue # Scarta "25458958" classificato come Persona
                     if len(ent.text) < 3:
-                        continue # Scarta nomi troppo corti
                     add_entity(ent.text, "PERSONA", ent.start_char, ent.end_char)
@@ -135,7 +129,7 @@ class BPODispatcher:
         urgency = "Bassa"
         text_lower = text.lower()
-        # 1. Analisi Sentiment
         sentiment_score_neg = 0.0
         sentiment_score_pos = 0.0
@@ -147,14 +141,12 @@ class BPODispatcher:
             except Exception:
                 sentiment_score_neg = 0.5  # Fallback neutro
-        # --- LOGICA DECISIONALE ---
-        # CASO A: CHURN (Disdetta) -> Sempre Critico
         # Indipendentemente dal tono, se uno vuole andare via è priorità assoluta.
         if intent_label == "Retention / Churn Risk":
             return "CRITICA (Rischio Abbandono)"
-        # CASO B: SUPPORTO TECNICO
         elif intent_label == "Supporto Tecnico":
             # Se il cliente è FURIOSO
             if sentiment_score_neg > 0.9:
@@ -171,7 +163,7 @@ class BPODispatcher:
                 # Caso standard: "Ho un problema col wifi" (Neutro/Lievemente negativo)
                 return "MEDIA (Guasto Standard)"
-        # CASO C: AMMINISTRAZIONE / BILLING
         elif intent_label == "Amministrazione / Billing":
             # Le questioni di soldi scaldano gli animi.
             if sentiment_score_neg > 0.9:
@@ -198,7 +190,7 @@ class BPODispatcher:
         if self.model is None: return None, "Errore", []
         if not text.strip(): return None, "Vuoto", []
-        # 1. Intent Classification (BERT)
         inputs = self.tokenizer(text, return_tensors="pt", truncation=True, max_length=128, padding=True)
         inputs = {k: v.to(self.device) for k, v in inputs.items()}
         with torch.no_grad():
@@ -206,14 +198,14 @@ class BPODispatcher:
         probs = F.softmax(outputs.logits, dim=-1)
         label_output = {LABELS_MAP[i]: float(probs[0][i]) for i in range(len(LABELS_MAP))}
-        # Prendi l'intento vincente
         top_idx = torch.max(probs, dim=-1)[1].item()
         predicted_label = LABELS_MAP[top_idx]
-        # 2. Urgenza Intelligente (AI + Sentiment + Rules)
         urgency = self._calculate_smart_urgency(text, predicted_label)
-        # 3. NER Extraction
         entities = self._extract_smart_entities(text)
         return label_output, urgency, entities

 from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
 import spacy
 import re
 import torch.nn.functional as F
 try:
         self.model = None
         self.tokenizer = None
         self.nlp = None
+        self.device = "cpu"
         print(f"🔄 Tentativo di caricamento modello da: {model_id}...")
         try:
             self.tokenizer = DistilBertTokenizerFast.from_pretrained(model_id, token=True)
             self.model = DistilBertForSequenceClassification.from_pretrained(model_id, token=True)
             self.model.to(self.device)
         except Exception as e:
             print(f"❌ Errore generico BERT: {e}")
         try:
             self.nlp = spacy.load("it_core_news_lg")
             print("✅ spaCy caricato.")
     def _extract_smart_entities(self, text):
         entities = []
+        occupied_spans = []
         def is_overlapping(start, end):
             """Controlla se la posizione è già occupata"""
                 entities.append((text_val, label))
                 occupied_spans.append((start, end))
+        # --- REGEX (Dati Strutturati) ---
+        # EMAIL
         for m in re.finditer(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text):
             add_entity(m.group(), "EMAIL", m.start(), m.end())
+        # TELEFONO (Mobile e Fisso Italiano)
+        # pattern tipo 3xx... o 0x... con spazi opzionali
         for m in re.finditer(r'\b(?:3\d{2}|0\d{1,4})[\s.-]?\d{6,10}\b', text):
             add_entity(m.group(), "TELEFONO", m.start(), m.end())
+        # NUMERI CONTESTUALI (Fatture, Clienti, Forniture)
         # Pattern: Parola che inizia o finisce con cifra, lunga 4-15 chars
         candidates = re.finditer(r'\b(?=[A-Za-z0-9]*\d)[A-Za-z0-9]{4,15}\b', text)
             context = text[max(0, start - window_size):start].lower()
+            # Fatture
             if any(w in context for w in ["fattura", "bolletta", "nota", "nr.", "n."]):
+                # le fatture solitamente sono solo numeri o hanno /
                 if val.isdigit() or '/' in val:
                     add_entity(val, "N. FATTURA", start, end)
                     continue
+            # Forniture (POD/PDR/Luce/Gas)
             if any(w in context for w in ["luce", "gas", "fornitura", "pod", "pdr", "contatore"]):
                 add_entity(val, "COD. FORNITURA", start, end)
                 continue
+            # Codici Cliente
             if any(w in context for w in ["cliente", "codice", "utenza", "pratica", "id"]):
                 add_entity(val, "CODICE CLIENTE", start, end)
                 continue
         if self.nlp:
             doc = self.nlp(text)
             for ent in doc.ents:
+                # VALIDAZIONE
                 # Regola: Una PERSONA non può contenere cifre
                 if ent.label_ == "PER":
                     if any(char.isdigit() for char in ent.text):
+                        continue
                     if len(ent.text) < 3:
+                        continue
                     add_entity(ent.text, "PERSONA", ent.start_char, ent.end_char)
         urgency = "Bassa"
         text_lower = text.lower()
+        # Analisi Sentiment
         sentiment_score_neg = 0.0
         sentiment_score_pos = 0.0
             except Exception:
                 sentiment_score_neg = 0.5  # Fallback neutro
+        # CASO CHURN (Disdetta) -> Sempre Critico
         # Indipendentemente dal tono, se uno vuole andare via è priorità assoluta.
         if intent_label == "Retention / Churn Risk":
             return "CRITICA (Rischio Abbandono)"
+        # CASO SUPPORTO TECNICO
         elif intent_label == "Supporto Tecnico":
             # Se il cliente è FURIOSO
             if sentiment_score_neg > 0.9:
                 # Caso standard: "Ho un problema col wifi" (Neutro/Lievemente negativo)
                 return "MEDIA (Guasto Standard)"
+        # CASO AMMINISTRAZIONE / BILLING
         elif intent_label == "Amministrazione / Billing":
             # Le questioni di soldi scaldano gli animi.
             if sentiment_score_neg > 0.9:
         if self.model is None: return None, "Errore", []
         if not text.strip(): return None, "Vuoto", []
+        # Intent Classification (BERT)
         inputs = self.tokenizer(text, return_tensors="pt", truncation=True, max_length=128, padding=True)
         inputs = {k: v.to(self.device) for k, v in inputs.items()}
         with torch.no_grad():
         probs = F.softmax(outputs.logits, dim=-1)
         label_output = {LABELS_MAP[i]: float(probs[0][i]) for i in range(len(LABELS_MAP))}
+        # Prendo l'intento vincente
         top_idx = torch.max(probs, dim=-1)[1].item()
         predicted_label = LABELS_MAP[top_idx]
+        # Urgenza (AI + Sentiment + Rules)
         urgency = self._calculate_smart_urgency(text, predicted_label)
+        # NER Extraction
         entities = self._extract_smart_entities(text)
         return label_output, urgency, entities

modules/utilities/logger.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import os
 import uuid
 import csv
-import threading
 from datetime import datetime
 from pathlib import Path
 from huggingface_hub import CommitScheduler, HfApi
@@ -11,7 +11,8 @@ DATASET_REPO_ID = "NextGenTech/ngt-ai-platform-logs"
 LOG_DIR = Path("data/logs")
 LOG_FILE = LOG_DIR / "access_logs.csv"
 HF_TOKEN = os.environ.get("HF_TOKEN")
-TIME = 2 # Minuti che intercorrono tra gli aggiornamenti del dataset
 LOG_DIR.mkdir(parents=True, exist_ok=True)
@@ -22,7 +23,7 @@ if not LOG_FILE.exists() or LOG_FILE.stat().st_size == 0:
         writer = csv.writer(f, lineterminator='\n')
         writer.writerow([
             "timestamp", "session_id", "module", "action",
-            "ip_address", "user_agent", "language", "input_size", "processing_time"
         ])
     if HF_TOKEN:
@@ -65,18 +66,25 @@ def log_interaction(request, module_name, action, input_data=None, execution_tim
         session_id = str(uuid.uuid5(uuid.NAMESPACE_DNS, session_raw))[:8]
         input_meta = "0"
         if isinstance(input_data, str):
             input_meta = f"{len(input_data)} chars"
         elif hasattr(input_data, 'shape'):
             input_meta = f"{input_data.shape}"
         elif input_data is not None:
             input_meta = "Binary/File"
         with scheduler.lock:
             with open(LOG_FILE, "a", newline="", encoding="utf-8") as f:
                 writer = csv.writer(f, lineterminator='\n')
                 writer.writerow([
-                    datetime.now().isoformat(),
                     session_id,
                     module_name,
                     action,
@@ -84,6 +92,7 @@ def log_interaction(request, module_name, action, input_data=None, execution_tim
                     user_agent,
                     language,
                     input_meta,
                     f"{execution_time:.4f}s"
                 ])

 import os
 import uuid
 import csv
+import pytz
 from datetime import datetime
 from pathlib import Path
 from huggingface_hub import CommitScheduler, HfApi
 LOG_DIR = Path("data/logs")
 LOG_FILE = LOG_DIR / "access_logs.csv"
 HF_TOKEN = os.environ.get("HF_TOKEN")
+ITALY_TZ = pytz.timezone("Europe/Rome")
+TIME = 5 # Minuti che intercorrono tra gli aggiornamenti del dataset
 LOG_DIR.mkdir(parents=True, exist_ok=True)
         writer = csv.writer(f, lineterminator='\n')
         writer.writerow([
             "timestamp", "session_id", "module", "action",
+            "ip_address", "user_agent", "language", "input_size", "input_text" ,"processing_time"
         ])
     if HF_TOKEN:
         session_id = str(uuid.uuid5(uuid.NAMESPACE_DNS, session_raw))[:8]
         input_meta = "0"
+        input_text_content = ""
+        now_italy = datetime.now(ITALY_TZ)
         if isinstance(input_data, str):
             input_meta = f"{len(input_data)} chars"
+            clean_text = input_data.replace('\n', ' ').replace('\r', '')
+            input_text_content = (clean_text[:1000] + '..') if len(clean_text) > 1000 else clean_text
         elif hasattr(input_data, 'shape'):
             input_meta = f"{input_data.shape}"
+            input_text_content = "[IMAGE/BINARY DATA]"
         elif input_data is not None:
             input_meta = "Binary/File"
+            input_text_content = "[FILE]"
         with scheduler.lock:
             with open(LOG_FILE, "a", newline="", encoding="utf-8") as f:
                 writer = csv.writer(f, lineterminator='\n')
                 writer.writerow([
+                    now_italy.isoformat(),
                     session_id,
                     module_name,
                     action,
                     user_agent,
                     language,
                     input_meta,
+                    input_text_content,
                     f"{execution_time:.4f}s"
                 ])

requirements.txt CHANGED Viewed

@@ -26,6 +26,7 @@ spacy==3.8.2
 nltk>=3.8.1
 scikit-learn>=1.3.0
 plotly>=5.0.0
 # --- IMAGE PROCESSING ---
 opencv-python-headless

 nltk>=3.8.1
 scikit-learn>=1.3.0
 plotly>=5.0.0
+pytz # per gestire il fuso orario
 # --- IMAGE PROCESSING ---
 opencv-python-headless