Spaces:

Madras1
/

StrandDemo

Sleeping

Madras1 commited on Jan 5

Commit

265c49f

verified ·

1 Parent(s): e4664a9

Upload 4 files

Files changed (1) hide show

app.py CHANGED Viewed

@@ -142,16 +142,21 @@ def compute_quality_score(text: str) -> tuple[float, str, str]:
     Retorna: (similarity_score, quality_label, verdict)
     """
     with torch.no_grad():
-        text_embedding = sbert_model.encode(text, convert_to_tensor=True)
-        # Debug: log para ver o que está acontecendo
         text_norm = torch.norm(text_embedding).item()
-        anchor_norm = torch.norm(ANCHOR_EMBEDDING).item()
-        print(f"📊 DEBUG - Text embedding norm: {text_norm:.4f}")
-        print(f"📊 DEBUG - Anchor embedding norm: {anchor_norm:.4f}")
         print(f"📊 DEBUG - Text[:50]: {text[:50]}...")
-        similarity = util.cos_sim(text_embedding, ANCHOR_EMBEDDING).item()
         print(f"📊 DEBUG - Similaridade calculada: {similarity:.4f}")
     # Classificação baseada no threshold
@@ -353,8 +358,9 @@ async def compute_similarity(request: SimilarityRequest):
         raise HTTPException(status_code=400, detail="Texto não pode estar vazio")
     with torch.no_grad():
-        text_embedding = sbert_model.encode(request.text, convert_to_tensor=True)
-        similarity = util.cos_sim(text_embedding, ANCHOR_EMBEDDING).item()
     return SimilarityResponse(
         similarity=round(similarity, 4),

     Retorna: (similarity_score, quality_label, verdict)
     """
     with torch.no_grad():
+        # Encode com normalização para garantir cálculo correto de cosseno
+        text_embedding = sbert_model.encode(text, convert_to_tensor=True, normalize_embeddings=True)
+        # Normalizar o anchor também (se não estiver normalizado)
+        anchor_normalized = ANCHOR_EMBEDDING / torch.norm(ANCHOR_EMBEDDING)
+        # Debug
         text_norm = torch.norm(text_embedding).item()
+        anchor_norm = torch.norm(anchor_normalized).item()
+        print(f"📊 DEBUG - Text embedding norm (deve ser ~1.0): {text_norm:.4f}")
+        print(f"📊 DEBUG - Anchor norm (deve ser ~1.0): {anchor_norm:.4f}")
         print(f"📊 DEBUG - Text[:50]: {text[:50]}...")
+        # Similaridade de cosseno (com vetores normalizados = dot product)
+        similarity = util.cos_sim(text_embedding, anchor_normalized).item()
         print(f"📊 DEBUG - Similaridade calculada: {similarity:.4f}")
     # Classificação baseada no threshold
         raise HTTPException(status_code=400, detail="Texto não pode estar vazio")
     with torch.no_grad():
+        text_embedding = sbert_model.encode(request.text, convert_to_tensor=True, normalize_embeddings=True)
+        anchor_normalized = ANCHOR_EMBEDDING / torch.norm(ANCHOR_EMBEDDING)
+        similarity = util.cos_sim(text_embedding, anchor_normalized).item()
     return SimilarityResponse(
         similarity=round(similarity, 4),