Improve answer accuracy by filtering common words

Update tokenization logic to filter stopwords and adjust similarity thresholds, preventing irrelevant matches and ensuring more accurate responses.

Replit-Commit-Author: Agent
Replit-Commit-Session-Id: e3ff2484-bbd8-4aba-bea0-1940769b874a
Replit-Commit-Checkpoint-Type: full_checkpoint
Replit-Commit-Event-Id: 09a5cc1f-d121-4d89-855a-0fa80b39cc51
Replit-Commit-Screenshot-Url: https://storage.googleapis.com/screenshot-production-us-central1/1739408b-93a5-479b-a658-30f2493b0467/e3ff2484-bbd8-4aba-bea0-1940769b874a/3MbPI1V
Replit-Helium-Checkpoint-Created: true

Files changed (2) hide show

attached_assets/Pasted-hola-quiero-datos-sobre-supernova-gen-sis-Hola-Soy-EYES_1778872508645.txt +55 -0
chat-app/logica.py +29 -12

attached_assets/Pasted-hola-quiero-datos-sobre-supernova-gen-sis-Hola-Soy-EYES_1778872508645.txt ADDED Viewed

	@@ -0,0 +1,55 @@

+hola, quiero datos sobre supernova genésis
+¡Hola! Soy EYES-1.13.1, tu asistente de IA. ¿En qué puedo ayudarte hoy?
+¿Algo más en lo que pueda ayudarte?
+que es supernova génesis
+Aquí tienes las licencias más importantes y sus explicaciones:
+COPYRIGHT:
+Es una licencia que la mayoría de páginas web, videos, series y películas utilizan para que nadie monetice, publique u otras cosas sin autorización del creador original. (YouTube, TikTok y otras apps a veces pueden banear por copyright)
+Reglas de CC ⚠️:
+BY (Atribución): Debes mencionar al autor original del contenido.
+NC (No Monetizar): El usuario no puede usar el contenido para monetizarlo.
+ND (Sin derivadas): El usuario no puede modificar el contenido.
+SA (Compartir): Si modificas el contenido, tiene que tener la misma licencia.
+Apache License 2.0:
+✅ Similar a MIT.
+✅ Incluye protección contra patentes, útil para empresas.
+La regla: Si haces una versión modificada del proyecto, es obligatorio publicarla con licencia GPL. Se llama "copyleft" para asegurarse de que el software siempre siga siendo libre. GPL es ideal para software y código.
+Ejemplo: Si una imagen tiene CC-BY, te deja usar el contenido y la única regla es mencionar al autor original.
+MIT:
+Una licencia muy popular porque no tiene ninguna restricción. Los usuarios pueden:
+✅ Usar.
+✅ Vender.
+✅ Modificar.
+✅ Integrar el código en proyectos privados.
+CC (Creative Commons):
+Una licencia donde puedes usar el contenido, adaptarlo y modificarlo.
+GPL (GNU General Public License):
+Licencia de software libre creada por Free Software Foundation. Usada en proyectos como Linux.
+✅ Puedes usar el software libremente.
+✅ Modificarlo.
+✅ Distribuirlo.
+Ejemplo: Juan sube un contenido de arte. María lo sube, pero no la dejan monetizar y avisan a Juan que un usuario subió su contenido sin acuerdos legales.
+📋 Resumen:
+GPL: Obliga a que la versión modificada del proyecto sea abierta.
+MIT: Puedes hacer casi lo que quieras con el código.
+Apache 2.0: Parecido a MIT, pero con protección extra de patentes.

chat-app/logica.py CHANGED Viewed

@@ -163,38 +163,55 @@ RESPUESTAS_PERSONALIZADAS = cargar_respuestas()
 # ── TOKENIZADOR ────────────────────────────────────────────────────────────────
 def tokenizar(texto):
     """
     Convierte texto a lista de tokens normalizados:
     1. Elimina tildes/acentos
     2. Convierte a minúsculas
     3. Elimina puntuación
-    4. Divide en palabras (tokens)
     """
-    # 1. Normalizar unicode → eliminar acentos
     texto = unicodedata.normalize("NFD", texto)
     texto = "".join(c for c in texto if unicodedata.category(c) != "Mn")
-    # 2. Minúsculas
     texto = texto.lower()
-    # 3. Eliminar puntuación (conservar letras, números y espacios)
     texto = re.sub(r"[^\w\s]", " ", texto)
-    # 4. Dividir en tokens
-    return [t for t in texto.split() if t]
 def similitud_tokens(tokens_entrada, tokens_patron):
     """
-    Calcula similitud Jaccard entre dos listas de tokens.
-    También da bonus si el patrón es subconjunto del mensaje.
-    Retorna un score entre 0.0 y 1.0
     """
     set_entrada = set(tokens_entrada)
     set_patron  = set(tokens_patron)
-    if not set_patron:
         return 0.0
     interseccion = set_entrada & set_patron
-    union        = set_entrada | set_patron
-    jaccard      = len(interseccion) / len(union)
     # Bonus: si todos los tokens del patrón están en la entrada
     if set_patron.issubset(set_entrada):

 # ── TOKENIZADOR ────────────────────────────────────────────────────────────────
+# Palabras vacías en español — no aportan significado semántico propio.
+# Filtrarlas evita falsos matches como "que es supernova" → licencias.
+STOPWORDS = {
+    "que", "es", "el", "la", "los", "las", "un", "una", "unos", "unas",
+    "de", "del", "al", "a", "en", "por", "para", "con", "sin", "sobre",
+    "como", "se", "me", "te", "le", "nos", "les", "lo", "y", "o", "pero",
+    "si", "no", "ni", "mas", "muy", "bien", "mal", "ya", "hay", "ser",
+    "sus", "tu", "yo", "mi", "su", "fue", "son", "era", "han", "tiene",
+    "cuál", "cual", "cuales", "cuáles", "qué", "quien", "donde", "cuando",
+    "como", "cómo", "dónde", "quién", "qué", "cuánto", "cuanto",
+    "este", "esta", "estos", "estas", "ese", "esa", "esos", "esas",
+    "me", "puedes", "puedo", "puede", "quiero", "quieres", "dame",
+    "dime", "dime", "hay", "tiene", "tienen", "tengo",
+}
 def tokenizar(texto):
     """
     Convierte texto a lista de tokens normalizados:
     1. Elimina tildes/acentos
     2. Convierte a minúsculas
     3. Elimina puntuación
+    4. Divide en tokens y filtra stopwords
     """
     texto = unicodedata.normalize("NFD", texto)
     texto = "".join(c for c in texto if unicodedata.category(c) != "Mn")
     texto = texto.lower()
     texto = re.sub(r"[^\w\s]", " ", texto)
+    return [t for t in texto.split() if t and t not in STOPWORDS]
 def similitud_tokens(tokens_entrada, tokens_patron):
     """
+    Calcula similitud Jaccard sobre tokens significativos (sin stopwords).
+    Requisito mínimo: al menos 1 token significativo en común.
+    Retorna 0.0 si no hay intersección de tokens significativos.
     """
     set_entrada = set(tokens_entrada)
     set_patron  = set(tokens_patron)
+    if not set_patron or not set_entrada:
         return 0.0
     interseccion = set_entrada & set_patron
+    # Sin ningún token significativo en común → score 0 (evita falsos matches)
+    if not interseccion:
+        return 0.0
+    union   = set_entrada | set_patron
+    jaccard = len(interseccion) / len(union)
     # Bonus: si todos los tokens del patrón están en la entrada
     if set_patron.issubset(set_entrada):