Spaces:

DanielRN
/

Valer-IA

Sleeping

App Files Files Community

DanielRN commited on Feb 24, 2025

Commit

9532736

verified ·

1 Parent(s): b1346d4

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -14

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import re
 import random
 import gradio as gr
-from fuzzywuzzy import fuzz
 # Cargar dataset desde archivo
 def cargar_dataset(filename="datos_alojamientos.txt"):
@@ -14,6 +14,9 @@ def cargar_dataset(filename="datos_alojamientos.txt"):
 dataset = cargar_dataset()
 # Normalización de texto
 def limpiar_texto(texto):
     return re.sub(r'\s+', ' ', texto.strip().lower())
@@ -26,23 +29,31 @@ def obtener_servicios(texto):
     match = re.findall(r"servicios\s*:\s*(.+)", texto, re.IGNORECASE | re.MULTILINE)
     return "\n".join([f"🛠 {s.strip()}" for s in match[0].split(",")]) if match else "No especificado"
-# Filtrar alojamientos
 def filtrar_alojamientos(pregunta):
     pregunta = limpiar_texto(pregunta)
     resultados = []
-    cantidad_solicitada = next((int(p) for p in pregunta.split() if p.isdigit()), None)
-    busca_mascotas = "mascota" in pregunta or "pet friendly" in pregunta
-    busca_wifi = "wifi" in pregunta or "internet" in pregunta
     for alojamiento in dataset:
-        if (cantidad_solicitada and f"plazas: {cantidad_solicitada}" in alojamiento.lower()) or \
-           (busca_mascotas and "mascotas: sí" in alojamiento.lower()) or \
-           (busca_wifi and "wifi: sí" in alojamiento.lower()) or \
-           fuzz.partial_ratio(pregunta, alojamiento) > 70:
-            resultados.append(alojamiento)
-    random.shuffle(resultados)
-    return resultados
 # Formatear la respuesta
 def formatear_alojamiento(texto):
@@ -105,5 +116,4 @@ with gr.Blocks() as iface:
     preguntar_btn.click(actualizar_chat, inputs=[chat_historial, pregunta_input], outputs=[chat_historial, pregunta_input])
 if __name__ == "__main__":
-    iface.launch()

 import re
 import random
 import gradio as gr
+from transformers import pipeline
 # Cargar dataset desde archivo
 def cargar_dataset(filename="datos_alojamientos.txt"):
 dataset = cargar_dataset()
+# Cargar TinyBERT para búsqueda semántica
+tinybert_pipeline = pipeline("feature-extraction", model="huawei-noah/TinyBERT_General_4L_312D")
 # Normalización de texto
 def limpiar_texto(texto):
     return re.sub(r'\s+', ' ', texto.strip().lower())
     match = re.findall(r"servicios\s*:\s*(.+)", texto, re.IGNORECASE | re.MULTILINE)
     return "\n".join([f"🛠 {s.strip()}" for s in match[0].split(",")]) if match else "No especificado"
+# Filtrar alojamientos usando TinyBERT
 def filtrar_alojamientos(pregunta):
     pregunta = limpiar_texto(pregunta)
     resultados = []
+    # Convertir la pregunta en un embedding usando TinyBERT
+    pregunta_embedding = tinybert_pipeline(pregunta)[0][0]  # Extraer el embedding de la pregunta
     for alojamiento in dataset:
+        # Convertir el alojamiento en un embedding
+        alojamiento_embedding = tinybert_pipeline(alojamiento)[0][0]
+        # Calcular la similitud entre la pregunta y el alojamiento (similitud de coseno)
+        similitud = sum(p * a for p, a in zip(pregunta_embedding, alojamiento_embedding)) / (
+            (sum(p**2 for p in pregunta_embedding) ** 0.5) * (sum(a**2 for a in alojamiento_embedding) ** 0.5)
+        # Si la similitud es mayor a un umbral, agregar el alojamiento a los resultados
+        if similitud > 0.7:  # Umbral de similitud ajustable
+            resultados.append((alojamiento, similitud))
+    # Ordenar los resultados por similitud (de mayor a menor)
+    resultados.sort(key=lambda x: x[1], reverse=True)
+    # Devolver solo los alojamientos (sin las puntuaciones de similitud)
+    return [alojamiento for alojamiento, _ in resultados]
 # Formatear la respuesta
 def formatear_alojamiento(texto):
     preguntar_btn.click(actualizar_chat, inputs=[chat_historial, pregunta_input], outputs=[chat_historial, pregunta_input])
 if __name__ == "__main__":
+    iface.launch()