Spaces:

perellorets
/

alia

Paused

App Files Files Community

perellorets commited on Jan 18

Commit

a267084

verified ·

1 Parent(s): 2fcd754

Update rag_system.py

Browse files

Files changed (1) hide show

rag_system.py +22 -29

rag_system.py CHANGED Viewed

@@ -138,42 +138,28 @@ class RAGLLMSystem:
         self,
         query: str,
         context_docs: List[Dict],
-        max_new_tokens: int = 1024,
         temperature: float = 0.7,
         top_p: float = 0.9
     ) -> str:
         """Generar respuesta con Salamandra."""
-        # Construir contexto
         context_text = "\n\n---\n\n".join([
-            f"[Documento: {doc['filename']}]\n{doc['content'][:2000]}"
-            for doc in context_docs
         ])
-        # Prompt
-        prompt = f"""Eres ALIA, un asistente experto en planificacion estrategica turistica de la Comunidad Valenciana.
-Tu funcion es ayudar a funcionarios publicos, tecnicos de turismo y responsables de destinos turisticos a:
-- Comprender y aplicar estrategias de planes turisticos
-- Obtener informacion sobre mejores practicas en turismo sostenible
-- Consultar casos de exito de otros municipios
-- Disenar e implementar planes estrategicos turisticos
-INSTRUCCIONES:
-1. Responde SIEMPRE basandote en los documentos proporcionados
-2. Si la informacion no esta en los documentos, indica claramente que no la tienes
-3. Cita los documentos fuente cuando sea relevante
-4. Usa un tono profesional pero accesible
-5. Estructura tus respuestas de forma clara con bullets o numeracion cuando sea apropiado
-CONTEXTO (Documentos de planes estrategicos de turismo):
 {context_text}
-PREGUNTA DEL USUARIO:
-{query}
-RESPUESTA:"""
         # Tokenizar
         inputs = self.tokenizer(
@@ -187,29 +173,36 @@ RESPUESTA:"""
         if self.device == 'cuda':
             inputs = {k: v.cuda() for k, v in inputs.items()}
-        # Generar
         try:
             with torch.no_grad():
                 outputs = self.llm_model.generate(
                     **inputs,
-                    max_new_tokens=max_new_tokens,
                     temperature=temperature,
                     top_p=top_p,
                     do_sample=True,
                     pad_token_id=self.tokenizer.eos_token_id,
                     eos_token_id=self.tokenizer.eos_token_id,
                 )
             # Decodificar
             response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
-            # Extraer respuesta
-            if "RESPUESTA:" in response:
-                response = response.split("RESPUESTA:")[-1].strip()
-            return response
         except Exception as e:
             return f"Error generando respuesta: {str(e)}"
     def query(

         self,
         query: str,
         context_docs: List[Dict],
+        max_new_tokens: int = 512,
         temperature: float = 0.7,
         top_p: float = 0.9
     ) -> str:
         """Generar respuesta con Salamandra."""
+        # Construir contexto (limitado para evitar timeouts)
         context_text = "\n\n---\n\n".join([
+            f"[Doc: {doc['filename'][:30]}]\n{doc['content'][:1000]}"
+            for doc in context_docs[:3]  # Solo top 3 docs
         ])
+        # Prompt optimizado (más corto)
+        prompt = f"""Eres ALIA, asistente de turismo de la Comunidad Valenciana.
+Responde basandote en estos documentos:
 {context_text}
+PREGUNTA: {query}
+RESPUESTA (sé conciso):"""
         # Tokenizar
         inputs = self.tokenizer(
         if self.device == 'cuda':
             inputs = {k: v.cuda() for k, v in inputs.items()}
+        # Generar con parametros optimizados
         try:
+            print(f"[GENERATE] Iniciando generacion en {self.device}...")
             with torch.no_grad():
                 outputs = self.llm_model.generate(
                     **inputs,
+                    max_new_tokens=min(max_new_tokens, 256),  # Limitar a 256 tokens max
                     temperature=temperature,
                     top_p=top_p,
                     do_sample=True,
+                    num_beams=1,  # Greedy decoding para velocidad
                     pad_token_id=self.tokenizer.eos_token_id,
                     eos_token_id=self.tokenizer.eos_token_id,
                 )
+            print(f"[GENERATE] Generacion completada")
             # Decodificar
             response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
+            # Extraer solo la respuesta generada
+            if "RESPUESTA" in response:
+                response = response.split("RESPUESTA")[-1].strip()
+                response = response.replace("(sé conciso):", "").strip()
+            return response[:2000]  # Limitar largo de respuesta
         except Exception as e:
+            print(f"[ERROR] Error en generacion: {str(e)}")
             return f"Error generando respuesta: {str(e)}"
     def query(