TeleChars-AI-API2

Running

App Files Files Community

MarcosFRGames commited on Dec 2, 2025

Commit

e50dba9

verified ·

1 Parent(s): 27e596e

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -28

app.py CHANGED Viewed

@@ -1,13 +1,13 @@
 from flask import Flask, request, jsonify, Response
 import os
 import logging
 import time
 from llama_cpp import Llama
 import requests
 import tempfile
 import json
 from concurrent.futures import ThreadPoolExecutor
-import threading
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
@@ -96,44 +96,47 @@ class LLMManager:
     def chat_completion(self, model_name, messages, **kwargs):
         """Generar respuesta con modelo específico"""
-        # Intentar obtener el lock (no bloqueante)
         if not self.generation_lock.acquire(blocking=False):
             return {"error": "Servidor ocupado - Generación en progreso"}
         try:
             model_data = self.get_model(model_name)
             if not model_data or not model_data["loaded"]:
                 error_msg = f"Modelo {model_name} no cargado"
                 if model_data and "error" in model_data:
                     error_msg += f": {model_data['error']}"
                 return {"error": error_msg}
-            import signal
-            def timeout_handler(signum, frame):
-                raise TimeoutError("Timeout en generación (120 segundos)")
-            # Configurar timeout (120 segundos)
-            signal.signal(signal.SIGALRM, timeout_handler)
-            signal.alarm(120)
-            try:
-                response = model_data["instance"].create_chat_completion(
-                    messages=messages,
-                    **kwargs
-                )
-            finally:
-                signal.alarm(0)  # Cancelar timeout
-            response["provider"] = "telechars-ai"
-            response["model"] = model_name
-            return response
         finally:
-            # Siempre liberar el lock
             self.generation_lock.release()
     def get_loaded_models(self):
         """Obtener lista de modelos cargados"""
         loaded = []

 from flask import Flask, request, jsonify, Response
 import os
 import logging
+import threading
 import time
 from llama_cpp import Llama
 import requests
 import tempfile
 import json
 from concurrent.futures import ThreadPoolExecutor
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
     def chat_completion(self, model_name, messages, **kwargs):
         """Generar respuesta con modelo específico"""
         if not self.generation_lock.acquire(blocking=False):
             return {"error": "Servidor ocupado - Generación en progreso"}
         try:
             model_data = self.get_model(model_name)
             if not model_data or not model_data["loaded"]:
                 error_msg = f"Modelo {model_name} no cargado"
                 if model_data and "error" in model_data:
                     error_msg += f": {model_data['error']}"
                 return {"error": error_msg}
+            result = [None]
+            exception = [None]
+            def generate():
+                try:
+                    result[0] = model_data["instance"].create_chat_completion(
+                        messages=messages,
+                        **kwargs
+                    )
+                except Exception as e:
+                    exception[0] = e
+            gen_thread = threading.Thread(target=generate)
+            gen_thread.start()
+            gen_thread.join(timeout=120)
+            if gen_thread.is_alive():
+                return {"error": "Timeout en generación (120 segundos)"}
+            if exception[0]:
+                raise exception[0]
+            result[0]["provider"] = "telechars-ai"
+            result[0]["model"] = model_name
+            return result[0]
         finally:
             self.generation_lock.release()
     def get_loaded_models(self):
         """Obtener lista de modelos cargados"""
         loaded = []