Spaces:

MarcosFRGames
/

TeleChars-AI-API

Running

App Files Files

MarcosFRGames commited on Dec 20, 2025

Commit

ad055c8

verified ·

1 Parent(s): 6c9c1ac

Update app.py

Browse files

Files changed (1) hide show

app.py +91 -6

app.py CHANGED Viewed

@@ -123,9 +123,30 @@ class LLMManager:
             def generate():
                 try:
                     result[0] = model_data["instance"].create_chat_completion(
                         messages=messages,
-                        **kwargs
                     )
                 except Exception as e:
                     exception[0] = e
@@ -213,7 +234,10 @@ def home():
             • top_p= (0.0-1.0)<br>
             • top_k= (0-100)<br>
             • model= (nombre del modelo)<br>
-            • max_tokens= (máximo tokens a generar, default: {MAX_GENERATION_TOKENS})
         </div>
         <div class="endpoint">
@@ -279,6 +303,11 @@ def generate_endpoint(user_message):
         model_name = request.args.get('model', MODELS[0]["name"])
         max_tokens = int(request.args.get('max_tokens', MAX_GENERATION_TOKENS))
         # Validar rangos
         if not 0 <= temperature <= 2:
             return Response(
@@ -301,6 +330,55 @@ def generate_endpoint(user_message):
                 mimetype='text/plain'
             )
         # Limitar max_tokens a la configuración máxima
         if max_tokens > MAX_GENERATION_TOKENS:
             max_tokens = MAX_GENERATION_TOKENS
@@ -328,10 +406,17 @@ def generate_endpoint(user_message):
         }
         if top_k:
-            try:
-                kwargs["top_k"] = int(top_k)
-            except ValueError:
-                return Response("Error: top_k debe ser número entero", status=400)
         # Generar respuesta
         result = llm_manager.chat_completion(model_name, messages, **kwargs)

             def generate():
                 try:
+                    # Convertir parámetros de OpenAI a parámetros de llama.cpp
+                    llama_kwargs = kwargs.copy()
+                    # Mapear repetition_penalty a repeat_penalty
+                    if 'repetition_penalty' in llama_kwargs:
+                        llama_kwargs['repeat_penalty'] = llama_kwargs.pop('repetition_penalty')
+                    # presence_penalty y frequency_penalty no son soportados directamente por llama.cpp
+                    # Se mantienen en los kwargs pero no se pasan a la llamada
+                    # ya que llama.cpp solo acepta repeat_penalty
+                    # Filtrar solo los parámetros que acepta llama.cpp
+                    valid_params = [
+                        'temperature', 'top_p', 'top_k', 'max_tokens', 'stream',
+                        'stop', 'seed', 'repeat_penalty', 'frequency_penalty',
+                        'presence_penalty', 'repetition_penalty'  # Estos últimos para compatibilidad
+                    ]
+                    filtered_kwargs = {k: v for k, v in llama_kwargs.items()
+                                     if k in valid_params and not (k in ['frequency_penalty', 'presence_penalty', 'repetition_penalty'] and k != 'repeat_penalty')}
                     result[0] = model_data["instance"].create_chat_completion(
                         messages=messages,
+                        **filtered_kwargs
                     )
                 except Exception as e:
                     exception[0] = e
             • top_p= (0.0-1.0)<br>
             • top_k= (0-100)<br>
             • model= (nombre del modelo)<br>
+            • max_tokens= (máximo tokens a generar, default: {MAX_GENERATION_TOKENS})<br>
+            • repetition_penalty= (penalización de repetición, 1.0-2.0)<br>
+            • presence_penalty= (penalización de presencia, -2.0 a 2.0)<br>
+            • frequency_penalty= (penalización de frecuencia, -2.0 a 2.0)
         </div>
         <div class="endpoint">
         model_name = request.args.get('model', MODELS[0]["name"])
         max_tokens = int(request.args.get('max_tokens', MAX_GENERATION_TOKENS))
+        # Nuevos parámetros para penalizaciones
+        repetition_penalty = request.args.get('repetition_penalty')
+        presence_penalty = request.args.get('presence_penalty')
+        frequency_penalty = request.args.get('frequency_penalty')
         # Validar rangos
         if not 0 <= temperature <= 2:
             return Response(
                 mimetype='text/plain'
             )
+        # Validar penalizaciones si están presentes
+        if repetition_penalty:
+            try:
+                repetition_penalty = float(repetition_penalty)
+                if not 1.0 <= repetition_penalty <= 2.0:
+                    return Response(
+                        f"Error: El parámetro 'repetition_penalty' debe estar entre 1.0 y 2.0",
+                        status=400,
+                        mimetype='text/plain'
+                    )
+            except ValueError:
+                return Response(
+                    "Error: repetition_penalty debe ser número válido",
+                    status=400,
+                    mimetype='text/plain'
+                )
+        if presence_penalty:
+            try:
+                presence_penalty = float(presence_penalty)
+                if not -2.0 <= presence_penalty <= 2.0:
+                    return Response(
+                        f"Error: El parámetro 'presence_penalty' debe estar entre -2.0 y 2.0",
+                        status=400,
+                        mimetype='text/plain'
+                    )
+            except ValueError:
+                return Response(
+                    "Error: presence_penalty debe ser número válido",
+                    status=400,
+                    mimetype='text/plain'
+                )
+        if frequency_penalty:
+            try:
+                frequency_penalty = float(frequency_penalty)
+                if not -2.0 <= frequency_penalty <= 2.0:
+                    return Response(
+                        f"Error: El parámetro 'frequency_penalty' debe estar entre -2.0 y 2.0",
+                        status=400,
+                        mimetype='text/plain'
+                    )
+            except ValueError:
+                return Response(
+                    "Error: frequency_penalty debe ser número válido",
+                    status=400,
+                    mimetype='text/plain'
+                )
         # Limitar max_tokens a la configuración máxima
         if max_tokens > MAX_GENERATION_TOKENS:
             max_tokens = MAX_GENERATION_TOKENS
         }
         if top_k:
+            kwargs["top_k"] = int(top_k)
+        # Añadir penalizaciones si están presentes
+        if repetition_penalty:
+            kwargs["repetition_penalty"] = repetition_penalty
+        if presence_penalty:
+            kwargs["presence_penalty"] = presence_penalty
+        if frequency_penalty:
+            kwargs["frequency_penalty"] = frequency_penalty
         # Generar respuesta
         result = llm_manager.chat_completion(model_name, messages, **kwargs)