Spaces:

MarcosFRGames
/

TeleChars-AI-API

Running

App Files Files

MarcosFRGames commited on 28 days ago

Commit

9322f88

verified ·

1 Parent(s): 1a6add1

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -52

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import threading
 import time
 import subprocess
 import sys
-subprocess.check_call([sys.executable, "-m", "pip", "install", "llama-cpp-python==0.3.15"])
 from llama_cpp import Llama
 import requests
 import tempfile
@@ -16,7 +16,7 @@ from concurrent.futures import ThreadPoolExecutor
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
-MAX_CONTEXT_TOKENS = 1024 * 4
 MAX_GENERATION_TOKENS = 1024 * 4
 with open('engines.json', 'r') as f:
@@ -56,7 +56,7 @@ class LLMManager:
                     n_threads=2,
                     n_threads_batch=2,
                     use_mlock=True,
-                    mmap=True,
                     low_vram=False,
                     vocab_only=False,
                     verbose=False,
@@ -179,62 +179,22 @@ def home():
         status_html += f"<li>{model_name}: {status}</li>"
     status_html += "</ul>"
-    return f'''
-    <!DOCTYPE html>
-    <html>
     <head>
         <title>TeleChars AI API</title>
-        <style>
-            body {{ font-family: Arial, sans-serif; margin: 40px; }}
-            .config {{ background: #f0f0f0; padding: 15px; border-radius: 5px; margin-bottom: 20px; }}
-            .endpoint {{ background: #e8f4f8; padding: 10px; border-left: 4px solid #2196F3; margin: 10px 0; }}
-        </style>
     </head>
     <body>
         <h1>TeleChars AI API</h1>
-        <div class="config">
-            <h3>⚙️ Configuración</h3>
-            <p><strong>Max Context Tokens:</strong> {MAX_CONTEXT_TOKENS}</p>
-            <p><strong>Max Generation Tokens:</strong> {MAX_GENERATION_TOKENS}</p>
-        </div>
-        <h2>📦 Modelos cargados:</h2>
-        {status_html}
-        <p>Total modelos: {len(loaded_models)}/{len(MODELS)}</p>
         <h2>🔗 Endpoints disponibles:</h2>
-        <div class="endpoint">
-            <strong>GET /generate/&lt;mensaje&gt;[?params]</strong><br>
-            Devuelve solo el texto generado. Parámetros opcionales:<br>
-            • system= (instrucciones del sistema)<br>
-            • temperature= (0.0-2.0)<br>
-            • top_p= (0.0-1.0)<br>
-            • top_k= (0-100)<br>
-            • model= (nombre del modelo)<br>
-            • max_tokens= (máximo tokens a generar, default: {MAX_GENERATION_TOKENS})<br>
-            • repetition_penalty= (penalización de repetición)<br>
-            • presence_penalty= (penalización de presencia)<br>
-            • frequency_penalty= (penalización de frecuencia)
-        </div>
-        <div class="endpoint">
-            <strong>POST /v1/chat/completions</strong><br>
-            Compatible con OpenAI API
-        </div>
-        <div class="endpoint">
-            <strong>GET /health</strong><br>
-            Estado del servicio
-        </div>
-        <div class="endpoint">
-            <strong>GET /models</strong><br>
-            Lista todos los modelos disponibles
-        </div>
     </body>
-    </html>
-    '''
 @app.route('/v1/chat/completions', methods=['POST'])
 def chat_completions():

 import time
 import subprocess
 import sys
+subprocess.check_call([sys.executable, "-m", "pip", "install", "llama-cpp-python==0.3.20"])
 from llama_cpp import Llama
 import requests
 import tempfile
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
+MAX_CONTEXT_TOKENS = 1024 * 16
 MAX_GENERATION_TOKENS = 1024 * 4
 with open('engines.json', 'r') as f:
                     n_threads=2,
                     n_threads_batch=2,
                     use_mlock=True,
+                    mmap=False,
                     low_vram=False,
                     vocab_only=False,
                     verbose=False,
         status_html += f"<li>{model_name}: {status}</li>"
     status_html += "</ul>"
+    return f'''<!DOCTYPE html><html>
     <head>
         <title>TeleChars AI API</title>
+        <style>body{{font-family:Arial, sans-serif;margin:40px}}.config{{background:#f0f0f0;padding:15px;border-radius:5px;margin-bottom:20px}}.endpoint{{background:#e8f4f8;padding:10px;border-left:4px solid #2196F3;margin:10px 0}}</style>
     </head>
     <body>
         <h1>TeleChars AI API</h1>
+        <div class=config><h3>⚙️ Configuración</h3><p><strong>Max Context Tokens:</strong> {MAX_CONTEXT_TOKENS}</p><p><strong>Max Generation Tokens:</strong> {MAX_GENERATION_TOKENS}</p></div>
+        <h2>📦 Modelos cargados:</h2>{status_html}<p>Total modelos: {len(loaded_models)}/{len(MODELS)}</p>
         <h2>🔗 Endpoints disponibles:</h2>
+        <div class=endpoint><strong>GET /generate/&lt;mensaje&gt;[?params]</strong><br>Devuelve solo el texto generado. Parámetros opcionales:<br>• system= (instrucciones del sistema)<br>• temperature= (0.0-2.0)<br>• top_p= (0.0-1.0)<br>• top_k= (0-100)<br>• model= (nombre del modelo)<br>• max_tokens= (máximo tokens a generar, default: {MAX_GENERATION_TOKENS})<br>• repetition_penalty= (penalización de repetición)<br>• presence_penalty= (penalización de presencia)<br>• frequency_penalty= (penalización de frecuencia)</div>
+        <div class=endpoint><strong>POST /v1/chat/completions</strong><br>Compatible con OpenAI API</div>
+        <div class=endpoint><strong>GET /health</strong><br>Estado del servicio</div>
+        <div class=endpoint><strong>GET /models</strong><br>Lista todos los modelos disponibles</div>
     </body>
+    </html>'''
 @app.route('/v1/chat/completions', methods=['POST'])
 def chat_completions():