Spaces:

akra35567
/

OLLAMA

Sleeping

App Files Files Community

akra35567 commited on Nov 11, 2025

Commit

a96588e

verified ·

1 Parent(s): daa7341

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -21

app.py CHANGED Viewed

@@ -1,21 +1,28 @@
 # app.py
 """
 AKIRA V16 — OLLAMA + FLASK (HF SPACE + DOCKER)
-- Inicia ollama serve em subprocess
-- Flask roda na porta 7860 (HF)
-- Ollama roda em 11434 (interno)
-- /api/chat → Akira com gírias de Luanda
 """
 import subprocess
 import time
 import requests
 import sys
 from flask import Flask, request, jsonify
 from loguru import logger
 app = Flask(__name__)
 OLLAMA_URL = "http://localhost:11434"
 # === INICIA OLLAMA EM BACKGROUND ===
 def start_ollama():
     logger.info("Iniciando ollama serve em background...")
@@ -38,7 +45,7 @@ def wait_for_ollama():
     logger.info("Aguardando Ollama (11434)...")
     for i in range(60):
         if check_ollama():
-            logger.success("Ollama Qwen 2.5 7B PRONTO!")
             return True
         time.sleep(2)
     logger.critical("Ollama não subiu!")
@@ -50,14 +57,16 @@ def index():
     return '''
     <div style="font-family: monospace; text-align: center; margin: 50px; background: #000; color: #0f0; padding: 40px;">
         <h1>AKIRA V16 OLLAMA</h1>
-        <p><strong>Qwen 2.5 7B (4GB)</strong></p>
         <p><strong>ROTA:</strong> <code>POST /api/chat</code></p>
         <pre>
 curl -X POST https://akra35567-ollama.hf.space/api/chat \\
-  -d '{"mensagem": "Epá, Akira! Tud bem?"}'
         </pre>
         <p>Health: <a href="/health">/health</a></p>
-        <p>Luanda, Angola — 11/11/2025 21:25 WAT</p>
     </div>
     ''', 200
@@ -65,14 +74,14 @@ curl -X POST https://akra35567-ollama.hf.space/api/chat \\
 @app.route("/health")
 def health():
     if check_ollama():
-        return jsonify({"status": "OK", "model": "qwen2.5:7b"}), 200
     return jsonify({"status": "INICIANDO..."}), 503
-# === AKIRA CHAT ===
 @app.route("/api/chat", methods=['POST'])
 def chat():
     if not check_ollama():
-        return jsonify({'resposta': 'Epá, tô acordando... espera!'}), 503
     data = request.get_json() or {}
     msg = data.get('mensagem', '').strip()
@@ -86,40 +95,43 @@ Usuário: {msg}
 Akira:"""
     payload = {
-        "model": "qwen2.5:7b",
         "prompt": prompt,
         "stream": False,
         "options": {
             "temperature": 0.85,
-            "num_predict": 256
         }
     }
-    logger.info(f"Prompt enviado: {msg[:50]}...")
     for tentativa in range(3):
         try:
-            resp = requests.post(f"{OLLAMA_URL}/api/generate", json=payload, timeout=120)
             if resp.status_code == 200:
                 resposta = resp.json().get("response", "").strip()
                 if resposta:
-                    logger.success(f"Resposta gerada: {resposta[:50]}...")
                     return jsonify({'resposta': resposta})
                 else:
-                    return jsonify({'resposta': 'Epá, fiquei sem palavras... fala de novo, puto!'})
             else:
                 logger.warning(f"Ollama erro {resp.status_code}: {resp.text}")
         except requests.exceptions.Timeout:
             logger.warning(f"Timeout na tentativa {tentativa + 1}/3...")
             if tentativa < 2:
-                time.sleep(5)
         except Exception as e:
-            logger.error(f"Erro na tentativa {tentativa + 1}: {e}")
             if tentativa == 2:
                 return jsonify({'resposta': 'Epá, tô off por agora... volta já!'}), 500
-            time.sleep(3)
     return jsonify({'resposta': 'Epá, tô off por agora... volta já!'}), 500
 # === INÍCIO ===
 if __name__ == "__main__":
     logger.remove()
@@ -130,5 +142,17 @@ if __name__ == "__main__":
     if not wait_for_ollama():
         sys.exit(1)
     logger.info("Flask rodando na porta 7860")
-    app.run(host="0.0.0.0", port=7860, debug=False)

 # app.py
 """
 AKIRA V16 — OLLAMA + FLASK (HF SPACE + DOCKER)
+- Modelo: qwen2.5:3b-q4_0 (leve, rápido, 4-bit)
+- 3 requisições simultâneas
+- Usa RAM sobrando, alivia CPU
+- Warm-up automático
 """
 import subprocess
 import time
 import requests
 import sys
+import os
 from flask import Flask, request, jsonify
 from loguru import logger
 app = Flask(__name__)
 OLLAMA_URL = "http://localhost:11434"
+# === CONFIGURAÇÃO OLLAMA (3 REQUISIÇÕES SIMULTÂNEAS) ===
+os.environ["OLLAMA_NUM_PARALLEL"] = "3"      # ← 3 por vez!
+os.environ["OLLAMA_MAX_QUEUE"] = "10"        # Fila de 10
+os.environ["OLLAMA_KEEP_ALIVE"] = "10m"      # Mantém modelo na RAM
+os.environ["OLLAMA_MAX_LOADED_MODELS"] = "1"
 # === INICIA OLLAMA EM BACKGROUND ===
 def start_ollama():
     logger.info("Iniciando ollama serve em background...")
     logger.info("Aguardando Ollama (11434)...")
     for i in range(60):
         if check_ollama():
+            logger.success("Ollama Qwen 2.5 3B q4_0 PRONTO!")
             return True
         time.sleep(2)
     logger.critical("Ollama não subiu!")
     return '''
     <div style="font-family: monospace; text-align: center; margin: 50px; background: #000; color: #0f0; padding: 40px;">
         <h1>AKIRA V16 OLLAMA</h1>
+        <p><strong>Qwen 2.5 3B q4_0 (2.5GB)</strong></p>
+        <p><strong>3 requisições simultâneas • CPU leve</strong></p>
         <p><strong>ROTA:</strong> <code>POST /api/chat</code></p>
         <pre>
 curl -X POST https://akra35567-ollama.hf.space/api/chat \\
+  -H "Content-Type: application/json" \\
+  -d '{"mensagem": "Epá, Akira! Bora kandando?"}'
         </pre>
         <p>Health: <a href="/health">/health</a></p>
+        <p>Luanda, Angola — 11/11/2025 22:33 WAT</p>
     </div>
     ''', 200
 @app.route("/health")
 def health():
     if check_ollama():
+        return jsonify({"status": "OK", "model": "qwen2.5:3b-q4_0"}), 200
     return jsonify({"status": "INICIANDO..."}), 503
+# === AKIRA CHAT (COM RETRY + TIMEOUT ALTO) ===
 @app.route("/api/chat", methods=['POST'])
 def chat():
     if not check_ollama():
+        return jsonify({'resposta': 'Epá, tô acordando... espera 10s!'}), 503
     data = request.get_json() or {}
     msg = data.get('mensagem', '').strip()
 Akira:"""
     payload = {
+        "model": "qwen2.5:3b-q4_0",
         "prompt": prompt,
         "stream": False,
         "options": {
             "temperature": 0.85,
+            "num_predict": 128,
+            "num_ctx": 2048,
+            "num_thread": 2
         }
     }
+    logger.info(f"Prompt recebido: {msg[:50]}...")
     for tentativa in range(3):
         try:
+            resp = requests.post(f"{OLLAMA_URL}/api/generate", json=payload, timeout=90)
             if resp.status_code == 200:
                 resposta = resp.json().get("response", "").strip()
                 if resposta:
+                    logger.success(f"Resposta: {resposta[:50]}...")
                     return jsonify({'resposta': resposta})
                 else:
+                    return jsonify({'resposta': 'Epá, fiquei sem palavras... manda de novo, puto!'})
             else:
                 logger.warning(f"Ollama erro {resp.status_code}: {resp.text}")
         except requests.exceptions.Timeout:
             logger.warning(f"Timeout na tentativa {tentativa + 1}/3...")
             if tentativa < 2:
+                time.sleep(3)
         except Exception as e:
+            logger.error(f"Erro: {e}")
             if tentativa == 2:
                 return jsonify({'resposta': 'Epá, tô off por agora... volta já!'}), 500
+            time.sleep(2)
     return jsonify({'resposta': 'Epá, tô off por agora... volta já!'}), 500
 # === INÍCIO ===
 if __name__ == "__main__":
     logger.remove()
     if not wait_for_ollama():
         sys.exit(1)
+    # === WARM-UP AUTOMÁTICO ===
+    logger.info("Aquecendo Akira (qwen2.5:3b-q4_0)...")
+    try:
+        requests.post(f"{OLLAMA_URL}/api/generate", json={
+            "model": "qwen2.5:3b-q4_0",
+            "prompt": "Oi",
+            "options": {"num_predict": 1}
+        }, timeout=60)
+        logger.success("Akira aquecida!")
+    except:
+        logger.warning("Warm-up falhou, mas continua...")
     logger.info("Flask rodando na porta 7860")
+    app.run(host="0.0.0.0", port=7860, debug=False)