Spaces:

AxusAI
/

apex-engine

Runtime error

App Files Files Community

Garush65 commited on Dec 14, 2025

Commit

58c0c73

verified ·

1 Parent(s): 222076e

Update app.py

Browse files

Files changed (1) hide show

app.py +86 -37

app.py CHANGED Viewed

@@ -1,37 +1,53 @@
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
-from fastapi.middleware.cors import CORSMiddleware
 import os
-# --- РЕЖИМ "ТУРБО" (1.5B) ---
-# Это модель весом всего 1 ГБ. Она очень быстрая.
-# При этом Qwen 2.5 даже в размере 1.5B умнее старых моделей на 7B.
-REPO_ID = "bartowski/Qwen2.5-1.5B-Instruct-GGUF"
-FILENAME = "Qwen2.5-1.5B-Instruct-Q4_K_M.gguf"
-print(f"System: Включаю турбо-режим. Качаю {FILENAME}...")
 try:
-    model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
-    print(f"System: Модель загружена: {model_path}")
 except Exception as e:
-    print(f"CRITICAL: Ошибка: {e}")
-    raise e
-# --- НАСТРОЙКА СКОРОСТИ ---
-print("System: Прогрев двигателя...")
 llm = Llama(
-    model_path=model_path,
-    n_ctx=2048,        # Уменьшили память до 2048 для скорости (этого хватит для страницы текста)
-    n_batch=512,       # Обрабатываем большими кусками
-    n_threads=6,       # Просим сервер использовать больше ядер (если дадут)
     verbose=False
 )
-print("System: Apex Turbo готов.")
-app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
@@ -41,42 +57,75 @@ app.add_middleware(
     allow_headers=["*"],
 )
 class AnalysisRequest(BaseModel):
     context: str
     query: str
 @app.get("/")
-def home():
-    return {"status": "Apex Turbo (1.5B)", "speed": "Maximum"}
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
-    print(f"Fast Request: {req.query[:30]}...")
-    # Очень четкий промпт, чтобы она не лила воду (это тоже ускоряет)
-    prompt = f"""<|im_start|>system
-Ты — Apex. Анализируй контекст. Отвечай кратко, четко и по делу на русском языке.
 <|im_end|>
 <|im_start|>user
-Контекст:
 {req.context}
-Вопрос:
 {req.query}
 <|im_end|>
 <|im_start|>assistant
 """
-    try:
         output = llm(
-            prompt,
-            max_tokens=300,  # Ограничиваем длину ответа, чтобы отдал результат мгновенно
-            temperature=0.2, # Минимум фантазии, максимум фактов
             stop=["<|im_end|>"],
             echo=False
         )
-        return {"result": output["choices"][0]["text"].strip()}
     except Exception as e:
-        print(f"Error: {e}")
-        raise HTTPException(status_code=500, detail="Ошибка генерации")

 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
+from fastapi.middleware.cors import CORSMiddleware
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 import os
+import multiprocessing
+# =========================================================
+# MODEL CONFIG (WORLD-LEVEL BALANCE)
+# =========================================================
+REPO_ID = "bartowski/Qwen2.5-3B-Instruct-GGUF"
+FILENAME = "Qwen2.5-3B-Instruct-Q4_K_M.gguf"
+print(f"[SYSTEM] Downloading model: {FILENAME}")
 try:
+    MODEL_PATH = hf_hub_download(
+        repo_id=REPO_ID,
+        filename=FILENAME
+    )
 except Exception as e:
+    raise RuntimeError(f"Model download failed: {e}")
+# =========================================================
+# LLM INITIALIZATION
+# =========================================================
+print("[SYSTEM] Initializing Apex Engine...")
 llm = Llama(
+    model_path=MODEL_PATH,
+    n_ctx=2048,
+    n_batch=512,
+    n_threads=multiprocessing.cpu_count(),
     verbose=False
 )
+print("[SYSTEM] Apex Engine READY")
+# =========================================================
+# FASTAPI APP
+# =========================================================
+app = FastAPI(
+    title="Apex Engine",
+    version="1.0",
+    description="High-performance reasoning backend"
+)
 app.add_middleware(
     CORSMiddleware,
     allow_headers=["*"],
 )
+# =========================================================
+# DATA MODELS
+# =========================================================
 class AnalysisRequest(BaseModel):
     context: str
     query: str
+# =========================================================
+# ROUTES
+# =========================================================
 @app.get("/")
+def health():
+    return {
+        "status": "online",
+        "engine": "Apex",
+        "model": "Qwen2.5-3B",
+        "mode": "high-reasoning"
+    }
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
+    try:
+        prompt = f"""
+<|im_start|>system
+Ты — Apex, аналитический ИИ мирового уровня.
+СТРОГИЕ ПРАВИЛА:
+- Используй ТОЛЬКО данный контекст
+- НЕ додумывай факты
+- Если данных недостаточно — скажи об этом
+- Отвечай чётко, логично и по делу
+- После ответа выполни краткую самопроверку логики
+Язык ответа: русский
+Формат: структурированный текст
 <|im_end|>
 <|im_start|>user
+КОНТЕКСТ:
 {req.context}
+ВОПРОС:
 {req.query}
 <|im_end|>
 <|im_start|>assistant
 """
         output = llm(
+            prompt,
+            max_tokens=400,
+            temperature=0.15,
+            top_p=0.9,
             stop=["<|im_end|>"],
             echo=False
         )
+        answer = output["choices"][0]["text"].strip()
+        return {
+            "result": answer,
+            "model": "Qwen2.5-3B",
+            "engine": "Apex"
+        }
     except Exception as e:
+        raise HTTPException(
+            status_code=500,
+            detail=f"Inference error: {str(e)}"
+        )