Spaces:

AxusAI
/

apex-engine

Runtime error

App Files Files Community

Garush65 commited on Dec 14, 2025

Commit

bcc64f9

verified ·

1 Parent(s): 58c0c73

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -71

app.py CHANGED Viewed

@@ -3,129 +3,77 @@ from pydantic import BaseModel
 from fastapi.middleware.cors import CORSMiddleware
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
-import os
 import multiprocessing
 # =========================================================
-# MODEL CONFIG (WORLD-LEVEL BALANCE)
 # =========================================================
-REPO_ID = "bartowski/Qwen2.5-3B-Instruct-GGUF"
-FILENAME = "Qwen2.5-3B-Instruct-Q4_K_M.gguf"
-print(f"[SYSTEM] Downloading model: {FILENAME}")
-try:
-    MODEL_PATH = hf_hub_download(
-        repo_id=REPO_ID,
-        filename=FILENAME
-    )
-except Exception as e:
-    raise RuntimeError(f"Model download failed: {e}")
-# =========================================================
-# LLM INITIALIZATION
-# =========================================================
-print("[SYSTEM] Initializing Apex Engine...")
 llm = Llama(
     model_path=MODEL_PATH,
-    n_ctx=2048,
     n_batch=512,
     n_threads=multiprocessing.cpu_count(),
     verbose=False
 )
-print("[SYSTEM] Apex Engine READY")
 # =========================================================
-# FASTAPI APP
 # =========================================================
-app = FastAPI(
-    title="Apex Engine",
-    version="1.0",
-    description="High-performance reasoning backend"
-)
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
-    allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
 )
-# =========================================================
-# DATA MODELS
-# =========================================================
 class AnalysisRequest(BaseModel):
     context: str
     query: str
-# =========================================================
-# ROUTES
-# =========================================================
 @app.get("/")
 def health():
-    return {
-        "status": "online",
-        "engine": "Apex",
-        "model": "Qwen2.5-3B",
-        "mode": "high-reasoning"
-    }
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
     try:
-        prompt = f"""
-<|im_start|>system
-Ты — Apex, аналитический ИИ мирового уровня.
-СТРОГИЕ ПРАВИЛА:
-- Используй ТОЛЬКО данный контекст
-- НЕ додумывай факты
-- Если данных недостаточно — скажи об этом
-- Отвечай чётко, логично и по делу
-- После ответа выполни краткую самопроверку логики
-Язык ответа: русский
-Формат: структурированный текст
 <|im_end|>
 <|im_start|>user
-КОНТЕКСТ:
 {req.context}
-ВОПРОС:
 {req.query}
 <|im_end|>
 <|im_start|>assistant
 """
         output = llm(
             prompt,
-            max_tokens=400,
-            temperature=0.15,
             top_p=0.9,
             stop=["<|im_end|>"],
             echo=False
         )
-        answer = output["choices"][0]["text"].strip()
         return {
-            "result": answer,
-            "model": "Qwen2.5-3B",
-            "engine": "Apex"
         }
     except Exception as e:
-        raise HTTPException(
-            status_code=500,
-            detail=f"Inference error: {str(e)}"
-        )

 from fastapi.middleware.cors import CORSMiddleware
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 import multiprocessing
 # =========================================================
+# FAST MODEL (SUB-SECOND RESPONSE)
 # =========================================================
+REPO_ID = "bartowski/Qwen2.5-1.5B-Instruct-GGUF"
+FILENAME = "Qwen2.5-1.5B-Instruct-Q4_K_M.gguf"
+MODEL_PATH = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
 llm = Llama(
     model_path=MODEL_PATH,
+    n_ctx=1536,
     n_batch=512,
     n_threads=multiprocessing.cpu_count(),
     verbose=False
 )
 # =========================================================
+# FASTAPI
 # =========================================================
+app = FastAPI(title="Apex Fast Engine")
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     allow_methods=["*"],
     allow_headers=["*"],
 )
 class AnalysisRequest(BaseModel):
     context: str
     query: str
 @app.get("/")
 def health():
+    return {"status": "online", "mode": "ultra-fast"}
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
     try:
+        prompt = f"""<|im_start|>system
+Ты — Apex.
+Отвечай КОРОТКО, ТОЧНО, БЕЗ ВОДЫ.
+Если данных нет — скажи "Недостаточно данных".
+Язык: русский.
 <|im_end|>
 <|im_start|>user
+Контекст:
 {req.context}
+Вопрос:
 {req.query}
 <|im_end|>
 <|im_start|>assistant
 """
         output = llm(
             prompt,
+            max_tokens=180,
+            temperature=0.1,
             top_p=0.9,
             stop=["<|im_end|>"],
             echo=False
         )
         return {
+            "result": output["choices"][0]["text"].strip()
         }
     except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))