Spaces:

AxusAI
/

apex-engine

Runtime error

App Files Files Community

Garush65 commited on Dec 14, 2025

Commit

222076e

verified ·

1 Parent(s): 4f9fa8f

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -25

app.py CHANGED Viewed

@@ -5,30 +5,31 @@ from huggingface_hub import hf_hub_download
 from fastapi.middleware.cors import CORSMiddleware
 import os
-# --- НАСТРОЙКА "МАЛЕНЬКОГО МОНСТРА" ---
-# Qwen 2.5 3B - Идеальный баланс. Легкая, но очень умная.
-REPO_ID = "bartowski/Qwen2.5-3B-Instruct-GGUF"
-FILENAME = "Qwen2.5-3B-Instruct-Q4_K_M.gguf"
-print(f"System: Начинаю загрузку {FILENAME}...")
 try:
     model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
-    print(f"System: Модель готова: {model_path}")
 except Exception as e:
-    print(f"CRITICAL: Не удалось скачать модель: {e}")
     raise e
-# --- ЗАПУСК МОЗГА ---
-print("System: Загрузка в память...")
-# Так как модель легкая (3B), мы можем дать ей БОЛЬШЕ памяти под контекст (4096)
 llm = Llama(
     model_path=model_path,
-    n_ctx=4096,        # Большое окно памяти (влезет много текста)
-    n_threads=4,       # Используем все ядра
     verbose=False
 )
-print("System: Apex Engine (Fast Mode) готов.")
 app = FastAPI()
@@ -46,17 +47,15 @@ class AnalysisRequest(BaseModel):
 @app.get("/")
 def home():
-    return {"status": "Apex Engine is Running", "model": "Qwen 2.5 3B (Fast & Smart)"}
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
-    print(f"Запрос: {req.query[:50]}...")
-    # Системный промпт - говорим ей быть умной
     prompt = f"""<|im_start|>system
-Ты — Apex, умный аналитический помощник.
-Твоя задача: внимательно прочитать контекст и дать точный ответ на вопрос пользователя на русском языке.
-Не выдумывай факты, используй только предоставленный контекст и свои знания.
 <|im_end|>
 <|im_start|>user
 Контекст:
@@ -70,15 +69,14 @@ def analyze(req: AnalysisRequest):
     try:
         output = llm(
             prompt,
-            max_tokens=700,  # Длинный ответ разрешен
-            temperature=0.3, # Креативность в меру
             stop=["<|im_end|>"],
             echo=False
         )
-        result_text = output["choices"][0]["text"].strip()
-        return {"result": result_text}
     except Exception as e:
-        print(f"ERROR: {e}")
-        raise HTTPException(status_code=500, detail="Ошибка обработки запроса")

 from fastapi.middleware.cors import CORSMiddleware
 import os
+# --- РЕЖИМ "ТУРБО" (1.5B) ---
+# Это модель весом всего 1 ГБ. Она очень быстрая.
+# При этом Qwen 2.5 даже в размере 1.5B умнее старых моделей на 7B.
+REPO_ID = "bartowski/Qwen2.5-1.5B-Instruct-GGUF"
+FILENAME = "Qwen2.5-1.5B-Instruct-Q4_K_M.gguf"
+print(f"System: Включаю турбо-режим. Качаю {FILENAME}...")
 try:
     model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
+    print(f"System: Модель загружена: {model_path}")
 except Exception as e:
+    print(f"CRITICAL: Ошибка: {e}")
     raise e
+# --- НАСТРОЙКА СКОРОСТИ ---
+print("System: Прогрев двигателя...")
 llm = Llama(
     model_path=model_path,
+    n_ctx=2048,        # Уменьшили память до 2048 для скорости (этого хватит для страницы текста)
+    n_batch=512,       # Обрабатываем большими кусками
+    n_threads=6,       # Просим сервер использовать больше ядер (если дадут)
     verbose=False
 )
+print("System: Apex Turbo готов.")
 app = FastAPI()
 @app.get("/")
 def home():
+    return {"status": "Apex Turbo (1.5B)", "speed": "Maximum"}
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
+    print(f"Fast Request: {req.query[:30]}...")
+    # Очень четкий промпт, чтобы она не лила воду (это тоже ускоряет)
     prompt = f"""<|im_start|>system
+Ты — Apex. Анализируй контекст. Отвечай кратко, четко и по делу на русском языке.
 <|im_end|>
 <|im_start|>user
 Контекст:
     try:
         output = llm(
             prompt,
+            max_tokens=300,  # Ограничиваем длину ответа, чтобы отдал результат мгновенно
+            temperature=0.2, # Минимум фантазии, максимум фактов
             stop=["<|im_end|>"],
             echo=False
         )
+        return {"result": output["choices"][0]["text"].strip()}
     except Exception as e:
+        print(f"Error: {e}")
+        raise HTTPException(status_code=500, detail="Ошибка генерации")