Spaces:

AxusAI
/

apex-engine

Runtime error

App Files Files Community

Garush65 commited on Dec 14, 2025

Commit

ba1690d

verified ·

1 Parent(s): 3bb51de

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -70

app.py CHANGED Viewed

@@ -1,70 +1,82 @@
-from fastapi import FastAPI
-from pydantic import BaseModel
-from llama_cpp import Llama
-from huggingface_hub import hf_hub_download
-from fastapi.middleware.cors import CORSMiddleware
-# 1. Скачиваем модель прямо при запуске сервера
-# Qwen2.5-0.5B-Instruct (умная, понимает русский)
-model_name = "Qwen/Qwen2.5-0.5B-Instruct-GGUF"
-model_file = "qwen2.5-0.5b-instruct-q4_k_m.gguf" # Самая сбалансированная версия
-print(f"Загрузка модели {model_file}...")
-model_path = hf_hub_download(repo_id=model_name, filename=model_file)
-print("Модель скачана:", model_path)
-# 2. Инициализируем нейросеть
-llm = Llama(
-    model_path=model_path,
-    n_ctx=4096,       # Память контекста (статьи википедии влезут)
-    n_threads=2       # Количество ядер
-)
-# 3. Настройка FastAPI
-app = FastAPI()
-# Разрешаем запросы с твоего сайта (CORS)
-app.add_middleware(
-    CORSMiddleware,
-    allow_origins=["*"], # Брат, для тестов пока можно всем (*), потом можешь ограничить
-    allow_credentials=True,
-    allow_methods=["*"],
-    allow_headers=["*"],
-)
-class AnalysisRequest(BaseModel):
-    context: str
-    query: str
-@app.get("/")
-def home():
-    return {"status": "Apex Brain is Running"}
-@app.post("/analyze")
-def analyze(req: AnalysisRequest):
-    # Промпт для Qwen (формат ChatML)
-    prompt = f"""<|im_start|>system
-Ты — Apex, эпистемический движок. Твоя цель — проанализировать контекст и ответить на вопрос пользователя.
-Отвечай кратко, емко, научно. Используй русский язык.
-Если в тексте есть противоречия или белые пятна — укажи на них.
-<|im_end|>
-<|im_start|>user
-Контекст:
-{req.context}
-Вопрос пользователя:
-{req.query}
-<|im_end|>
-<|im_start|>assistant
-"""
-    # Генерация
-    output = llm(
-        prompt,
-        max_tokens=500,  # Длина ответа
-        temperature=0.3, # Меньше галлюцинаций
-        stop=["<|im_end|>"],
-        echo=False
-    )
-    return {"result": output["choices"][0]["text"]}

+from fastapi import FastAPI
+from pydantic import BaseModel
+from llama_cpp import Llama
+from huggingface_hub import hf_hub_download
+from fastapi.middleware.cors import CORSMiddleware
+import os
+# --- КОНФИГУРАЦИЯ МОДЕЛИ ---
+# Qwen2.5-7B-Instruct (Умная, мощная, русский язык)
+REPO_ID = "Qwen/Qwen2.5-7B-Instruct-GGUF"
+FILENAME = "qwen2.5-7b-instruct-q4_k_m.gguf"
+print(f"System: Начинаю загрузку модели {FILENAME}...")
+# Скачиваем модель. Благодаря ENV HF_HOME в Dockerfile, она скачается в /app/cache
+try:
+    model_path = hf_hub_download(
+        repo_id=REPO_ID,
+        filename=FILENAME
+    )
+    print(f"System: Модель готова по пути {model_path}")
+except Exception as e:
+    print(f"CRITICAL ERROR: Не удалось скачать модель. {e}")
+    raise e
+# --- ИНИЦИАЛИЗАЦИЯ LLM ---
+print("System: Запуск нейросети в память...")
+llm = Llama(
+    model_path=model_path,
+    n_ctx=8192,        # Большой контекст
+    n_threads=4,       # На HF Spaces обычно 2-4 vCPU
+    verbose=False      # Меньше мусора в логах
+)
+print("System: Apex Engine готов к работе.")
+# --- API ---
+app = FastAPI()
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+class AnalysisRequest(BaseModel):
+    context: str
+    query: str
+@app.get("/")
+def home():
+    return {"status": "Apex Engine (7B Model) is Online", "space": "HuggingFace"}
+@app.post("/analyze")
+def analyze(req: AnalysisRequest):
+    # Строгий системный промпт для умных ответов
+    prompt = f"""<|im_start|>system
+Ты — Apex, передовой аналитический ИИ.
+Твоя задача: проанализировать контекст и дать подробный, логичный и обоснованный ответ на русском языке.
+Используй академический стиль, но говори понятно.
+<|im_end|>
+<|im_start|>user
+Контекст:
+{req.context}
+Вопрос:
+{req.query}
+<|im_end|>
+<|im_start|>assistant
+"""
+    output = llm(
+        prompt,
+        max_tokens=1024,
+        temperature=0.3,
+        top_p=0.9,
+        stop=["<|im_end|>"],
+        echo=False
+    )
+    return {"result": output["choices"][0]["text"].strip()}