Spaces:

AxusAI
/

apex-engine

Runtime error

App Files Files Community

Garush65 commited on Dec 14, 2025

Commit

d463102

verified ·

1 Parent(s): 868dc46

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -38

app.py CHANGED Viewed

@@ -1,40 +1,34 @@
-from fastapi import FastAPI
 from pydantic import BaseModel
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 from fastapi.middleware.cors import CORSMiddleware
 import os
-# --- КОНФИГУРАЦИЯ МОДЕЛИ (ИСПРАВЛЕНО) ---
-# Используем репозиторий bartowski - это самый надежный источник GGUF
 REPO_ID = "bartowski/Qwen2.5-7B-Instruct-GGUF"
-# Точное имя файла (обрати внимание на большие буквы, это важно!)
 FILENAME = "Qwen2.5-7B-Instruct-Q4_K_M.gguf"
-print(f"System: Начинаю загрузку модели {FILENAME} из {REPO_ID}...")
 try:
-    model_path = hf_hub_download(
-        repo_id=REPO_ID,
-        filename=FILENAME
-    )
-    print(f"System: Модель успешно скачана: {model_path}")
 except Exception as e:
-    print(f"CRITICAL ERROR: Ошибка загрузки. Проверь интернет или имя файла. {e}")
     raise e
-# --- ИНИЦИАЛИЗАЦИЯ LLM ---
-print("System: Запуск нейросети в память...")
-# n_ctx=4096 - безопасное значение для HF Spaces (чтобы не вылетело по памяти)
 llm = Llama(
     model_path=model_path,
-    n_ctx=4096,
-    n_threads=4,
-    verbose=False
 )
-print("System: Apex Engine готов к работе.")
-# --- API ---
 app = FastAPI()
 app.add_middleware(
@@ -51,32 +45,36 @@ class AnalysisRequest(BaseModel):
 @app.get("/")
 def home():
-    return {"status": "Apex Engine (7B Model) is Online", "space": "HuggingFace"}
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
     prompt = f"""<|im_start|>system
-Ты — Apex, передовой аналитический ИИ.
-Твоя задача: проанализировать контекст и дать подробный, логичный и обоснованный ответ на русском языке.
-Используй академический стиль, но говори понятно.
 <|im_end|>
 <|im_start|>user
-Контекст:
-{req.context}
-Вопрос:
-{req.query}
 <|im_end|>
 <|im_start|>assistant
 """
-    output = llm(
-        prompt,
-        max_tokens=1024,
-        temperature=0.3,
-        top_p=0.9,
-        stop=["<|im_end|>"],
-        echo=False
-    )
-    return {"result": output["choices"][0]["text"].strip()}

+from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 from fastapi.middleware.cors import CORSMiddleware
 import os
+# --- КОНФИГУРАЦИЯ ---
 REPO_ID = "bartowski/Qwen2.5-7B-Instruct-GGUF"
 FILENAME = "Qwen2.5-7B-Instruct-Q4_K_M.gguf"
+print(f"System: Начинаю загрузку {FILENAME}...")
 try:
+    model_path = hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
+    print(f"System: Модель загружена: {model_path}")
 except Exception as e:
+    print(f"CRITICAL: Ошибка скачивания: {e}")
     raise e
+# --- ИНИЦИАЛИЗАЦИЯ (ОПТИМИЗИРОВАННАЯ) ---
+print("System: Загрузка в RAM...")
 llm = Llama(
     model_path=model_path,
+    n_ctx=2048,        # Брат, ставим 2048 чтобы экономить память
+    n_threads=4,       # Все ядра CPU
+    n_batch=512,       # Обработка пакетами
+    verbose=False
 )
+print("System: Apex Engine готов.")
 app = FastAPI()
 app.add_middleware(
 @app.get("/")
 def home():
+    return {"status": "Apex Engine Online", "model": "7B-Optimized"}
 @app.post("/analyze")
 def analyze(req: AnalysisRequest):
+    print(f"Запрос получен: {req.query[:50]}...") # Логируем приход запроса
     prompt = f"""<|im_start|>system
+Ты — Apex. Отвечай точно и кратко на русском языке.
 <|im_end|>
 <|im_start|>user
+Контекст: {req.context[:1000]}
+Вопрос: {req.query}
 <|im_end|>
 <|im_start|>assistant
 """
+    try:
+        # Генерация
+        output = llm(
+            prompt,
+            max_tokens=512,  # Ограничим длину, чтобы не было таймаута
+            temperature=0.3,
+            stop=["<|im_end|>"],
+            echo=False
+        )
+        text_result = output["choices"][0]["text"].strip()
+        print("Ответ сгенерирован успешно.")
+        return {"result": text_result}
+    except Exception as e:
+        print(f"ОШИБКА ГЕНЕРАЦИИ: {e}")
+        # Возвращаем ошибку клиенту, чтобы понимать что случилось
+        raise HTTPException(status_code=500, detail=str(e))