Spaces:

Rid3
/

xtime-api

Sleeping

App Files Files Community

Rid3 commited on Mar 27

Commit

fc275b8

verified ·

1 Parent(s): 59b2c67

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -41

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from huggingface_hub import hf_hub_download
 import gc
 import os
-app = FastAPI(title="RID3 QUANTUM AI API")
 app.add_middleware(
     CORSMiddleware,
@@ -17,12 +17,13 @@ app.add_middleware(
 )
 REPO_ID = "Rid3/xtime-v1beta-gguf-storage"
 current_llm = None
 current_model_name = ""
 MODELS = {
     "medium": "xtime-v1beta-n-m_1p.gguf",
-    "large": "xtime-v1beta-q4_K_M.gguf", # Это Llama 3.2 (mllama)
     "small": "xtime-v1beta-xp-r_2.gguf"
 }
@@ -31,60 +32,35 @@ def load_model(model_key: str):
     filename = MODELS.get(model_key)
     if not filename:
         raise HTTPException(status_code=404, detail="Model not found")
-    if current_model_name == model_key:
         return
-    print(f"--- Loading MLLAMA Architecture: {filename} ---")
     if current_llm is not None:
         del current_llm
         gc.collect()
     try:
         model_path = hf_hub_download(repo_id=REPO_ID, filename=filename)
-        # Для mllama важно использовать свежий движок
         current_llm = Llama(
             model_path=model_path,
-            n_ctx=2048,           # Увеличь, если нужно больше памяти
-            n_threads=4,
-            verbose=False,        # Меньше логов — меньше шансов на ошибку переполнения
-            chat_format="llama-3" # Явно указываем формат для Llama 3.2
         )
         current_model_name = model_key
     except Exception as e:
-        print(f"Error loading model: {e}")
         raise HTTPException(status_code=500, detail=str(e))
 @app.on_event("startup")
 async def startup_event():
-    # Попробуем загрузить medium, если large (mllama) все еще не поддерживается твоим билдом
-    # Но с новым Dockerfile 'large' должен завестись
-    load_model("large")
-class ChatRequest(BaseModel):
-    prompt: str
-    model_type: str = "large"
-@app.post("/chat")
-async def chat(request: ChatRequest):
-    if request.model_type != current_model_name:
-        load_model(request.model_type)
-    try:
-        # Используем метод create_chat_completion для лучшей совместимости с Llama 3
-        output = current_llm.create_chat_completion(
-            messages=[
-                {"role": "system", "content": "You are a helpful assistant."},
-                {"role": "user", "content": request.prompt}
-            ],
-            max_tokens=512
-        )
-        return {"response": output["choices"][0]["message"]["content"].strip()}
-    except Exception as e:
-        return {"error": str(e)}
-@app.get("/")
-async def health():
-    return {"status": "online", "model": current_model_name}

 import gc
 import os
+app = FastAPI(title="Xtime AI API")
 app.add_middleware(
     CORSMiddleware,
 )
 REPO_ID = "Rid3/xtime-v1beta-gguf-storage"
 current_llm = None
 current_model_name = ""
 MODELS = {
     "medium": "xtime-v1beta-n-m_1p.gguf",
+    "large": "xtime-v1beta-q4_K_M.gguf",
     "small": "xtime-v1beta-xp-r_2.gguf"
 }
     filename = MODELS.get(model_key)
     if not filename:
         raise HTTPException(status_code=404, detail="Model not found")
+    if current_model_name == model_key and current_llm is not None:
         return
+    print(f"--- Loading model: {filename} ({model_key}) ---")
     if current_llm is not None:
         del current_llm
         gc.collect()
     try:
         model_path = hf_hub_download(repo_id=REPO_ID, filename=filename)
         current_llm = Llama(
             model_path=model_path,
+            n_ctx=4096,           # увеличил, если позволяет память
+            n_threads=os.cpu_count() or 4,
+            n_gpu_layers=0,       # явно CPU
+            verbose=False,
+            chat_format="llama-3"
         )
         current_model_name = model_key
+        print(f"✅ Model {model_key} loaded successfully")
     except Exception as e:
+        print(f"❌ Error loading model: {e}")
         raise HTTPException(status_code=500, detail=str(e))
 @app.on_event("startup")
 async def startup_event():
+    load_model("large")   # или "medium", если large слишком тяжёлый
+# ... остальной код без изменений ...