Spaces:

novaco-evildudes999
/

Gemma4-API

Paused

App Files Files Community

novaco-evildudes999 commited on 14 days ago

Commit

70e1801

verified ·

1 Parent(s): 3b27ff5

Update main.py

Browse files

Files changed (1) hide show

main.py +22 -6

main.py CHANGED Viewed

@@ -3,11 +3,12 @@ from pydantic import BaseModel, Field
 from llama_cpp import Llama
 import threading
-MODEL_REPO = "unsloth/gemma-4-E2B-it-GGUF"
 MODEL_FILE = "gemma-4-E2B-it-Q4_K_M.gguf"
 app = FastAPI(title="Gemma 4 CPU API")
 llm = None
 lock = threading.Lock()
 class GenerateRequest(BaseModel):
@@ -16,9 +17,8 @@ class GenerateRequest(BaseModel):
     max_tokens: int = Field(default=256, ge=1, le=1024)
     temperature: float = Field(default=0.7, ge=0.0, le=2.0)
-@app.on_event("startup")
 def load_model():
-    global llm
     try:
         llm = Llama.from_pretrained(
             repo_id=MODEL_REPO,
@@ -28,19 +28,34 @@ def load_model():
             n_batch=64,
             verbose=True,
         )
         print("MODEL LOADED OK")
     except Exception as e:
         llm = None
-        print(f"MODEL LOAD FAILED: {type(e).__name__}: {e}")
 @app.get("/health")
 def health():
-    return {"ok": llm is not None, "model_loaded": llm is not None}
 @app.post("/generate")
 def generate(req: GenerateRequest):
     if llm is None:
-        raise HTTPException(status_code=503, detail="Model not loaded yet. Check logs.")
     messages = []
     if req.system:
@@ -52,6 +67,7 @@ def generate(req: GenerateRequest):
             messages=messages,
             max_tokens=req.max_tokens,
             temperature=req.temperature,
         )
     return {"response": out["choices"][0]["message"]["content"]}

 from llama_cpp import Llama
 import threading
+MODEL_REPO = "bartowski/google_gemma-4-E2B-it-GGUF"
 MODEL_FILE = "gemma-4-E2B-it-Q4_K_M.gguf"
 app = FastAPI(title="Gemma 4 CPU API")
 llm = None
+load_error = None
 lock = threading.Lock()
 class GenerateRequest(BaseModel):
     max_tokens: int = Field(default=256, ge=1, le=1024)
     temperature: float = Field(default=0.7, ge=0.0, le=2.0)
 def load_model():
+    global llm, load_error
     try:
         llm = Llama.from_pretrained(
             repo_id=MODEL_REPO,
             n_batch=64,
             verbose=True,
         )
+        load_error = None
         print("MODEL LOADED OK")
     except Exception as e:
         llm = None
+        load_error = f"{type(e).__name__}: {e}"
+        print(f"MODEL LOAD FAILED: {load_error}")
+@app.on_event("startup")
+def startup():
+    load_model()
 @app.get("/health")
 def health():
+    return {
+        "ok": llm is not None,
+        "model_loaded": llm is not None,
+        "error": load_error,
+    }
 @app.post("/generate")
 def generate(req: GenerateRequest):
+    global llm
+    if llm is None:
+        load_model()
     if llm is None:
+        raise HTTPException(status_code=503, detail=f"Model not loaded: {load_error}")
     messages = []
     if req.system:
             messages=messages,
             max_tokens=req.max_tokens,
             temperature=req.temperature,
+            chat_format="gemma",
         )
     return {"response": out["choices"][0]["message"]["content"]}