Spaces:

mrmadblack
/

llm-api

Running

App Files Files Community

mrmadblack commited on Mar 13

Commit

11024e6

verified ·

1 Parent(s): f7db6c7

Update server.py

Browse files

Files changed (1) hide show

server.py +47 -28

server.py CHANGED Viewed

@@ -3,58 +3,56 @@ from pydantic import BaseModel
 import subprocess
 import uvicorn
 import os
 app = FastAPI()
-# ---------------------------
-# Models
-# ---------------------------
 MODELS = {
     "tinyllama": "models/tinyllama.gguf",
     "qwen": "models/qwen1.5b.gguf",
     "gemma": "models/gemma2b.gguf"
 }
-# ---------------------------
-# Ensure model folder exists
-# ---------------------------
-os.makedirs("models", exist_ok=True)
-# ---------------------------
-# Request models
-# ---------------------------
 class ChatRequest(BaseModel):
     model: str
     messages: list
 class GenerateRequest(BaseModel):
     model: str
     prompt: str
 # ---------------------------
 # Prompt builder
 # ---------------------------
 def build_prompt(messages):
     prompt = ""
     for m in messages:
         role = m.get("role", "user")
         content = m.get("content", "")
-        if role == "assistant":
-            prompt += f"assistant: {content}\n"
-        else:
-            prompt += f"user: {content}\n"
     prompt += "assistant:"
     return prompt
@@ -64,24 +62,38 @@ def build_prompt(messages):
 def run_model(model_path, prompt):
     result = subprocess.run(
-        [
-            "./llama.cpp/build/bin/llama-cli",
-            "-m", model_path,
-            "-p", prompt,
-            "-n", "200",
-            "--no-display-prompt"
-        ],
         capture_output=True,
         text=True
     )
     output = result.stdout.strip()
-    # Clean assistant prefix
     if "assistant:" in output:
         output = output.split("assistant:")[-1].strip()
     return output
@@ -91,6 +103,7 @@ def run_model(model_path, prompt):
 @app.get("/")
 def root():
     return {"status": "running"}
@@ -109,6 +122,8 @@ def list_models():
             "model": name
         })
     return {"models": models}
@@ -119,6 +134,8 @@ def list_models():
 @app.post("/api/generate")
 def generate(req: GenerateRequest):
     if req.model not in MODELS:
         return {"error": "model not found"}
@@ -140,6 +157,8 @@ def generate(req: GenerateRequest):
 @app.post("/api/chat")
 def chat(req: ChatRequest):
     if req.model not in MODELS:
         return {"error": "model not found"}

 import subprocess
 import uvicorn
 import os
+import json
 app = FastAPI()
 MODELS = {
     "tinyllama": "models/tinyllama.gguf",
     "qwen": "models/qwen1.5b.gguf",
     "gemma": "models/gemma2b.gguf"
 }
 class ChatRequest(BaseModel):
     model: str
     messages: list
 class GenerateRequest(BaseModel):
     model: str
     prompt: str
+# ---------------------------
+# Utility Logging
+# ---------------------------
+def log(title, data):
+    print("\n==============================")
+    print(title)
+    print(data)
+    print("==============================\n")
 # ---------------------------
 # Prompt builder
 # ---------------------------
 def build_prompt(messages):
+    log("CHAT HISTORY", json.dumps(messages, indent=2))
     prompt = ""
     for m in messages:
         role = m.get("role", "user")
         content = m.get("content", "")
+        prompt += f"{role}: {content}\n"
     prompt += "assistant:"
+    log("FINAL PROMPT", prompt)
     return prompt
 def run_model(model_path, prompt):
+    log("MODEL PATH", model_path)
+    if not os.path.exists(model_path):
+        log("ERROR", f"Model file missing: {model_path}")
+        return "Model file not found"
+    command = [
+        "./llama.cpp/build/bin/llama-cli",
+        "-m", model_path,
+        "-p", prompt,
+        "-n", "200",
+        "--no-display-prompt"
+    ]
+    log("EXEC COMMAND", command)
     result = subprocess.run(
+        command,
         capture_output=True,
         text=True
     )
+    log("LLAMA STDOUT", result.stdout)
+    log("LLAMA STDERR", result.stderr)
     output = result.stdout.strip()
     if "assistant:" in output:
         output = output.split("assistant:")[-1].strip()
+    log("FINAL OUTPUT", output)
     return output
 @app.get("/")
 def root():
+    log("SERVER STATUS", "Server running")
     return {"status": "running"}
             "model": name
         })
+    log("MODEL LIST REQUEST", models)
     return {"models": models}
 @app.post("/api/generate")
 def generate(req: GenerateRequest):
+    log("GENERATE REQUEST", req.dict())
     if req.model not in MODELS:
         return {"error": "model not found"}
 @app.post("/api/chat")
 def chat(req: ChatRequest):
+    log("CHAT REQUEST", req.dict())
     if req.model not in MODELS:
         return {"error": "model not found"}