Spaces:

Diamanta
/

JBAIP

Sleeping

App Files Files Community

Diamanta commited on Jun 1, 2025

Commit

c0132d6

verified ·

1 Parent(s): ec4633f

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -13

app.py CHANGED Viewed

@@ -4,12 +4,12 @@ from typing import List, Optional
 from llama_cpp import Llama
 import os
 import time
 app = FastAPI()
 llm = None
-# Request models
 class Message(BaseModel):
     role: str
     content: str
@@ -20,7 +20,6 @@ class ChatRequest(BaseModel):
     temperature: Optional[float] = 0.7
     max_tokens: Optional[int] = 256
-# Startup event to load the model
 @app.on_event("startup")
 def load_model():
     global llm
@@ -33,18 +32,16 @@ def load_model():
         raise RuntimeError(f"Model not found at path: {model_path}")
     llm = Llama(model_path=model_path)
-# LM Studio style chat completion endpoint
-@app.post("/chat/completions")
-async def chat_completions(req: ChatRequest):
     global llm
     if llm is None:
         return {"error": "Model not initialized."}
-    # Construct prompt from messages
-    # LM Studio usually concatenates messages with role tags
     prompt = ""
-    for msg in req.messages:
-        prompt += f"{msg.role}: {msg.content}\n"
     prompt += "assistant:"
     output = llm(
@@ -56,13 +53,10 @@ async def chat_completions(req: ChatRequest):
     text = output.get("choices", [{}])[0].get("text", "").strip()
     response = {
-        "id": f"chatcmpl-{int(time.time())}",
-        "object": "chat.completion",
-        "created": int(time.time()),
         "model": req.model,
         "choices": [
             {
-                "index": 0,
                 "message": {"role": "assistant", "content": text},
                 "finish_reason": "stop"
             }

 from llama_cpp import Llama
 import os
 import time
+import uuid
 app = FastAPI()
 llm = None
 class Message(BaseModel):
     role: str
     content: str
     temperature: Optional[float] = 0.7
     max_tokens: Optional[int] = 256
 @app.on_event("startup")
 def load_model():
     global llm
         raise RuntimeError(f"Model not found at path: {model_path}")
     llm = Llama(model_path=model_path)
+@app.post("/chat")
+async def chat(req: ChatRequest):
     global llm
     if llm is None:
         return {"error": "Model not initialized."}
+    # Build prompt from messages, Ollama uses system/user/assistant roles
     prompt = ""
+    for m in req.messages:
+        prompt += f"{m.role}: {m.content}\n"
     prompt += "assistant:"
     output = llm(
     text = output.get("choices", [{}])[0].get("text", "").strip()
     response = {
+        "id": str(uuid.uuid4()),
         "model": req.model,
         "choices": [
             {
                 "message": {"role": "assistant", "content": text},
                 "finish_reason": "stop"
             }