Spaces:

edyxapi
/

convo-model

Sleeping

Adi362 commited on Feb 1

Commit

f97ce08

verified ·

1 Parent(s): 389c652

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+from fastapi import FastAPI
+from pydantic import BaseModel
+from llama_cpp import Llama
+app = FastAPI()
+llm = Llama(
+    model_path="/models/model.gguf",
+    n_ctx=2048,
+    n_threads=2,
+    n_batch=128,
+    verbose=False,
+)
+class Message(BaseModel):
+    role: str
+    content: str
+class ChatRequest(BaseModel):
+    messages: list[Message]
+@app.post("/v1/chat")
+def chat(req: ChatRequest):
+    prompt = ""
+    for m in req.messages:
+        prompt += f"{m.role.upper()}: {m.content}\n"
+    prompt += "ASSISTANT:"
+    output = llm(
+        prompt,
+        max_tokens=256,
+        temperature=0.7,
+        top_p=0.9,
+        stop=["USER:"]
+    )
+    return {
+        "model": "tinyllama-1.1b-chat-q4_k_m",
+        "text": output["choices"][0]["text"].strip(),
+        "tokens": output["usage"]["total_tokens"],
+    }