Spaces:

edyxapi
/

convo-model

Sleeping

Adi362 commited on 11 days ago

Commit

562d032

verified ·

1 Parent(s): 2034a63

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,11 +1,26 @@
 from fastapi import FastAPI
 from pydantic import BaseModel
 from llama_cpp import Llama
 app = FastAPI()
 llm = Llama(
-    model_path="/models/model.gguf",
     n_ctx=2048,
     n_threads=2,
     n_batch=128,
@@ -17,25 +32,32 @@ class Message(BaseModel):
     content: str
 class ChatRequest(BaseModel):
-    messages: list[Message]
 @app.post("/v1/chat")
 def chat(req: ChatRequest):
-    prompt = "<|system|>\nYou are a helpful, concise chatbot.\n"
     for m in req.messages:
-        prompt += f"<|{m.role}|>\n{m.content}\n"
-    prompt += "<|assistant|>\n"
     output = llm(
         prompt,
-        max_tokens=256,
-        temperature=0.7,
         top_p=0.9,
-        stop=["<|user|>", "<|system|>"]
     )
     return {
         "model": "edyx-convo",
-        "text": output["choices"][0]["text"].strip(),
-        "tokens": output["usage"]["total_tokens"],
     }

 from fastapi import FastAPI
 from pydantic import BaseModel
 from llama_cpp import Llama
+from typing import List
 app = FastAPI()
+SYSTEM_PROMPT = """You are edyx-convo.
+You are a concise, neutral, developer-grade assistant.
+Rules:
+- Answer clearly and directly
+- No marketing language
+- No emojis
+- No self-praise
+- Default to 1–3 sentences
+- Expand only if explicitly asked
+"""
 llm = Llama(
+    model_path="./model.gguf",
     n_ctx=2048,
     n_threads=2,
     n_batch=128,
     content: str
 class ChatRequest(BaseModel):
+    messages: List[Message]
+# ---- CHAT ENDPOINT ----
 @app.post("/v1/chat")
 def chat(req: ChatRequest):
+    prompt = SYSTEM_PROMPT + "\n\n"
     for m in req.messages:
+        role = m.role.lower()
+        prompt += f"{role}: {m.content}\n"
+    prompt += "assistant:"
     output = llm(
         prompt,
+        max_tokens=128,
+        temperature=0.4,
         top_p=0.9,
+        repeat_penalty=1.15,
+        stop=["user:", "assistant:"]
     )
+    text = output["choices"][0]["text"].strip()
     return {
         "model": "edyx-convo",
+        "text": text,
+        "tokens": output["usage"]["total_tokens"]
     }