Spaces:

moriire
/

OpenGenAI

Sleeping

App Files Files Community

moriire commited on Apr 6, 2024

Commit

609ebbf

verified ·

1 Parent(s): c4894e1

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -10

app.py CHANGED Viewed

@@ -10,17 +10,26 @@ from pydantic import BaseModel
 class GenModel(BaseModel):
     question: str
-    system: str = "You are a story writing assistant."
-    temperature: float = 0.7
-    seed: int = 42
-llama = llama_cpp.Llama.from_pretrained(
     repo_id="Qwen/Qwen1.5-0.5B-Chat-GGUF",
     filename="*q4_0.gguf",
     tokenizer=llama_cpp.llama_tokenizer.LlamaHFTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B"),
     verbose=False,
      n_ctx=4096,
-        n_gpu_layers=0,
     #chat_format="llama-2"
 )
 # Logger setup
@@ -67,14 +76,14 @@ def health():
     return {"status": "ok"}
 # Chat Completion API
-@app.post("/generate/")
 async def complete(gen:GenModel):
     try:
         messages=[
                 {"role": "system", "content": gen.system},
             ]
         st = time()
-        output = llama.create_chat_completion(
             messages = messages,
             temperature=gen.temperature,
             seed=gen.seed,
@@ -104,16 +113,16 @@ async def complete(gen:GenModel):
         )
 # Chat Completion API
-@app.get("/generate_stream")
 async def complete(
     question: str,
-    system: str = "You are a professional medical assistant.",
     temperature: float = 0.7,
     seed: int = 42,
 ) -> dict:
     try:
         st = time()
-        output = llama.create_chat_completion(
             messages=[
                 {"role": "system", "content": system},
                 {"role": "user", "content": question},

 class GenModel(BaseModel):
     question: str
+    system: str = "You are a professional medical assistant."
+    temperature: float = 0.8
+    seed: int = 101
+llm_chat = llama_cpp.Llama.from_pretrained(
+    repo_id="Qwen/Qwen1.5-0.5B-Chat-GGUF",
+    filename="*q4_0.gguf",
+    tokenizer=llama_cpp.llama_tokenizer.LlamaHFTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B"),
+    verbose=False,
+     n_ctx=1024,
+     n_gpu_layers=0,
+    #chat_format="llama-2"
+)
+llm_generate = llama_cpp.Llama.from_pretrained(
     repo_id="Qwen/Qwen1.5-0.5B-Chat-GGUF",
     filename="*q4_0.gguf",
     tokenizer=llama_cpp.llama_tokenizer.LlamaHFTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B"),
     verbose=False,
      n_ctx=4096,
+     n_gpu_layers=0,
     #chat_format="llama-2"
 )
 # Logger setup
     return {"status": "ok"}
 # Chat Completion API
+@app.post("/chat/")
 async def complete(gen:GenModel):
     try:
         messages=[
                 {"role": "system", "content": gen.system},
             ]
         st = time()
+        output = llm_chat.create_chat_completion(
             messages = messages,
             temperature=gen.temperature,
             seed=gen.seed,
         )
 # Chat Completion API
+@app.get("/generate")
 async def complete(
     question: str,
+    system: str = "You are an AI assistant.",
     temperature: float = 0.7,
     seed: int = 42,
 ) -> dict:
     try:
         st = time()
+        output = llm_generate.create_chat_completion(
             messages=[
                 {"role": "system", "content": system},
                 {"role": "user", "content": question},