Spaces:

aryo100
/

qwen_api

Sleeping

App Files Files Community

aryo100 commited on Sep 24, 2025

Commit

5383485

1 Parent(s): e4b129b

update app

Browse files

Files changed (1) hide show

app.py +18 -17

app.py CHANGED Viewed

@@ -5,11 +5,10 @@ import torch
 import os
 import uvicorn
 app = FastAPI()
 # Load model & tokenizer sekali saat startup
-MODEL_NAME = "Qwen/Qwen-1_8B-Chat"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
@@ -18,33 +17,32 @@ model = AutoModelForCausalLM.from_pretrained(
     trust_remote_code=True,
 )
 model.config.use_cache = True
-# if not tokenizer.chat_template:
-#     tokenizer.chat_template = """{% for message in messages %}{{ message['role'] }}: {{ message['content'] }}
-# {% endfor %}Assistant:"""
 # Request schema
 class ChatRequest(BaseModel):
-    messages: list  # format [{"role": "user", "content": "halo"}]
     max_new_tokens: int = 128
 @app.post("/chat")
 def chat(req: ChatRequest):
-    # Format input sesuai template Qwen
     text = tokenizer.apply_chat_template(
-        req.messages,
         tokenize=False,
         add_generation_prompt=True
     )
     inputs = tokenizer(text, return_tensors="pt").to(model.device)
-    # prompt = ""
-    # for msg in req.messages:
-    #     prompt += f"{msg['role']}: {msg['content']}\n"
-    # prompt += "assistant:"
-    # inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    # Generate
     outputs = model.generate(
         **inputs,
         max_new_tokens=req.max_new_tokens,
@@ -53,7 +51,10 @@ def chat(req: ChatRequest):
         temperature=0.7
     )
-    response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
     return {"response": response}

 import os
 import uvicorn
 app = FastAPI()
 # Load model & tokenizer sekali saat startup
+MODEL_NAME = "Qwen/Qwen-1.8B-Chat"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
     trust_remote_code=True,
 )
 model.config.use_cache = True
+# fallback kalau chat_template kosong
+if not tokenizer.chat_template:
+    tokenizer.chat_template = """{% for message in messages %}
+{{ message['role'] }}: {{ message['content'] }}
+{% endfor %}
+assistant:"""
 # Request schema
+class Message(BaseModel):
+    role: str
+    content: str
 class ChatRequest(BaseModel):
+    messages: list[Message]
     max_new_tokens: int = 128
 @app.post("/chat")
 def chat(req: ChatRequest):
     text = tokenizer.apply_chat_template(
+        [m.dict() for m in req.messages],
         tokenize=False,
         add_generation_prompt=True
     )
     inputs = tokenizer(text, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
         max_new_tokens=req.max_new_tokens,
         temperature=0.7
     )
+    response = tokenizer.decode(
+        outputs[0][inputs["input_ids"].shape[1]:],
+        skip_special_tokens=True
+    )
     return {"response": response}