Spaces:

wy-wu
/

cloud-chatbot

Runtime error

App Files Files Community

wy-wu commited on Sep 15, 2025

Commit

d782c6d

verified ·

1 Parent(s): 323b107

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -5

app.py CHANGED Viewed

@@ -1,28 +1,38 @@
 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
 def load_pipe(model_id=MODEL_ID):
     tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
     model = AutoModelForCausalLM.from_pretrained(
         model_id,
-        torch_dtype=torch.float32,        # CPU 環境用 float32 比較穩定
         low_cpu_mem_usage=True
     )
     return pipeline(
         "text-generation",
         model=model,
         tokenizer=tokenizer,
-        device=-1                         # -1 = CPU
     )
 pipe = load_pipe()
 SYSTEM_PROMPT = "你是一個助理，請使用繁體中文並簡潔回答。"
 def chat(history, user_msg):
     prompt = ""
     for role, text in history:
         prompt += f"{role}: {text}\n"
@@ -30,12 +40,14 @@ def chat(history, user_msg):
     out = pipe(
         prompt,
-        max_new_tokens=256,
         do_sample=True,
         temperature=0.7,
         top_p=0.9,
-        repetition_penalty=1.05,
         eos_token_id=pipe.tokenizer.eos_token_id,
     )[0]["generated_text"]
     reply = out.split("assistant:")[-1].strip()
@@ -44,7 +56,7 @@ def chat(history, user_msg):
     return history, ""
 with gr.Blocks() as demo:
-    gr.Markdown("## Chatbot 範例 - Qwen2.5-1.5B-Instruct (CPU)")
     chatbox = gr.Chatbot(height=350)
     msg = gr.Textbox(label="輸入訊息")
     clear = gr.Button("清空對話")

+import os
 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
+# 🔹 CPU 省時小技巧：限制多執行緒
+os.environ["OMP_NUM_THREADS"] = "1"
+os.environ["MKL_NUM_THREADS"] = "1"
+# 🔹 換成更小、更快的 Qwen 模型
 MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
 def load_pipe(model_id=MODEL_ID):
     tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
     model = AutoModelForCausalLM.from_pretrained(
         model_id,
+        torch_dtype=torch.float32,   # CPU 建議用 float32
         low_cpu_mem_usage=True
     )
     return pipeline(
         "text-generation",
         model=model,
         tokenizer=tokenizer,
+        device=-1                    # -1 = CPU
     )
 pipe = load_pipe()
 SYSTEM_PROMPT = "你是一個助理，請使用繁體中文並簡潔回答。"
+MAX_TURNS = 3   # 最多保留最近 3 回合，避免輸入過長
 def chat(history, user_msg):
+    # 🔹 縮短歷史，避免輸入過大拖慢
+    history = history[-2*MAX_TURNS:]
     prompt = ""
     for role, text in history:
         prompt += f"{role}: {text}\n"
     out = pipe(
         prompt,
+        max_new_tokens=128,          # 🔹 限制輸出長度，加快生成
         do_sample=True,
         temperature=0.7,
         top_p=0.9,
+        top_k=50,
+        repetition_penalty=1.1,      # 🔹 減少重複
         eos_token_id=pipe.tokenizer.eos_token_id,
+        num_return_sequences=1
     )[0]["generated_text"]
     reply = out.split("assistant:")[-1].strip()
     return history, ""
 with gr.Blocks() as demo:
+    gr.Markdown("## Chatbot 範例 - Qwen2.5-0.5B-Instruct (CPU)")
     chatbox = gr.Chatbot(height=350)
     msg = gr.Textbox(label="輸入訊息")
     clear = gr.Button("清空對話")