Spaces:

NoesisLab
/

ChatSpartacus

Sleeping

App Files Files Community

OzTianlu commited on Feb 26

Commit

190ebf5

verified ·

1 Parent(s): 72af96d

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -16

app.py CHANGED Viewed

@@ -1,34 +1,30 @@
 import gradio as gr
 import torch
-import spaces # 必须导入
 from threading import Thread
 from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 MODEL_ID = "NoesisLab/Spartacus-1B-Instruct"
-# Tokenizer 可以留在全局，因为它不占 GPU
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
-# 建议将模型定义为全局变量，但在函数内初始化，避免重复加载
 model = None
-@spaces.GPU # 必须加在生成函数上
 def respond(message, history):
     global model
-    # 只有在第一次运行且 GPU 环境就绪时加载模型
     if model is None:
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_ID,
             torch_dtype=torch.float16,
-            # device_map="auto" 在 ZeroGPU 中容易报错，建议直接 .to("cuda")
             trust_remote_code=True,
         ).to("cuda")
     messages = [{"role": "system", "content": "You are Spartacus, a helpful assistant."}]
-    for msg in history:
-        # 注意：Gradio 的 history 结构可能需要适配
-        role = "assistant" if msg['role'] == 'assistant' else "user"
-        messages.append({"role": role, "content": msg["content"]})
     messages.append({"role": "user", "content": message})
@@ -41,20 +37,21 @@ def respond(message, history):
     generate_kwargs = dict(
         input_ids=input_ids,
         streamer=streamer,
-        max_new_tokens=2048, # 建议加上限制，防止超时
-        temperature=0.6,
-        top_p=0.95,
         do_sample=True,
     )
-    # 在 ZeroGPU 中使用 Thread 也是允许的
     thread = Thread(target=model.generate, kwargs=generate_kwargs)
     thread.start()
     response = ""
     for token in streamer:
-        yield token # 直接 yield 增量或累计文本
 demo = gr.ChatInterface(
     fn=respond,
     title="Spartacus Chat",

 import gradio as gr
 import torch
+import spaces
 from threading import Thread
 from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 MODEL_ID = "NoesisLab/Spartacus-1B-Instruct"
+# Tokenizer 静态加载
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
 model = None
+@spaces.GPU
 def respond(message, history):
     global model
     if model is None:
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_ID,
             torch_dtype=torch.float16,
             trust_remote_code=True,
         ).to("cuda")
+    # 适配旧版 Gradio 的 history 格式: [[user, assistant], [user, assistant]]
     messages = [{"role": "system", "content": "You are Spartacus, a helpful assistant."}]
+    for user_msg, assistant_msg in history:
+        messages.append({"role": "user", "content": user_msg})
+        messages.append({"role": "assistant", "content": assistant_msg})
     messages.append({"role": "user", "content": message})
     generate_kwargs = dict(
         input_ids=input_ids,
         streamer=streamer,
+        max_new_tokens=1024,
+        temperature=0.5,
+        top_p=0.9,
         do_sample=True,
     )
     thread = Thread(target=model.generate, kwargs=generate_kwargs)
     thread.start()
     response = ""
     for token in streamer:
+        response += token
+        yield response # 旧版 ChatInterface 需要 yield 完整的累计字符串
+# 移除 type="messages" 参数
 demo = gr.ChatInterface(
     fn=respond,
     title="Spartacus Chat",