CSC9090_qwen3-0.6b-base-2

Running

App Files Files Community

badanwang commited on Jul 18

Commit

43e2809

verified ·

1 Parent(s): d92cc67

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -23

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
 import gradio as gr
 from threading import Thread
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
@@ -6,34 +5,25 @@ import torch
 import os
 # --- 配置 ---
-# 我们不再需要API Token，因为模型在本地运行
 MODEL_ID = "badanwang/teacher_basic_qwen3-0.6b"
 print("开始加载模型和分词器...")
 try:
-    # 确保使用 trust_remote_code=True，因为Qwen模型需要加载自定义代码
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
-        torch_dtype="auto", # 使用适合CPU的类型，如torch.float32
-        device_map="auto",  # 自动将模型加载到可用设备（这里是CPU）
         trust_remote_code=True
     )
     print("模型和分词器加载成功！")
 except Exception as e:
     print(f"模型加载失败: {e}")
-    # 如果模型加载失败，应用将无法工作，这里可以抛出异常或退出
     raise gr.Error(f"关键错误：无法加载模型 {MODEL_ID}。错误信息: {e}")
 # --- 核心对话函数 ---
 def predict(message, history):
-    """
-    主函数，使用加载到本地的模型进行流式对话。
-    """
-    # 1. 格式化对话历史
-    # Qwen的模板要求一个特殊的列表格式
     messages = []
     for turn in history:
         user_msg, assistant_msg = turn
@@ -41,17 +31,14 @@ def predict(message, history):
         messages.append({"role": "assistant", "content": assistant_msg})
     messages.append({"role": "user", "content": message})
-    # 使用分词器的 apply_chat_template 方法来正确格式化输入
     model_inputs = tokenizer.apply_chat_template(
         messages,
         add_generation_prompt=True,
         return_tensors="pt"
-    ).to(model.device) # 确保输入张量和模型在同一设备上
-    # 2. 设置流式输出
     streamer = TextIteratorStreamer(tokenizer, timeout=300.0, skip_prompt=True, skip_special_tokens=True)
-    # 3. 在一个单独的线程中运行生成，以避免阻塞UI
     generation_kwargs = dict(
         inputs=model_inputs,
         streamer=streamer,
@@ -63,21 +50,19 @@ def predict(message, history):
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
-    # 4. 从streamer中yield每个新生成的token
     full_response = ""
     for new_text in streamer:
         full_response += new_text
         yield full_response
 # --- 创建并启动Gradio界面 ---
 demo = gr.ChatInterface(
     fn=predict,
-    title="老师傅",
     description=f"直接在Space中运行 {MODEL_ID} 模型进行流式对话。CPU推理可能较慢，请耐心等待。",
-    examples=[["你好"], ["请用python写一个快速排序算法"], ["给我讲个笑话吧"]],
-    cache_examples=False,
 )
 if __name__ == "__main__":
-    demo.launch(# 这是修改后的代码
-demo.launch(share=True))

 import gradio as gr
 from threading import Thread
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import os
 # --- 配置 ---
 MODEL_ID = "badanwang/teacher_basic_qwen3-0.6b"
+# --- 加载模型和分词器 ---
 print("开始加载模型和分词器...")
 try:
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
+        torch_dtype="auto",
+        device_map="auto",
         trust_remote_code=True
     )
     print("模型和分词器加载成功！")
 except Exception as e:
     print(f"模型加载失败: {e}")
     raise gr.Error(f"关键错误：无法加载模型 {MODEL_ID}。错误信息: {e}")
 # --- 核心对话函数 ---
 def predict(message, history):
     messages = []
     for turn in history:
         user_msg, assistant_msg = turn
         messages.append({"role": "assistant", "content": assistant_msg})
     messages.append({"role": "user", "content": message})
     model_inputs = tokenizer.apply_chat_template(
         messages,
         add_generation_prompt=True,
         return_tensors="pt"
+    ).to(model.device)
     streamer = TextIteratorStreamer(tokenizer, timeout=300.0, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = dict(
         inputs=model_inputs,
         streamer=streamer,
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     full_response = ""
     for new_text in streamer:
         full_response += new_text
         yield full_response
 # --- 创建并启动Gradio界面 ---
+# 已移除 examples 和 cache_examples 参数来修复点击示例时报错的问题
 demo = gr.ChatInterface(
     fn=predict,
+    title="小Q老师 - 基础问答 (本地加载)",
     description=f"直接在Space中运行 {MODEL_ID} 模型进行流式对话。CPU推理可能较慢，请耐心等待。",
 )
 if __name__ == "__main__":
+    # 使用 share=True 来允许跨域 WebSocket 连接
+    demo.launch(share=True)