CSC9090_qwen3-0.6b-base-2

Running

App Files Files Community

badanwang commited on Jul 18

Commit

b965102

verified ·

1 Parent(s): e906ca1

Update app.py

Browse files

Files changed (1) hide show

app.py +78 -54

app.py CHANGED Viewed

@@ -2,82 +2,106 @@ import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
 MODEL_ID = "badanwang/teacher_basic_qwen3-0.6b"
-print("正在加载模型和分词器...")
 try:
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-    # --- 【关键修改 1】---
-    # 移除 torch_dtype=torch.bfloat16，使用默认的 float32，这是在 CPU 上最稳妥的选择。
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
         device_map="auto"
     )
-    print("模型和分词器加载成功！")
 except Exception as e:
-    print(f"加载模型时出错: {e}")
     model, tokenizer = None, None
-# --- 3. 定义核心推理函数 ---
-def predict(message, history):
-    print("\n--- [DEBUG] 进入 predict 函数 ---") # 调试日志
-    print(f"[DEBUG] 收到的 Message: {message}")
-    print(f"[DEBUG] 收到的 History: {history}")
     if model is None or tokenizer is None:
-        print("[DEBUG] 模型或分词器为 None，返回错误。")
-        yield "错误：模型未能成功加载，请检查后台日志和模型ID。"
         return
-    # ... (将 history 转换为 chat_history_for_model 的代码保持不变) ...
-    chat_history_for_model = []
-    for user_msg, assistant_msg in history:
-        chat_history_for_model.append({"role": "user", "content": user_msg})
-        chat_history_for_model.append({"role": "assistant", "content": assistant_msg})
-    chat_history_for_model.append({"role": "user", "content": message})
-    print("[DEBUG] 正在应用聊天模板...")
-    prompt_tokens = tokenizer.apply_chat_template(
-        chat_history_for_model,
-        add_generation_prompt=True,
-        tokenize=True,
-        return_tensors="pt"
-    ).to(model.device)
-    print(f"[DEBUG] 模板应用成功，输入 token 数量: {prompt_tokens.shape[-1]}")
-    streamer = TextIteratorStreamer(tokenizer, timeout=60.0, skip_prompt=True, skip_special_tokens=True)
-    generation_kwargs = {
-        "input_ids": prompt_tokens,
-        "streamer": streamer,
-        "max_new_tokens": 1024,
-        "do_sample": True,
-        "temperature": 0.7,
-        "top_p": 0.9,
-    }
-    print("[DEBUG] 准备启动生成线程...")
-    thread = Thread(target=model.generate, kwargs=generation_kwargs)
-    thread.start()
-    print("[DEBUG] 生成线程已启动，开始从 streamer 中读取数据...")
-    buffer = ""
-    token_count = 0
-    for new_text in streamer:
-        token_count += 1
-        print(f"[DEBUG] 正在生成第 {token_count} 个 token: '{new_text}'") # 逐个 token 打印
-        buffer += new_text
-        yield buffer
-    print("[DEBUG] Streamer 读取完毕，函数结束。")
-# ... (gr.Blocks 和 demo.launch() 的代码保持不变) ...
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    # ...
-    chat_interface = gr.ChatInterface(fn=predict, #...
     )
-demo.queue()
-demo.launch()

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
+import logging
+import time
+import json
+# ===================================================================
+#         最终版 app.py (适配 Gradio 4.x+ 的推荐模式)
+# ===================================================================
+# 1. 配置详细的日志记录
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
+logger = logging.getLogger(__name__)
 MODEL_ID = "badanwang/teacher_basic_qwen3-0.6b"
+logger.info("===== Application Startup =====")
+logger.info(f"正在加载模型和分词器: {MODEL_ID}")
 try:
     tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_ID,
+        torch_dtype=torch.float32, # 在 CPU 上使用 float32 以获得最佳稳定性和兼容性
         device_map="auto"
     )
+    logger.info("模型和分词器加载成功！")
 except Exception as e:
+    logger.error(f"加载模型时发生致命错误: {e}", exc_info=True)
     model, tokenizer = None, None
+# --- 2. 核心推理函数 (已根据 Gradio 新模式重构) ---
+def predict(messages: list):
+    """
+    接收一个包含完整对话历史的 OpenAI 格式列表，返回模型的流式响应。
+    """
+    start_time = time.time()
+    logger.info("\n--- [START] 进入 predict 函数 ---")
+    # 使用 json.dumps 美化输出，方便阅读
+    logger.info(f"[INPUT] 收到的 messages 列表:\n{json.dumps(messages, indent=2, ensure_ascii=False)}")
     if model is None or tokenizer is None:
+        logger.warning("[HANDLER] 模型或分词器为 None，返回错误信息。")
+        yield "错误：模型未能成功加载，请检查后台日志。"
         return
+    try:
+        logger.info("[HANDLER] 正在应用聊天模板...")
+        prompt_tokens = tokenizer.apply_chat_template(
+            messages,
+            add_generation_prompt=True,
+            tokenize=True,
+            return_tensors="pt"
+        ).to(model.device)
+        logger.info(f"[HANDLER] 模板应用成功，输入 token 数量: {prompt_tokens.shape[-1]}")
+        streamer = TextIteratorStreamer(tokenizer, timeout=60.0, skip_prompt=True, skip_special_tokens=True)
+        generation_kwargs = {
+            "input_ids": prompt_tokens,
+            "streamer": streamer,
+            "max_new_tokens": 1024,
+            "do_sample": True,
+            "temperature": 0.7,
+            "top_p": 0.9,
+        }
+        logger.info("[HANDLER] 准备启动生成线程...")
+        thread = Thread(target=model.generate, kwargs=generation_kwargs)
+        thread.start()
+        logger.info("[HANDLER] 生成线程已启动，开始从 streamer 中读取数据...")
+        buffer = ""
+        token_count = 0
+        for new_text in streamer:
+            token_count += 1
+            logger.info(f"[STREAM] 正在生成第 {token_count} 个 token: {repr(new_text)}")
+            buffer += new_text
+            yield buffer
+        logger.info(f"[HANDLER] Streamer 读取完毕，共生成 {token_count} 个 token。")
+    except Exception as e:
+        logger.error(f"[HANDLER] 在推理过程中发生错误: {e}", exc_info=True)
+        yield "抱歉，处理您的请求时遇到了一个内部错误。"
+    end_time = time.time()
+    logger.info(f"--- [END] predict 函数结束，总耗时: {end_time - start_time:.2f} 秒 ---")
+# --- 3. 创建Gradio界面 (已优化) ---
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown(f"# 你的自定义Qwen模型聊天机器人\n## 模型: {MODEL_ID}")
+    chat_interface = gr.ChatInterface(
+        fn=predict,
+        title="聊天机器人",
+        description="向你的微调Qwen模型提问吧！",
+        examples=[["你好，你是谁？"], ["用Python写一个快速排序算法"]],
+        type="messages" # <-- 【最关键的优化】告诉 Gradio 使用新的 OpenAI 格式
     )
+# --- 4. 启动应用 ---
+logger.info("准备启动 Gradio 应用...")
+demo.queue().launch()
+logger.info("Gradio 应用已启动。")