Spaces:

nuojohnchen
/

ApolloPlayground

Sleeping

App Files Files Community

nuojohnchen commited on Apr 7, 2025

Commit

3f3bb20

verified ·

1 Parent(s): 93599b4

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -22

app.py CHANGED Viewed

@@ -121,29 +121,11 @@ def generate_response_non_streaming(instruction, model_name, temperature=0.7, ma
         load_message = load_model(model_name)
         if "failed" in load_message.lower():
             return load_message
     try:
-        # 检查模型是否有聊天模板
-        if hasattr(current_tokenizer, 'chat_template') and current_tokenizer.chat_template:
-            # 使用模型的聊天模板
-            messages = [
-                {"role": "system", "content": SYSTEM_PROMPT},
-                {"role": "user", "content": instruction}
-            ]
-            # 使用模型的聊天模板格式化输入
-            chat_input = current_tokenizer.apply_chat_template(
-                messages,
-                tokenize=True,
-                return_tensors="pt"
-            ).to(current_model.device)
-        else:
-            # 使用指定的提示格式
-            prompt = f"User:{instruction}\nAssistant:"
-            chat_input = current_tokenizer.encode(prompt, return_tensors="pt").to(current_model.device)
-            # 获取<|endoftext|>的token id，用于停止生成
-            eos_token_id = current_tokenizer.eos_token_id
         # 生成响应
         output = current_model.generate(
@@ -160,6 +142,44 @@ def generate_response_non_streaming(instruction, model_name, temperature=0.7, ma
     except Exception as e:
         return f"生成响应时出错: {str(e)}"
 def update_chat_with_response(chatbot, instruction, model_name, temperature, max_tokens):
     """Updates the chatbot with non-streaming response"""
     global current_model, current_tokenizer, current_model_path

         load_message = load_model(model_name)
         if "failed" in load_message.lower():
             return load_message
     try:
+        # 直接使用简单的提示格式，不使用模型的聊天模板
+        prompt = f"User:{instruction}\nAssistant:"
+        chat_input = current_tokenizer.encode(prompt, return_tensors="pt").to(current_model.device)
         # 生成响应
         output = current_model.generate(
     except Exception as e:
         return f"生成响应时出错: {str(e)}"
+    # try:
+    #     # 检查模型是否有聊天模板
+    #     if hasattr(current_tokenizer, 'chat_template') and current_tokenizer.chat_template:
+    #         # 使用模型的聊天模板
+    #         messages = [
+    #             {"role": "system", "content": SYSTEM_PROMPT},
+    #             {"role": "user", "content": instruction}
+    #         ]
+    #         # 使用模型的聊天模板格式化输入
+    #         chat_input = current_tokenizer.apply_chat_template(
+    #             messages,
+    #             tokenize=True,
+    #             return_tensors="pt"
+    #         ).to(current_model.device)
+    #     else:
+    #         # 使用指定的提示格式
+    #         prompt = f"User:{instruction}\nAssistant:"
+    #         chat_input = current_tokenizer.encode(prompt, return_tensors="pt").to(current_model.device)
+    #         # 获取<|endoftext|>的token id，用于停止生成
+    #         eos_token_id = current_tokenizer.eos_token_id
+    #     # 生成响应
+    #     output = current_model.generate(
+    #         input_ids=chat_input,
+    #         max_new_tokens=max_tokens,
+    #         temperature=temperature,
+    #         do_sample=(temperature > 0),
+    #         eos_token_id=current_tokenizer.eos_token_id  # 使用<|endoftext|>作为停止标记
+    #     )
+    #     # 解码并返回生成的文本
+    #     generated_text = current_tokenizer.decode(output[0][len(chat_input[0]):], skip_special_tokens=True)
+    #     return generated_text
+    # except Exception as e:
+    #     return f"生成响应时出错: {str(e)}"
 def update_chat_with_response(chatbot, instruction, model_name, temperature, max_tokens):
     """Updates the chatbot with non-streaming response"""
     global current_model, current_tokenizer, current_model_path