CanerDedeoglu
/

Rapid_ECG

Image-Text-to-Text

Model card Files Files and versions

stop criteria esnetildi

#32

by ismailhakki37 - opened Aug 22, 2025

base: refs/heads/main

←

from: refs/pr/32

Discussion Files changed

Files changed (1) hide show

handler.py +16 -3

handler.py CHANGED Viewed

@@ -347,13 +347,23 @@ def generate_response(message_text, image_input, temperature=0.05, top_p=1.0, ma
             prompt, our_chatbot.tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt"
         ).unsqueeze(0).to(our_chatbot.model.device)
-        # Set up stopping criteria
         stop_str = (
             our_chatbot.conversation.sep
             if our_chatbot.conversation.sep_style != SeparatorStyle.TWO
             else our_chatbot.conversation.sep2
         )
-        keywords = [stop_str]
         stopping_criteria = KeywordsStoppingCriteria(
             keywords, our_chatbot.tokenizer, input_ids
         )
@@ -370,6 +380,9 @@ def generate_response(message_text, image_input, temperature=0.05, top_p=1.0, ma
                 repetition_penalty=repetition_penalty,
                 use_cache=False,
                 stopping_criteria=[stopping_criteria],
             )
         # Decode response
@@ -553,7 +566,7 @@ def query(payload):
         top_p = float(payload.get("top_p", 1.0))
         max_output_tokens = int(payload.get("max_output_tokens",
                                payload.get("max_new_tokens",
-                               payload.get("max_tokens", 4096))))
         repetition_penalty = float(payload.get("repetition_penalty", 1.0))
         conv_mode_override = payload.get("conv_mode", None)

             prompt, our_chatbot.tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt"
         ).unsqueeze(0).to(our_chatbot.model.device)
+        # Set up stopping criteria - more flexible to allow longer responses
         stop_str = (
             our_chatbot.conversation.sep
             if our_chatbot.conversation.sep_style != SeparatorStyle.TWO
             else our_chatbot.conversation.sep2
         )
+        # Use minimal stopping criteria to allow longer responses
+        keywords = []
+        if stop_str and stop_str.strip():
+            keywords.append(stop_str)
+        # Only add very basic stopping criteria to prevent infinite generation
+        if not keywords:
+            keywords = ["</s>", "<s>"]
+        print(f"[DEBUG] Using stopping criteria: {keywords}")
         stopping_criteria = KeywordsStoppingCriteria(
             keywords, our_chatbot.tokenizer, input_ids
         )
                 repetition_penalty=repetition_penalty,
                 use_cache=False,
                 stopping_criteria=[stopping_criteria],
+                pad_token_id=our_chatbot.tokenizer.eos_token_id,
+                eos_token_id=our_chatbot.tokenizer.eos_token_id,
+                length_penalty=1.0,  # Don't penalize longer sequences
             )
         # Decode response
         top_p = float(payload.get("top_p", 1.0))
         max_output_tokens = int(payload.get("max_output_tokens",
                                payload.get("max_new_tokens",
+                               payload.get("max_tokens", 8192))))
         repetition_penalty = float(payload.get("repetition_penalty", 1.0))
         conv_mode_override = payload.get("conv_mode", None)