mazesmazes
/

tiny-audio

@@ -710,6 +710,7 @@ class ASRModel(PreTrainedModel):
         # Generate with or without streamer
         if streamer is not None:
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
@@ -717,13 +718,20 @@ class ASRModel(PreTrainedModel):
                 streamer=streamer,
                 **generate_kwargs,
             )
         else:
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
                 attention_mask=attention_mask,
                 **generate_kwargs,
             )
         return generated_ids[:, prompt_length:]
@@ -740,11 +748,11 @@ class ASRModel(PreTrainedModel):
         """
         Stream generation by using the working generate() method with a TextIteratorStreamer.
         """
-        # Set up the streamer
         streamer = TextIteratorStreamer(
             self.tokenizer,
             skip_prompt=True,
-            skip_special_tokens=True
         )
         # Count prompt length for stats

         # Generate with or without streamer
         if streamer is not None:
+            print(f"DEBUG generate: Using streamer", file=sys.stderr)
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
                 streamer=streamer,
                 **generate_kwargs,
             )
+            # Debug what was generated
+            generated_text = self.tokenizer.decode(generated_ids[0, prompt_length:], skip_special_tokens=True)
+            print(f"DEBUG generate with streamer: Generated text: {generated_text[:100]}", file=sys.stderr)
         else:
+            print(f"DEBUG generate: No streamer", file=sys.stderr)
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
                 attention_mask=attention_mask,
                 **generate_kwargs,
             )
+            # Debug what was generated
+            generated_text = self.tokenizer.decode(generated_ids[0, prompt_length:], skip_special_tokens=True)
+            print(f"DEBUG generate without streamer: Generated text: {generated_text[:100]}", file=sys.stderr)
         return generated_ids[:, prompt_length:]
         """
         Stream generation by using the working generate() method with a TextIteratorStreamer.
         """
+        # Set up the streamer - don't skip special tokens as it might affect audio token processing
         streamer = TextIteratorStreamer(
             self.tokenizer,
             skip_prompt=True,
+            skip_special_tokens=False  # Changed from True - audio token is special
         )
         # Count prompt length for stats