mazesmazes
/

tiny-audio

@@ -630,9 +630,6 @@ class ASRModel(PreTrainedModel):
             raise ValueError("input_values or input_features must be provided for generation")
         # Debug: Check audio inputs
-        import sys
-        print(f"DEBUG generate (non-streaming): audio_inputs shape={audio_inputs.shape if audio_inputs is not None else None}", file=sys.stderr)
-        print(f"DEBUG generate (non-streaming): audio_inputs type={type(audio_inputs)}", file=sys.stderr)
         audio_embeds = self._encode_audio(audio_inputs)
         batch_size = audio_embeds.shape[0]
@@ -748,11 +745,11 @@ class ASRModel(PreTrainedModel):
         """
         Stream generation by using the working generate() method with a TextIteratorStreamer.
         """
-        # Set up the streamer - don't skip special tokens as it might affect audio token processing
         streamer = TextIteratorStreamer(
             self.tokenizer,
             skip_prompt=True,
-            skip_special_tokens=False  # Changed from True - audio token is special
         )
         # Count prompt length for stats

             raise ValueError("input_values or input_features must be provided for generation")
         # Debug: Check audio inputs
         audio_embeds = self._encode_audio(audio_inputs)
         batch_size = audio_embeds.shape[0]
         """
         Stream generation by using the working generate() method with a TextIteratorStreamer.
         """
+        # Set up the streamer
         streamer = TextIteratorStreamer(
             self.tokenizer,
             skip_prompt=True,
+            skip_special_tokens=True  # Back to True - special tokens shouldn't be in output text
         )
         # Count prompt length for stats