mazesmazes
/

tiny-audio

@@ -840,6 +840,18 @@ class ASRModel(PreTrainedModel):
         print(f"DEBUG generate_stream: num_audio_tokens={num_audio_tokens}", file=sys.stderr)
         print(f"DEBUG generate_stream: generate_kwargs={generate_kwargs}", file=sys.stderr)
         # Set up the streamer
         streamer = TextIteratorStreamer(
             self.tokenizer,

         print(f"DEBUG generate_stream: num_audio_tokens={num_audio_tokens}", file=sys.stderr)
         print(f"DEBUG generate_stream: generate_kwargs={generate_kwargs}", file=sys.stderr)
+        # Test: Try without threading first to see if that's the issue
+        print(f"DEBUG: Testing non-threaded generation first", file=sys.stderr)
+        test_output = self.decoder.generate(
+            input_ids=expanded_prompt_ids,
+            inputs_embeds=inputs_embeds,
+            attention_mask=attention_mask,
+            max_new_tokens=10,  # Just generate a few tokens to test
+            **{k: v for k, v in generate_kwargs.items() if k != 'max_new_tokens'}
+        )
+        test_text = self.tokenizer.decode(test_output[0, input_token_count:], skip_special_tokens=True)
+        print(f"DEBUG: Non-threaded test output: {test_text}", file=sys.stderr)
         # Set up the streamer
         streamer = TextIteratorStreamer(
             self.tokenizer,