mazesmazes
/

tiny-audio

@@ -673,6 +673,12 @@ class ASRModel(PreTrainedModel):
         num_audio_tokens = audio_embeds.shape[1]
         expanded_prompt_ids = self._expand_audio_tokens(prompt_ids, num_audio_tokens)
         inputs_embeds = self._prepare_audio_inputs_embeds(expanded_prompt_ids, audio_embeds)
         total_seq_len = inputs_embeds.shape[1]
         attention_mask = torch.ones(batch_size, total_seq_len, dtype=torch.long, device=device)
@@ -700,14 +706,8 @@ class ASRModel(PreTrainedModel):
         generate_kwargs.setdefault("pad_token_id", self.tokenizer.pad_token_id)
         prompt_length = expanded_prompt_ids.shape[1]
-        # Debug: Compare with streaming version
-        import sys
-        print(f"DEBUG generate (non-streaming): task={task}, system_prompt={system_prompt}, user_prompt={user_prompt}", file=sys.stderr)
-        print(f"DEBUG generate (non-streaming): generate_kwargs={generate_kwargs}", file=sys.stderr)
         # Generate with or without streamer
         if streamer is not None:
-            print(f"DEBUG generate: Using streamer", file=sys.stderr)
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
@@ -715,20 +715,13 @@ class ASRModel(PreTrainedModel):
                 streamer=streamer,
                 **generate_kwargs,
             )
-            # Debug what was generated
-            generated_text = self.tokenizer.decode(generated_ids[0, prompt_length:], skip_special_tokens=True)
-            print(f"DEBUG generate with streamer: Generated text: {generated_text[:100]}", file=sys.stderr)
         else:
-            print(f"DEBUG generate: No streamer", file=sys.stderr)
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
                 attention_mask=attention_mask,
                 **generate_kwargs,
             )
-            # Debug what was generated
-            generated_text = self.tokenizer.decode(generated_ids[0, prompt_length:], skip_special_tokens=True)
-            print(f"DEBUG generate without streamer: Generated text: {generated_text[:100]}", file=sys.stderr)
         return generated_ids[:, prompt_length:]

         num_audio_tokens = audio_embeds.shape[1]
         expanded_prompt_ids = self._expand_audio_tokens(prompt_ids, num_audio_tokens)
+        # Debug: Show what prompt we built
+        import sys
+        prompt_text = self.tokenizer.decode(expanded_prompt_ids[0], skip_special_tokens=False)
+        print(f"DEBUG generate: Built prompt: {prompt_text[:200]}", file=sys.stderr)
         inputs_embeds = self._prepare_audio_inputs_embeds(expanded_prompt_ids, audio_embeds)
         total_seq_len = inputs_embeds.shape[1]
         attention_mask = torch.ones(batch_size, total_seq_len, dtype=torch.long, device=device)
         generate_kwargs.setdefault("pad_token_id", self.tokenizer.pad_token_id)
         prompt_length = expanded_prompt_ids.shape[1]
         # Generate with or without streamer
         if streamer is not None:
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
                 streamer=streamer,
                 **generate_kwargs,
             )
         else:
             generated_ids = self.decoder.generate(
                 input_ids=expanded_prompt_ids,
                 inputs_embeds=inputs_embeds,
                 attention_mask=attention_mask,
                 **generate_kwargs,
             )
         return generated_ids[:, prompt_length:]

asr_pipeline.py CHANGED Viewed

@@ -219,6 +219,10 @@ class ASRPipeline(transformers.AutomaticSpeechRecognitionPipeline):
         generate_kwargs.setdefault("eos_token_id", im_end_id)
         generate_kwargs.setdefault("max_new_tokens", self.model.config.max_new_tokens)
         # Pass the appropriate input type to generate
         if is_whisper:
             # Whisper model - use input_features

         generate_kwargs.setdefault("eos_token_id", im_end_id)
         generate_kwargs.setdefault("max_new_tokens", self.model.config.max_new_tokens)
+        # Debug: Log what we're passing to generate
+        import sys
+        print(f"DEBUG _forward: task={task}, system_prompt={self.model.config.system_prompt}", file=sys.stderr)
         # Pass the appropriate input type to generate
         if is_whisper:
             # Whisper model - use input_features