mazesmazes
/

tiny-audio

@@ -454,6 +454,23 @@ class ASRModel(PreTrainedModel, GenerationMixin):
             # Replace <audio> token placeholders with audio embeddings using masked_scatter
             audio_token_mask = (input_ids == self.audio_token_id).unsqueeze(-1)
             inputs_embeds = inputs_embeds.masked_scatter(
                 audio_token_mask.to(inputs_embeds.device),
                 audio_embeds.to(inputs_embeds.device, dtype=inputs_embeds.dtype),

             # Replace <audio> token placeholders with audio embeddings using masked_scatter
             audio_token_mask = (input_ids == self.audio_token_id).unsqueeze(-1)
+            num_audio_tokens = audio_token_mask.sum() // audio_token_mask.shape[-1]
+            num_audio_embeds = audio_embeds.shape[0]
+            # Handle mismatch between expected tokens and actual embeddings
+            if num_audio_embeds < num_audio_tokens:
+                # Pad audio embeddings with zeros if we have fewer than expected
+                padding = torch.zeros(
+                    num_audio_tokens - num_audio_embeds,
+                    audio_embeds.shape[-1],
+                    device=audio_embeds.device,
+                    dtype=audio_embeds.dtype,
+                )
+                audio_embeds = torch.cat([audio_embeds, padding], dim=0)
+            elif num_audio_embeds > num_audio_tokens:
+                # Truncate if we have more embeddings than tokens
+                audio_embeds = audio_embeds[:num_audio_tokens]
             inputs_embeds = inputs_embeds.masked_scatter(
                 audio_token_mask.to(inputs_embeds.device),
                 audio_embeds.to(inputs_embeds.device, dtype=inputs_embeds.dtype),