microsoft
/

Phi-4-multimodal-instruct

Automatic Speech Recognition

text-generation

speech-summarization

speech-translation

visual-question-answering

phi-4-multimodal

Model card Files Files and versions

Support this model device-independent.

#52

by Eraa - opened Mar 25, 2025

base: refs/heads/main

←

from: refs/pr/52

Discussion Files changed

Files changed (1) hide show

speech_conformer_encoder.py +4 -5

speech_conformer_encoder.py CHANGED Viewed

@@ -2477,9 +2477,8 @@ class TransformerEncoderBase(abc.ABC, nn.Module):
             seq_len, batch_size, self.chunk_size, self.left_chunk
         )
-        if xs_pad.is_cuda:
-            enc_streaming_mask = enc_streaming_mask.cuda()
-            xs_pad = xs_pad.cuda()
         input_tensor = xs_pad
         input_tensor, masks = self._forward_embeddings_core(input_tensor, masks)
@@ -2496,8 +2495,8 @@ class TransformerEncoderBase(abc.ABC, nn.Module):
             enc_streaming_mask_nc = self._streaming_mask(
                 seq_len, batch_size, chunk_size_nc, left_chunk_nc
             )
-            if xs_pad.is_cuda:
-                enc_streaming_mask_nc = enc_streaming_mask_nc.cuda()
             if masks is not None:
                 hs_mask_nc = masks & enc_streaming_mask_nc
             else:

             seq_len, batch_size, self.chunk_size, self.left_chunk
         )
+        if xs_pad.device != "cpu":
+            enc_streaming_mask = enc_streaming_mask.to(xs_pad.device)
         input_tensor = xs_pad
         input_tensor, masks = self._forward_embeddings_core(input_tensor, masks)
             enc_streaming_mask_nc = self._streaming_mask(
                 seq_len, batch_size, chunk_size_nc, left_chunk_nc
             )
+            if xs_pad.device != "cpu":
+                enc_streaming_mask_nc = enc_streaming_mask_nc.to(xs_pad.device)
             if masks is not None:
                 hs_mask_nc = masks & enc_streaming_mask_nc
             else: