OpenMOSS-Team
/

MOSS-Speech-Codec

Model card Files Files and versions

Phospheneser commited on Sep 30, 2025

Commit

17b249b

·

verified ·

1 Parent(s): d7c95ea

Update utils.py

Files changed (1) hide show

utils.py +7 -1

utils.py CHANGED Viewed

@@ -1912,7 +1912,13 @@ def extract_speech_token(model, feature_extractor, utts, batch_size=128):
                     # make sure kernel also on device
                     if hasattr(_resample_buffer[sample_rate], "kernel"):
                         _resample_buffer[sample_rate].kernel = _resample_buffer[sample_rate].kernel.to(device)
-                audio = _resample_buffer[sample_rate](audio)
             # if audio.shape[0] > 1:
             #     audio = audio[:1]
             audio = audio[0]

                     # make sure kernel also on device
                     if hasattr(_resample_buffer[sample_rate], "kernel"):
                         _resample_buffer[sample_rate].kernel = _resample_buffer[sample_rate].kernel.to(device)
+                if torchaudio.__version__ == "2.8.0":
+                    audio_device = audio.device
+                    audio = audio.cpu()
+                    audio = _resample_buffer[sample_rate](audio)
+                    audio = audio.to(audio_device)
+                else:
+                    audio = _resample_buffer[sample_rate](audio)
             # if audio.shape[0] > 1:
             #     audio = audio[:1]
             audio = audio[0]