ACE-Step-MCP-Zero

Sleeping

ThreadAbort commited on Jan 14

Commit

4f0353a

1 Parent(s): fa099e3

refactor: update audio loading and saving methods to use torchcodec

Files changed (3) hide show

music_dcae/music_dcae_pipeline.py CHANGED Viewed

@@ -45,7 +45,7 @@ class MusicDCAE(ModelMixin, ConfigMixin, FromOriginalModelMixin):
         self.shift_factor = -1.9091
     def load_audio(self, audio_path):
-        audio, sr = torchaudio.load(audio_path)
         return audio, sr
     def forward_mel(self, audios):
@@ -121,7 +121,7 @@ class MusicDCAE(ModelMixin, ConfigMixin, FromOriginalModelMixin):
 if __name__ == "__main__":
-    audio, sr = torchaudio.load("test.wav")
     audio_lengths = torch.tensor([audio.shape[1]])
     audios = audio.unsqueeze(0)
@@ -137,5 +137,5 @@ if __name__ == "__main__":
     print("latents shape: ", latents.shape)
     print("latent_lengths: ", latent_lengths)
     print("sr: ", sr)
-    torchaudio.save("test_reconstructed.flac", pred_wavs[0], sr)
     print("test_reconstructed.flac")

         self.shift_factor = -1.9091
     def load_audio(self, audio_path):
+        audio, sr = torchaudio.load_with_torchcodec(audio_path)
         return audio, sr
     def forward_mel(self, audios):
 if __name__ == "__main__":
+    audio, sr = torchaudio.load_with_torchcodec("test.wav")
     audio_lengths = torch.tensor([audio.shape[1]])
     audios = audio.unsqueeze(0)
     print("latents shape: ", latents.shape)
     print("latent_lengths: ", latent_lengths)
     print("sr: ", sr)
+    torchaudio.save_with_torchcodec("test_reconstructed.flac", pred_wavs[0], sr)
     print("test_reconstructed.flac")

pipeline_ace_step.py CHANGED Viewed

@@ -36,7 +36,6 @@ from apg_guidance import (
     cfg_double_condition_forward,
 )
 import torchaudio
-import torio
 torch.backends.cudnn.benchmark = False
@@ -1428,12 +1427,11 @@ class ACEStepPipeline:
             f"{base_path}/output_{time.strftime('%Y%m%d%H%M%S')}_{idx}.{format}"
         )
         target_wav = target_wav.float()
-        torchaudio.save(
             output_path_flac,
             target_wav,
             sample_rate=sample_rate,
-            format=format,
-            compression=torio.io.CodecConfig(bit_rate=320000),
         )
         return output_path_flac

     cfg_double_condition_forward,
 )
 import torchaudio
 torch.backends.cudnn.benchmark = False
             f"{base_path}/output_{time.strftime('%Y%m%d%H%M%S')}_{idx}.{format}"
         )
         target_wav = target_wav.float()
+        torchaudio.save_with_torchcodec(
             output_path_flac,
             target_wav,
             sample_rate=sample_rate,
+            compression=320000,
         )
         return output_path_flac

requirements.txt CHANGED Viewed

@@ -10,6 +10,7 @@ pytorch_lightning==2.5.1
 soundfile==0.13.1
 torch==2.8.0
 torchaudio==2.8.0
 torchvision==0.23.0
 tqdm
 transformers==4.50.0

 soundfile==0.13.1
 torch==2.8.0
 torchaudio==2.8.0
+torchcodec>=0.2
 torchvision==0.23.0
 tqdm
 transformers==4.50.0