Spaces:

mpc001
/

auto_avsr

Runtime error

App Files Files Community

mpc001 commited on Jun 16, 2023

Commit

b3d8e4f

1 Parent(s): e19e5b7

Update pipelines/data/data_module.py

Browse files

Files changed (1) hide show

pipelines/data/data_module.py +1 -13

pipelines/data/data_module.py CHANGED Viewed

@@ -29,8 +29,6 @@ class AVSRDataLoader:
     def load_data(self, data_filename, landmarks=None, transform=True):
         if self.modality == "audio":
-            # audio, sample_rate = self.load_audio(data_filename)
-            # audio = self.audio_process(audio, sample_rate)
             audio = self.load_audio(data_filename)
             return self.audio_transform(audio) if self.transform else audio
         if self.modality == "video":
@@ -40,8 +38,6 @@ class AVSRDataLoader:
             return self.video_transform(video) if self.transform else video
         if self.modality == "audiovisual":
             rate_ratio = 640
-            # audio, sample_rate = self.load_audio(data_filename)
-            # audio = self.audio_process(audio, sample_rate)
             audio = self.load_audio(data_filename)
             video = self.load_video(data_filename)
             video = self.video_process(video, landmarks)
@@ -58,16 +54,8 @@ class AVSRDataLoader:
     def load_audio(self, data_filename):
         # rtype: [1, T]
         waveform = torch.tensor(whisper.load_audio(data_filename)).unsqueeze(0)
-        # waveform, sample_rate = torchaudio.load(data_filename, normalize=True)
-        # return waveform, sample_rate
     def load_video(self, data_filename):
         return torchvision.io.read_video(data_filename, pts_unit='sec')[0].numpy()
-    # def audio_process(self, waveform, sample_rate, target_sample_rate=16000):
-    #     if sample_rate != target_sample_rate:
-    #         waveform = torchaudio.functional.resample(waveform, sample_rate, target_sample_rate)
-    #     waveform = torch.mean(waveform, dim=0, keepdim=True)
-    #     return waveform

     def load_data(self, data_filename, landmarks=None, transform=True):
         if self.modality == "audio":
             audio = self.load_audio(data_filename)
             return self.audio_transform(audio) if self.transform else audio
         if self.modality == "video":
             return self.video_transform(video) if self.transform else video
         if self.modality == "audiovisual":
             rate_ratio = 640
             audio = self.load_audio(data_filename)
             video = self.load_video(data_filename)
             video = self.video_process(video, landmarks)
     def load_audio(self, data_filename):
         # rtype: [1, T]
         waveform = torch.tensor(whisper.load_audio(data_filename)).unsqueeze(0)
+        return waveform
     def load_video(self, data_filename):
         return torchvision.io.read_video(data_filename, pts_unit='sec')[0].numpy()