Spaces:

MarcusSu1216
/

XingTong

Running

App Files Files Community

MarcusSu1216 commited on Jun 20, 2024

Commit

e7d77e7

verified ·

1 Parent(s): 5ec3a59

Update preprocess_hubert_f0.py

Browse files

Files changed (1) hide show

preprocess_hubert_f0.py +9 -48

preprocess_hubert_f0.py CHANGED Viewed

@@ -7,12 +7,10 @@ from random import shuffle
 import torch
 from glob import glob
 from tqdm import tqdm
-from modules.mel_processing import spectrogram_torch
 import utils
 import logging
-logging.getLogger("numba").setLevel(logging.WARNING)
 import librosa
 import numpy as np
@@ -26,47 +24,16 @@ def process_one(filename, hmodel):
     wav, sr = librosa.load(filename, sr=sampling_rate)
     soft_path = filename + ".soft.pt"
     if not os.path.exists(soft_path):
-        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         wav16k = librosa.resample(wav, orig_sr=sampling_rate, target_sr=16000)
-        wav16k = torch.from_numpy(wav16k).to(device)
         c = utils.get_hubert_content(hmodel, wav_16k_tensor=wav16k)
         torch.save(c.cpu(), soft_path)
     f0_path = filename + ".f0.npy"
     if not os.path.exists(f0_path):
-        f0 = utils.compute_f0_dio(
-            wav, sampling_rate=sampling_rate, hop_length=hop_length
-        )
         np.save(f0_path, f0)
-    spec_path = filename.replace(".wav", ".spec.pt")
-    if not os.path.exists(spec_path):
-        # Process spectrogram
-        # The following code can't be replaced by torch.FloatTensor(wav)
-        # because load_wav_to_torch return a tensor that need to be normalized
-        audio, sr = utils.load_wav_to_torch(filename)
-        if sr != hps.data.sampling_rate:
-            raise ValueError(
-                "{} SR doesn't match target {} SR".format(
-                    sr, hps.data.sampling_rate
-                )
-            )
-        audio_norm = audio / hps.data.max_wav_value
-        audio_norm = audio_norm.unsqueeze(0)
-        spec = spectrogram_torch(
-            audio_norm,
-            hps.data.filter_length,
-            hps.data.sampling_rate,
-            hps.data.hop_length,
-            hps.data.win_length,
-            center=False,
-        )
-        spec = torch.squeeze(spec, 0)
-        torch.save(spec, spec_path)
 def process_batch(filenames):
     print("Loading hubert for content...")
@@ -79,23 +46,17 @@ def process_batch(filenames):
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
-    parser.add_argument(
-        "--in_dir", type=str, default="dataset/44k", help="path to input dir"
-    )
     args = parser.parse_args()
-    filenames = glob(f"{args.in_dir}/*/*.wav", recursive=True)  # [:10]
     shuffle(filenames)
-    multiprocessing.set_start_method("spawn", force=True)
     num_processes = 1
     chunk_size = int(math.ceil(len(filenames) / num_processes))
-    chunks = [
-        filenames[i : i + chunk_size] for i in range(0, len(filenames), chunk_size)
-    ]
     print([len(c) for c in chunks])
-    processes = [
-        multiprocessing.Process(target=process_batch, args=(chunk,)) for chunk in chunks
-    ]
     for p in processes:
         p.start()

 import torch
 from glob import glob
 from tqdm import tqdm
 import utils
 import logging
+logging.getLogger('numba').setLevel(logging.WARNING)
 import librosa
 import numpy as np
     wav, sr = librosa.load(filename, sr=sampling_rate)
     soft_path = filename + ".soft.pt"
     if not os.path.exists(soft_path):
+        devive = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         wav16k = librosa.resample(wav, orig_sr=sampling_rate, target_sr=16000)
+        wav16k = torch.from_numpy(wav16k).to(devive)
         c = utils.get_hubert_content(hmodel, wav_16k_tensor=wav16k)
         torch.save(c.cpu(), soft_path)
     f0_path = filename + ".f0.npy"
     if not os.path.exists(f0_path):
+        f0 = utils.compute_f0_dio(wav, sampling_rate=sampling_rate, hop_length=hop_length)
         np.save(f0_path, f0)
 def process_batch(filenames):
     print("Loading hubert for content...")
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
+    parser.add_argument("--in_dir", type=str, default="dataset/44k", help="path to input dir")
     args = parser.parse_args()
+    filenames = glob(f'{args.in_dir}/*/*.wav', recursive=True)  # [:10]
     shuffle(filenames)
+    multiprocessing.set_start_method('spawn',force=True)
     num_processes = 1
     chunk_size = int(math.ceil(len(filenames) / num_processes))
+    chunks = [filenames[i:i + chunk_size] for i in range(0, len(filenames), chunk_size)]
     print([len(c) for c in chunks])
+    processes = [multiprocessing.Process(target=process_batch, args=(chunk,)) for chunk in chunks]
     for p in processes:
         p.start()