dodo12

Runtime error

App Files Files Community

pengdaqian commited on May 13, 2023

Commit

dbea546

1 Parent(s): c868571

fix

Browse files

Files changed (5) hide show

app.py +12 -5
torchspleeter/utils.py +2 -0
utils/__init__.py +0 -0
utils/utils.py +13 -0
whisper/inference.py +5 -3

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 import sys
 from music.search import get_youtube, download_random
 from vits.models import SynthesizerInfer
 import whisper.inference
 from omegaconf import OmegaConf
@@ -35,6 +36,7 @@ def load_svc_model(checkpoint_path, model):
     return model
 def compute_f0_nn(filename, device):
     audio, sr = librosa.load(filename, sr=16000)
     assert sr == 16000
@@ -82,16 +84,21 @@ load_svc_model("vits_pretrain/sovits5.0-48k-debug.pth", model)
 model.eval()
 model.to(device)
 whisper_model = whisper.inference.load_model(os.path.join("whisper_pretrain", "medium.pt"))
 splitter_model = Splitter.from_pretrained(os.path.join("torchspleeter/models/2stems", "spleeter.pth")).to(device).eval()
 # warm up
 # separator.separate_to_file('warm.wav', '/tmp/warm')
 def svc_change(argswave, argsspk):
-    argsppg = "svc_tmp.ppg.npy"
-    whisper.inference.pred_ppg(whisper_model, argswave, argsppg)
     # os.system(f"python whisper/inference.py -w {argswave} -p {argsppg}")
     spk = np.load(argsspk)
@@ -173,6 +180,7 @@ def svc_change(argswave, argsspk):
     return out_audio
 def svc_main(sid, input_audio):
     if input_audio is None:
         return "You need to upload an audio", None
@@ -218,12 +226,10 @@ def svc_main(sid, input_audio):
     soundfile.write(out_vocals_filepath, out_vocals, 48000, format="wav")
     print(f"out_vocals_filepath: {out_vocals_filepath}")
-    print("start to mix")
     sound1 = AudioSegment.from_file(out_vocals_filepath)
     sound2 = AudioSegment.from_file(accompaniment_filepath)
     played_togther = sound1.overlay(sound2)
-    print("mix done")
     result_path = os.path.join(curr_tmp_path, 'out_song.wav')
     played_togther.export(result_path, format="wav")
@@ -234,6 +240,7 @@ def svc_main(sid, input_audio):
     return "Success", (sampling_rate, result)
 def auto_search(name):
     save_music_path = '/tmp/downloaded'
     if not os.path.exists(save_music_path):

 import os
 import sys
 from music.search import get_youtube, download_random
+from utils.utils import log_execution_time
 from vits.models import SynthesizerInfer
 import whisper.inference
 from omegaconf import OmegaConf
     return model
+@log_execution_time
 def compute_f0_nn(filename, device):
     audio, sr = librosa.load(filename, sr=16000)
     assert sr == 16000
 model.eval()
 model.to(device)
 whisper_model = whisper.inference.load_model(os.path.join("whisper_pretrain", "medium.pt"))
+whisper_quant_model = torch.quantization.quantize_dynamic(
+    whisper_model, {torch.nn.Linear}, dtype=torch.qint8
+)
 splitter_model = Splitter.from_pretrained(os.path.join("torchspleeter/models/2stems", "spleeter.pth")).to(device).eval()
 # warm up
 # separator.separate_to_file('warm.wav', '/tmp/warm')
+@log_execution_time
 def svc_change(argswave, argsspk):
+    argsppg = "svc_tmp_quant.ppg.npy"
+    # whisper.inference.pred_ppg(whisper_model, argswave, argsppg)
+    whisper.inference.pred_ppg(whisper_quant_model, argswave, argsppg)
     # os.system(f"python whisper/inference.py -w {argswave} -p {argsppg}")
     spk = np.load(argsspk)
     return out_audio
+@log_execution_time
 def svc_main(sid, input_audio):
     if input_audio is None:
         return "You need to upload an audio", None
     soundfile.write(out_vocals_filepath, out_vocals, 48000, format="wav")
     print(f"out_vocals_filepath: {out_vocals_filepath}")
     sound1 = AudioSegment.from_file(out_vocals_filepath)
     sound2 = AudioSegment.from_file(accompaniment_filepath)
     played_togther = sound1.overlay(sound2)
     result_path = os.path.join(curr_tmp_path, 'out_song.wav')
     played_togther.export(result_path, format="wav")
     return "Success", (sampling_rate, result)
+@log_execution_time
 def auto_search(name):
     save_music_path = '/tmp/downloaded'
     if not os.path.exists(save_music_path):

torchspleeter/utils.py CHANGED Viewed

@@ -4,9 +4,11 @@ from pathlib import Path
 import torch
 from .splitter import Splitter
 def sound_split(
         model: Splitter,
         input: str = "data/audio_example.mp3",

 import torch
+from utils.utils import log_execution_time
 from .splitter import Splitter
+@log_execution_time
 def sound_split(
         model: Splitter,
         input: str = "data/audio_example.mp3",

utils/__init__.py ADDED Viewed

File without changes

utils/utils.py ADDED Viewed

	@@ -0,0 +1,13 @@

+import time
+def log_execution_time(func):
+    def wrapper(*args, **kwargs):
+        start_time = time.time()
+        result = func(*args, **kwargs)
+        end_time = time.time()
+        execution_time = end_time - start_time
+        print(f"Func {func.__name__} Cost {execution_time} s")
+        return result
+    return wrapper

whisper/inference.py CHANGED Viewed

@@ -3,6 +3,7 @@ import numpy as np
 import argparse
 import torch
 from whisper.model import Whisper, ModelDimensions
 from whisper.audio import load_audio, pad_or_trim, log_mel_spectrogram
@@ -16,6 +17,7 @@ def load_model(path) -> Whisper:
     return model.to(device)
 def pred_ppg(whisper: Whisper, wavPath, ppgPath):
     audio = load_audio(wavPath)
     audln = audio.shape[0]
@@ -29,7 +31,7 @@ def pred_ppg(whisper: Whisper, wavPath, ppgPath):
         mel = log_mel_spectrogram(short).to(whisper.device)
         with torch.no_grad():
             ppg = whisper.encoder(mel.unsqueeze(0)).squeeze().data.cpu().float().numpy()
-            ppg = ppg[:ppgln,]  # [length, dim=1024]
             ppg_a.extend(ppg)
     if idx_s < audln:
         short = audio[idx_s:audln]
@@ -38,7 +40,7 @@ def pred_ppg(whisper: Whisper, wavPath, ppgPath):
         mel = log_mel_spectrogram(short).to(whisper.device)
         with torch.no_grad():
             ppg = whisper.encoder(mel.unsqueeze(0)).squeeze().data.cpu().float().numpy()
-            ppg = ppg[:ppgln,]  # [length, dim=1024]
             ppg_a.extend(ppg)
     np.save(ppgPath, ppg_a, allow_pickle=False)
@@ -48,7 +50,7 @@ if __name__ == "__main__":
     parser.description = 'please enter embed parameter ...'
     parser.add_argument("-w", "--wav", help="wav", dest="wav")
     parser.add_argument("-p", "--ppg", help="ppg", dest="ppg")
     args = parser.parse_args()
     print(args.wav)
     print(args.ppg)

 import argparse
 import torch
+from utils.utils import log_execution_time
 from whisper.model import Whisper, ModelDimensions
 from whisper.audio import load_audio, pad_or_trim, log_mel_spectrogram
     return model.to(device)
+@log_execution_time
 def pred_ppg(whisper: Whisper, wavPath, ppgPath):
     audio = load_audio(wavPath)
     audln = audio.shape[0]
         mel = log_mel_spectrogram(short).to(whisper.device)
         with torch.no_grad():
             ppg = whisper.encoder(mel.unsqueeze(0)).squeeze().data.cpu().float().numpy()
+            ppg = ppg[:ppgln, ]  # [length, dim=1024]
             ppg_a.extend(ppg)
     if idx_s < audln:
         short = audio[idx_s:audln]
         mel = log_mel_spectrogram(short).to(whisper.device)
         with torch.no_grad():
             ppg = whisper.encoder(mel.unsqueeze(0)).squeeze().data.cpu().float().numpy()
+            ppg = ppg[:ppgln, ]  # [length, dim=1024]
             ppg_a.extend(ppg)
     np.save(ppgPath, ppg_a, allow_pickle=False)
     parser.description = 'please enter embed parameter ...'
     parser.add_argument("-w", "--wav", help="wav", dest="wav")
     parser.add_argument("-p", "--ppg", help="ppg", dest="ppg")
     args = parser.parse_args()
     print(args.wav)
     print(args.ppg)