YingMusic-SingerGPU

Running on Zero

App Files Files Community

xjsc0 commited on 9 days ago

Commit

a6f2de2

1 Parent(s): 99cf7e1

1

Browse files

Files changed (2) hide show

app.py +37 -7
requirements.txt +8 -1

app.py CHANGED Viewed

@@ -14,6 +14,30 @@ import torch
 import torchaudio
 from initialization import download_files
 # ---------------------------------------------------------------------------
 # Model loading (lazy, singleton) / 模型懒加载（单例）
 # ---------------------------------------------------------------------------
@@ -21,18 +45,22 @@ _model = None
 _separator = None
-def get_model(device: str = "cuda:0"):
     """加载 YingMusicSinger 模型 / Load YingMusicSinger model."""
     download_files(task="infer")
     global _model
     if _model is None:
         from src.YingMusicSinger.infer.YingMusicSinger import YingMusicSinger
-        _model = YingMusicSinger(device=device)
     return _model
-def get_separator(device: str = "cuda:0"):
     """
     加载 MelBandRoformer 分离模型 / Load MelBandRoformer separator.
     Returns a Separator instance ready for inference.
@@ -47,7 +75,7 @@ def get_separator(device: str = "cuda:0"):
         _separator = Separator(
             config_path="ckpts/config_vocals_mel_band_roformer_kj.yaml",
             checkpoint_path="ckpts/MelBandRoformer.ckpt",
-            device=device,
         )
     return _separator
@@ -55,6 +83,7 @@ def get_separator(device: str = "cuda:0"):
 # ---------------------------------------------------------------------------
 # Vocal separation utilities / 人声分离工具
 # ---------------------------------------------------------------------------
 def separate_vocals(
     audio_path: str,
     device: str = "cuda:0",
@@ -66,7 +95,7 @@ def separate_vocals(
     Returns:
         (vocals_path, accompaniment_path)
     """
-    separator = get_separator(device=device)
     wav, sr = torchaudio.load(audio_path)
     vocal_wav, inst_wav, out_sr = separator.separate(wav, sr)
@@ -122,6 +151,7 @@ def mix_vocal_and_accompaniment(
 # ---------------------------------------------------------------------------
 # Inference wrapper / 推理入口
 # ---------------------------------------------------------------------------
 def synthesize(
     ref_audio,
     melody_audio,
@@ -186,7 +216,7 @@ def synthesize(
         actual_melody_path = melody_vocals_path
     # ---- Step 2: 模型推理 / Model inference ----------------------------------
-    model = get_model(device=device)
     audio_tensor, sr = model(
         ref_audio_path=actual_ref_path,
@@ -203,7 +233,7 @@ def synthesize(
     # 先保存纯人声合成结果 / Save raw vocal synthesis result
     vocal_out_path = os.path.join(tempfile.mkdtemp(), "vocal_output.wav")
-    torchaudio.save(vocal_out_path, audio_tensor, sample_rate=sr)
     # ---- Step 3: 混合伴奏 / Mix accompaniment (optional) ---------------------
     if (

 import torchaudio
 from initialization import download_files
+IS_HF_SPACE = os.environ.get("SPACE_ID") is not None
+HF_ENABLE = False
+LOCAL_DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+try:
+    import spaces
+except ImportError:
+    spaces = None
+def gpu_decorator(fn):
+    if IS_HF_SPACE and HF_ENABLE and spaces is not None:
+        return spaces.GPU(fn)
+    return fn
+def local_move2gpu(x):
+    """Move models to GPU on local environment. No-op on HuggingFace Spaces (ZeroGPU handles it)."""
+    if IS_HF_SPACE:
+        return x
+    return x.to(LOCAL_DEVICE)
 # ---------------------------------------------------------------------------
 # Model loading (lazy, singleton) / 模型懒加载（单例）
 # ---------------------------------------------------------------------------
 _separator = None
+@gpu_decorator
+def get_model():
     """加载 YingMusicSinger 模型 / Load YingMusicSinger model."""
     download_files(task="infer")
     global _model
     if _model is None:
         from src.YingMusicSinger.infer.YingMusicSinger import YingMusicSinger
+        _model = YingMusicSinger.from_pretrained("ASLP-lab/YingMusic-Singer")
+    _model = local_move2gpu(_model)
+    _model.eval()
     return _model
+@gpu_decorator
+def get_separator():
     """
     加载 MelBandRoformer 分离模型 / Load MelBandRoformer separator.
     Returns a Separator instance ready for inference.
         _separator = Separator(
             config_path="ckpts/config_vocals_mel_band_roformer_kj.yaml",
             checkpoint_path="ckpts/MelBandRoformer.ckpt",
+            # device=device,
         )
     return _separator
 # ---------------------------------------------------------------------------
 # Vocal separation utilities / 人声分离工具
 # ---------------------------------------------------------------------------
+@gpu_decorator
 def separate_vocals(
     audio_path: str,
     device: str = "cuda:0",
     Returns:
         (vocals_path, accompaniment_path)
     """
+    separator = get_separator()
     wav, sr = torchaudio.load(audio_path)
     vocal_wav, inst_wav, out_sr = separator.separate(wav, sr)
 # ---------------------------------------------------------------------------
 # Inference wrapper / 推理入口
 # ---------------------------------------------------------------------------
+@gpu_decorator
 def synthesize(
     ref_audio,
     melody_audio,
         actual_melody_path = melody_vocals_path
     # ---- Step 2: 模型推理 / Model inference ----------------------------------
+    model = get_model()
     audio_tensor, sr = model(
         ref_audio_path=actual_ref_path,
     # 先保存纯人声合成结果 / Save raw vocal synthesis result
     vocal_out_path = os.path.join(tempfile.mkdtemp(), "vocal_output.wav")
+    torchaudio.save(vocal_out_path, audio_tensor.to("cpu"), sample_rate=sr)
     # ---- Step 3: 混合伴奏 / Mix accompaniment (optional) ---------------------
     if (

requirements.txt CHANGED Viewed

@@ -189,4 +189,11 @@ xxhash==3.6.0
 yarl==1.20.1
 zhconv==1.4.3
 zhon==2.1.1
-zipp==3.23.0

 yarl==1.20.1
 zhconv==1.4.3
 zhon==2.1.1
+zipp==3.23.0
+jieba==0.42.1
+pypinyin==0.55.0
+descript-audio-codec==1.0.0
+cn2an==0.5.23
+onnxruntime==1.23.2
+phonemizer==3.3.0
+py3langid==0.3.0