Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on Feb 13

Commit

fb11c6d

1 Parent(s): 7e217de

T

Browse files

Files changed (1) hide show

app.py +40 -36

app.py CHANGED Viewed

@@ -53,37 +53,37 @@ def get_model_path(model_type: str, model_size: str) -> str:
 # ============================================================================
 logger.info("正在加载所有模型到 CUDA...")
-# Voice Design model (1.7B only)
-logger.info("正在加载 VoiceDesign 1.7B 模型...")
-voice_design_model = Qwen3TTSModel.from_pretrained(
-    get_model_path("VoiceDesign", "1.7B"),
-    device_map="cuda",
-    dtype=torch.bfloat16,
-    token=HF_TOKEN,
-    attn_implementation="kernels-community/flash-attn3",
-)
-# Base (Voice Clone) models - both sizes
-logger.info("正在加载 Base 0.6B 模型...")
-base_model_0_6b = Qwen3TTSModel.from_pretrained(
-    get_model_path("Base", "0.6B"),
-    device_map="cuda",
-    dtype=torch.bfloat16,
-    token=HF_TOKEN,
-    attn_implementation="kernels-community/flash-attn3",
-)
-# @functools.lru_cache(maxsize=1) # 只缓存当前正在使用的模型，节省显存
-# def load_model(model_type, model_size):
-#     logger.info(f"正在按需加载 {model_type} {model_size} 模型...")
-#     path = get_model_path(model_type, model_size)
-#     return Qwen3TTSModel.from_pretrained(
-#         path,
-#         device_map="cuda", # 注意：在 ZeroGPU 环境下，这行只有在被装饰的函数内执行才有效
-#         dtype=torch.bfloat16,
-#         token=HF_TOKEN,
-#         attn_implementation="kernels-community/flash-attn3"
-#     )
 # logger.info("正在加载 Base 1.7B 模型...")
 # base_model_1_7b = Qwen3TTSModel.from_pretrained(
@@ -209,7 +209,8 @@ def split_text(text, max_len=30):
 @spaces.GPU
 def infer_voice_design(part, language, voice_description):
     """Single segment inference for Voice Design."""
-    # voice_design_model = voice_design_model
     wavs, sr = voice_design_model.generate_voice_design(
         text=part,
         language=language,
@@ -221,10 +222,15 @@ def infer_voice_design(part, language, voice_description):
 @spaces.GPU
-def infer_voice_clone(model_size, part, language, voice_clone_prompt):
     """Single segment inference for Voice Clone."""
     # tts = BASE_MODELS[model_size]
-    tts = base_model_0_6b
     wavs, sr = tts.generate_voice_clone(
         text=part,
         language=language,
@@ -233,10 +239,9 @@ def infer_voice_clone(model_size, part, language, voice_clone_prompt):
     )
     return wavs[0], sr
-@spaces.GPU
 def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
-    tts = base_model_0_6b
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
         ref_text=ref_text.strip() if ref_text else None,
@@ -301,7 +306,6 @@ def generate_voice_clone(ref_audio, ref_text, target_text, language, use_xvector
     logger.info(f"开始 Voice Clone 生成任务。模型大小: {model_size}, 语言: {language}, 目标文本长度: {len(target_text)}, 仅使用 x-vector: {use_xvector_only}")
     try:
-        voice_clone_prompt = extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only)
         text_parts = split_text(target_text.strip())
         logger.info(f"目标文本已切分为 {len(text_parts)} 段。")
         all_wavs = []
@@ -309,7 +313,7 @@ def generate_voice_clone(ref_audio, ref_text, target_text, language, use_xvector
         for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
             logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
-            wav, current_sr = infer_voice_clone(model_size, part, language, voice_clone_prompt)
             all_wavs.append(wav)
             sr = current_sr

 # ============================================================================
 logger.info("正在加载所有模型到 CUDA...")
+# # Voice Design model (1.7B only)
+# logger.info("正在加载 VoiceDesign 1.7B 模型...")
+# voice_design_model = Qwen3TTSModel.from_pretrained(
+#     get_model_path("VoiceDesign", "1.7B"),
+#     device_map="cuda",
+#     dtype=torch.bfloat16,
+#     token=HF_TOKEN,
+#     attn_implementation="kernels-community/flash-attn3",
+# )
+# # Base (Voice Clone) models - both sizes
+# logger.info("正在加载 Base 0.6B 模型...")
+# base_model_0_6b = Qwen3TTSModel.from_pretrained(
+#     get_model_path("Base", "0.6B"),
+#     device_map="cuda",
+#     dtype=torch.bfloat16,
+#     token=HF_TOKEN,
+#     attn_implementation="kernels-community/flash-attn3",
+# )
+@functools.lru_cache(maxsize=1) # 只缓存当前正在使用的模型，节省显存
+def load_model(model_type, model_size):
+    logger.info(f"正在按需加载 {model_type} {model_size} 模型...")
+    path = get_model_path(model_type, model_size)
+    return Qwen3TTSModel.from_pretrained(
+        path,
+        device_map="cuda", # 注意：在 ZeroGPU 环境下，这行只有在被装饰的函数内执行才有效
+        dtype=torch.bfloat16,
+        token=HF_TOKEN,
+        attn_implementation="kernels-community/flash-attn3"
+    )
 # logger.info("正在加载 Base 1.7B 模型...")
 # base_model_1_7b = Qwen3TTSModel.from_pretrained(
 @spaces.GPU
 def infer_voice_design(part, language, voice_description):
     """Single segment inference for Voice Design."""
+    voice_design_model = load_model("VoiceDesign","1.7B")
     wavs, sr = voice_design_model.generate_voice_design(
         text=part,
         language=language,
 @spaces.GPU
+def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
     """Single segment inference for Voice Clone."""
     # tts = BASE_MODELS[model_size]
+    tts = load_model("Base", "0.6B")
+    voice_clone_prompt = tts.create_voice_clone_prompt(
+        ref_audio=audio_tuple,
+        ref_text=ref_text.strip() if ref_text else None,
+        x_vector_only_mode=use_xvector_only
+    )
     wavs, sr = tts.generate_voice_clone(
         text=part,
         language=language,
     )
     return wavs[0], sr
 def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
+    tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
         ref_text=ref_text.strip() if ref_text else None,
     logger.info(f"开始 Voice Clone 生成任务。模型大小: {model_size}, 语言: {language}, 目标文本长度: {len(target_text)}, 仅使用 x-vector: {use_xvector_only}")
     try:
         text_parts = split_text(target_text.strip())
         logger.info(f"目标文本已切分为 {len(text_parts)} 段。")
         all_wavs = []
         for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
             logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
+            wav, current_sr = infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only)
             all_wavs.append(wav)
             sr = current_sr