Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on about 1 month ago

Commit

08f4100

1 Parent(s): 3309e4b

T

Browse files

Files changed (1) hide show

app.py +28 -27

app.py CHANGED Viewed

@@ -54,24 +54,24 @@ def get_model_path(model_type: str, model_size: str) -> str:
 logger.info("正在加载所有模型到 CUDA...")
 # Voice Design model (1.7B only)
-# logger.info("正在加载 VoiceDesign 1.7B 模型...")
-# voice_design_model = Qwen3TTSModel.from_pretrained(
-#     get_model_path("VoiceDesign", "1.7B"),
-#     device_map="cuda",
-#     dtype=torch.bfloat16,
-#     token=HF_TOKEN,
-#     attn_implementation="kernels-community/flash-attn3",
-# )
 # Base (Voice Clone) models - both sizes
-# logger.info("正在加载 Base 0.6B 模型...")
-# base_model_0_6b = Qwen3TTSModel.from_pretrained(
-#     get_model_path("Base", "0.6B"),
-#     device_map="cuda",
-#     dtype=torch.bfloat16,
-#     token=HF_TOKEN,
-#     attn_implementation="kernels-community/flash-attn3",
-# )
 @functools.lru_cache(maxsize=1) # 只缓存当前正在使用的模型，节省显存
 def load_model(model_type, model_size):
@@ -233,7 +233,17 @@ def infer_voice_clone(model_size, part, language, voice_clone_prompt):
     )
     return wavs[0], sr
 # @spaces.GPU(duration=60)
 # def infer_custom_voice(model_size, part, language, speaker, instruct):
 #     """Single segment inference for Custom Voice."""
@@ -291,16 +301,7 @@ def generate_voice_clone(ref_audio, ref_text, target_text, language, use_xvector
     logger.info(f"开始 Voice Clone 生成任务。模型大小: {model_size}, 语言: {language}, 目标文本长度: {len(target_text)}, 仅使用 x-vector: {use_xvector_only}")
     try:
-        # 优化：在循环外提取参考音频特征，避免重复处理
-        logger.info("正在提取参考音频特征（仅执行一次）...")
-        tts = load_model("Base", "0.6B")
-        voice_clone_prompt = tts.create_voice_clone_prompt(
-            ref_audio=audio_tuple,
-            ref_text=ref_text.strip() if ref_text else None,
-            x_vector_only_mode=use_xvector_only
-        )
-        logger.info("参考音频特征提取完成。")
         text_parts = split_text(target_text.strip())
         logger.info(f"目标文本已切分为 {len(text_parts)} 段。")
         all_wavs = []

 logger.info("正在加载所有模型到 CUDA...")
 # Voice Design model (1.7B only)
+logger.info("正在加载 VoiceDesign 1.7B 模型...")
+voice_design_model = Qwen3TTSModel.from_pretrained(
+    get_model_path("VoiceDesign", "1.7B"),
+    device_map="cuda",
+    dtype=torch.bfloat16,
+    token=HF_TOKEN,
+    attn_implementation="kernels-community/flash-attn3",
+)
 # Base (Voice Clone) models - both sizes
+logger.info("正在加载 Base 0.6B 模型...")
+base_model_0_6b = Qwen3TTSModel.from_pretrained(
+    get_model_path("Base", "0.6B"),
+    device_map="cuda",
+    dtype=torch.bfloat16,
+    token=HF_TOKEN,
+    attn_implementation="kernels-community/flash-attn3",
+)
 @functools.lru_cache(maxsize=1) # 只缓存当前正在使用的模型，节省显存
 def load_model(model_type, model_size):
     )
     return wavs[0], sr
+@spaces.GPU
+def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
+    logger.info("正在提取参考音频特征（仅执行一次）...")
+    tts = load_model("Base", "0.6B")
+    voice_clone_prompt = tts.create_voice_clone_prompt(
+        ref_audio=audio_tuple,
+        ref_text=ref_text.strip() if ref_text else None,
+        x_vector_only_mode=use_xvector_only
+    )
+    logger.info("参考音频特征提取完成。")
+    return voice_clone_prompt
 # @spaces.GPU(duration=60)
 # def infer_custom_voice(model_size, part, language, speaker, instruct):
 #     """Single segment inference for Custom Voice."""
     logger.info(f"开始 Voice Clone 生成任务。模型大小: {model_size}, 语言: {language}, 目标文本长度: {len(target_text)}, 仅使用 x-vector: {use_xvector_only}")
     try:
+        voice_clone_prompt = extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only)
         text_parts = split_text(target_text.strip())
         logger.info(f"目标文本已切分为 {len(text_parts)} 段。")
         all_wavs = []