Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on Feb 13

Commit

7e217de

1 Parent(s): 08f4100

T

Browse files

Files changed (1) hide show

app.py +14 -14

app.py CHANGED Viewed

@@ -73,17 +73,17 @@ base_model_0_6b = Qwen3TTSModel.from_pretrained(
     attn_implementation="kernels-community/flash-attn3",
 )
-@functools.lru_cache(maxsize=1) # 只缓存当前正在使用的模型，节省显存
-def load_model(model_type, model_size):
-    logger.info(f"正在按需加载 {model_type} {model_size} 模型...")
-    path = get_model_path(model_type, model_size)
-    return Qwen3TTSModel.from_pretrained(
-        path,
-        device_map="cuda", # 注意：在 ZeroGPU 环境下，这行只有在被装饰的函数内执行才有效
-        dtype=torch.bfloat16,
-        token=HF_TOKEN,
-        attn_implementation="kernels-community/flash-attn3"
-    )
 # logger.info("正在加载 Base 1.7B 模型...")
 # base_model_1_7b = Qwen3TTSModel.from_pretrained(
@@ -209,7 +209,7 @@ def split_text(text, max_len=30):
 @spaces.GPU
 def infer_voice_design(part, language, voice_description):
     """Single segment inference for Voice Design."""
-    voice_design_model = load_model('VoiceDesign','1.7B')
     wavs, sr = voice_design_model.generate_voice_design(
         text=part,
         language=language,
@@ -224,7 +224,7 @@ def infer_voice_design(part, language, voice_description):
 def infer_voice_clone(model_size, part, language, voice_clone_prompt):
     """Single segment inference for Voice Clone."""
     # tts = BASE_MODELS[model_size]
-    tts = load_model("Base", "0.6B")
     wavs, sr = tts.generate_voice_clone(
         text=part,
         language=language,
@@ -236,7 +236,7 @@ def infer_voice_clone(model_size, part, language, voice_clone_prompt):
 @spaces.GPU
 def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
-    tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
         ref_text=ref_text.strip() if ref_text else None,

     attn_implementation="kernels-community/flash-attn3",
 )
+# @functools.lru_cache(maxsize=1) # 只缓存当前正在使用的模型，节省显存
+# def load_model(model_type, model_size):
+#     logger.info(f"正在按需加载 {model_type} {model_size} 模型...")
+#     path = get_model_path(model_type, model_size)
+#     return Qwen3TTSModel.from_pretrained(
+#         path,
+#         device_map="cuda", # 注意：在 ZeroGPU 环境下，这行只有在被装饰的函数内执行才有效
+#         dtype=torch.bfloat16,
+#         token=HF_TOKEN,
+#         attn_implementation="kernels-community/flash-attn3"
+#     )
 # logger.info("正在加载 Base 1.7B 模型...")
 # base_model_1_7b = Qwen3TTSModel.from_pretrained(
 @spaces.GPU
 def infer_voice_design(part, language, voice_description):
     """Single segment inference for Voice Design."""
+    # voice_design_model = voice_design_model
     wavs, sr = voice_design_model.generate_voice_design(
         text=part,
         language=language,
 def infer_voice_clone(model_size, part, language, voice_clone_prompt):
     """Single segment inference for Voice Clone."""
     # tts = BASE_MODELS[model_size]
+    tts = base_model_0_6b
     wavs, sr = tts.generate_voice_clone(
         text=part,
         language=language,
 @spaces.GPU
 def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
+    tts = base_model_0_6b
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
         ref_text=ref_text.strip() if ref_text else None,