Spaces:

smartwang
/

magicvoice

Running on Zero

smartwang commited on about 1 month ago

Commit

a9ab89b

1 Parent(s): a8ab3f2

T

Files changed (1) hide show

app.py CHANGED Viewed

@@ -242,8 +242,12 @@ def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
     return wavs[0], sr
 @spaces.GPU
-def infer_voice_clone_from_prompt(part, language, voice_clone_prompt):
     """Single segment inference for Voice Clone using pre-extracted prompt."""
     tts = load_model("Base", "0.6B")
     wavs, sr = tts.generate_voice_clone(
         text=part,
@@ -368,10 +372,6 @@ def generate_voice_clone_from_prompt_file(prompt_file_path, target_text, languag
     logger.info(f"开始 Voice Clone 生成任务（使用特征文件）。语言: {language}, 目标文本长度: {len(target_text)}, 特征文件: {prompt_file_path}")
     try:
         # 加载预提取的音频特征
-        logger.info("正在加载音频特征文件...")
-        voice_clone_prompt = torch.load(prompt_file_path, map_location='cpu')
-        logger.info("音频特征文件加载成功。")
         text_parts = split_text(target_text.strip())
         logger.info(f"目标目标文本已切分为 {len(text_parts)} 段。")
         all_wavs = []
@@ -379,7 +379,7 @@ def generate_voice_clone_from_prompt_file(prompt_file_path, target_text, languag
         for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
             logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
-            wav, current_sr = infer_voice_clone_from_prompt(part, language, voice_clone_prompt)
             all_wavs.append(wav)
             sr = current_sr

     return wavs[0], sr
 @spaces.GPU
+def infer_voice_clone_from_prompt(part, language, prompt_file_path):
     """Single segment inference for Voice Clone using pre-extracted prompt."""
+    logger.info("正在加载音频特征文件...")
+    voice_clone_prompt = torch.load(prompt_file_path, map_location='cuda', weights_only=False)
+    logger.info("音频特征文件加载成功。")
     tts = load_model("Base", "0.6B")
     wavs, sr = tts.generate_voice_clone(
         text=part,
     logger.info(f"开始 Voice Clone 生成任务（使用特征文件）。语言: {language}, 目标文本长度: {len(target_text)}, 特征文件: {prompt_file_path}")
     try:
         # 加载预提取的音频特征
         text_parts = split_text(target_text.strip())
         logger.info(f"目标目标文本已切分为 {len(text_parts)} 段。")
         all_wavs = []
         for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
             logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
+            wav, current_sr = infer_voice_clone_from_prompt(part, language, prompt_file_path)
             all_wavs.append(wav)
             sr = current_sr