Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on Feb 22

Commit

cc6e7cb

1 Parent(s): b0d24b1

T

Browse files

Files changed (1) hide show

app.py +26 -3

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ import numpy as np
 import torch
 from huggingface_hub import snapshot_download, login
 from qwen_tts import Qwen3TTSModel
 import functools
 import uuid
 import random
@@ -238,7 +239,18 @@ def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
 def infer_voice_clone_from_prompt(part, language, prompt_file_path):
     """Single segment inference for Voice Clone using pre-extracted prompt."""
     logger.info("正在加载音频特征文件...")
-    voice_clone_prompt = torch.load(prompt_file_path, map_location='cuda', weights_only=False)
     logger.info("音频特征文件加载成功。")
     tts = load_model("Base", "0.6B")
@@ -289,19 +301,30 @@ def extract_voice_clone_prompt(ref_audio,ref_text,use_xvector_only):
     except Exception as e:
         logger.error(f"Whisper 识别失败: {str(e)}", exc_info=True)
-    voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
         ref_text=r_text.strip() if r_text else None,
         x_vector_only_mode=uxo
     )
     logger.info("参考音频特征提取完成。")
     # 生成唯一的文件名
     file_id = str(uuid.uuid4())[:8]
     file_path = f"voice_clone_prompt_{file_id}.pt"
     # 保存到文件
-    torch.save(voice_clone_prompt, file_path)
     logger.info(f"voice_clone_prompt 已保存到: {file_path}")
     return file_path

 import torch
 from huggingface_hub import snapshot_download, login
 from qwen_tts import Qwen3TTSModel
+from qwen_tts.inference.qwen3_tts_model import VoiceClonePromptItem
 import functools
 import uuid
 import random
 def infer_voice_clone_from_prompt(part, language, prompt_file_path):
     """Single segment inference for Voice Clone using pre-extracted prompt."""
     logger.info("正在加载音频特征文件...")
+    loaded_data = torch.load(prompt_file_path, map_location='cuda', weights_only=False)
+    # 兼容旧版本直接保存对象的情况
+    if isinstance(loaded_data, list) and len(loaded_data) > 0 and isinstance(loaded_data[0], VoiceClonePromptItem):
+        voice_clone_prompt = loaded_data
+    elif isinstance(loaded_data, list) and len(loaded_data) > 0 and isinstance(loaded_data[0], dict):
+        # 从字典列表重建对象
+        voice_clone_prompt = [VoiceClonePromptItem(**item) for item in loaded_data]
+    else:
+        # 尝试作为单个对象处理
+         voice_clone_prompt = loaded_data
     logger.info("音频特征文件加载成功。")
     tts = load_model("Base", "0.6B")
     except Exception as e:
         logger.error(f"Whisper 识别失败: {str(e)}", exc_info=True)
+    voice_clone_prompt_items = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
         ref_text=r_text.strip() if r_text else None,
         x_vector_only_mode=uxo
     )
     logger.info("参考音频特征提取完成。")
+    # 转换为字典列表保存，避免对象序列化问题
+    prompt_data = []
+    for item in voice_clone_prompt_items:
+        prompt_data.append({
+            "ref_code": item.ref_code,
+            "ref_spk_embedding": item.ref_spk_embedding,
+            "x_vector_only_mode": item.x_vector_only_mode,
+            "icl_mode": item.icl_mode,
+            "ref_text": item.ref_text
+        })
     # 生成唯一的文件名
     file_id = str(uuid.uuid4())[:8]
     file_path = f"voice_clone_prompt_{file_id}.pt"
     # 保存到文件
+    torch.save(prompt_data, file_path)
     logger.info(f"voice_clone_prompt 已保存到: {file_path}")
     return file_path