Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on Feb 14

Commit

6438a49

1 Parent(s): a9ab89b

T

Browse files

Files changed (1) hide show

app.py +21 -4

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ from huggingface_hub import snapshot_download, login
 from qwen_tts import Qwen3TTSModel
 import functools
 import uuid
 # 配置日志
 logging.basicConfig(
     level=logging.INFO,
@@ -42,7 +42,14 @@ SPEAKERS = [
     "Aiden", "Dylan", "Eric", "Ono_anna", "Ryan", "Serena", "Sohee", "Uncle_fu", "Vivian"
 ]
 LANGUAGES = ["Auto", "Chinese", "English", "Japanese", "Korean", "French", "German", "Spanish", "Portuguese", "Russian"]
 def get_model_path(model_type: str, model_size: str) -> str:
     """Get model path based on type and size."""
@@ -211,7 +218,7 @@ def split_text(text, max_len=100):
 def infer_voice_design(part, language, voice_description):
     """Single segment inference for Voice Design."""
     voice_design_model = load_model("VoiceDesign","1.7B")
     wavs, sr = voice_design_model.generate_voice_design(
         text=part,
         language=language,
@@ -227,6 +234,7 @@ def infer_voice_design(part, language, voice_description):
 def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
     """Single segment inference for Voice Clone using reference audio."""
     # tts = BASE_MODELS[model_size]
     tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
@@ -238,12 +246,17 @@ def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
         language=language,
         voice_clone_prompt=voice_clone_prompt,
         max_new_tokens=2048,
     )
     return wavs[0], sr
 @spaces.GPU
 def infer_voice_clone_from_prompt(part, language, prompt_file_path):
     """Single segment inference for Voice Clone using pre-extracted prompt."""
     logger.info("正在加载音频特征文件...")
     voice_clone_prompt = torch.load(prompt_file_path, map_location='cuda', weights_only=False)
     logger.info("音频特征文件加载成功。")
@@ -254,6 +267,10 @@ def infer_voice_clone_from_prompt(part, language, prompt_file_path):
         language=language,
         voice_clone_prompt=voice_clone_prompt,
         max_new_tokens=2048,
     )
     return wavs[0], sr
@@ -261,7 +278,7 @@ def infer_voice_clone_from_prompt(part, language, prompt_file_path):
 def extract_voice_clone_prompt(ref_audio,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
     tts = load_model("Base", "0.6B")
     audio_tuple = _audio_to_tuple(ref_audio)
     if audio_tuple is None:
         return None, "错误：需要参考音频。"

 from qwen_tts import Qwen3TTSModel
 import functools
 import uuid
+import random
 # 配置日志
 logging.basicConfig(
     level=logging.INFO,
     "Aiden", "Dylan", "Eric", "Ono_anna", "Ryan", "Serena", "Sohee", "Uncle_fu", "Vivian"
 ]
 LANGUAGES = ["Auto", "Chinese", "English", "Japanese", "Korean", "French", "German", "Spanish", "Portuguese", "Russian"]
+def seed_everything(seed=42):
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    torch.cuda.manual_seed(seed)
+    torch.cuda.manual_seed_all(seed)
+    torch.backends.cudnn.deterministic = True
+    torch.backends.cudnn.benchmark = False
 def get_model_path(model_type: str, model_size: str) -> str:
     """Get model path based on type and size."""
 def infer_voice_design(part, language, voice_description):
     """Single segment inference for Voice Design."""
     voice_design_model = load_model("VoiceDesign","1.7B")
+    seed_everything(42)
     wavs, sr = voice_design_model.generate_voice_design(
         text=part,
         language=language,
 def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
     """Single segment inference for Voice Clone using reference audio."""
     # tts = BASE_MODELS[model_size]
+    seed_everything(42)
     tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
         language=language,
         voice_clone_prompt=voice_clone_prompt,
         max_new_tokens=2048,
+        # 核心参数：固定 seed
+        seed=42,
+        temperature=0.3, # 配合低温度，音色会更稳
+        top_p=0.85
     )
     return wavs[0], sr
 @spaces.GPU
 def infer_voice_clone_from_prompt(part, language, prompt_file_path):
     """Single segment inference for Voice Clone using pre-extracted prompt."""
+    seed_everything(42)
     logger.info("正在加载音频特征文件...")
     voice_clone_prompt = torch.load(prompt_file_path, map_location='cuda', weights_only=False)
     logger.info("音频特征文件加载成功。")
         language=language,
         voice_clone_prompt=voice_clone_prompt,
         max_new_tokens=2048,
+        # 核心参数：固定 seed
+        seed=42,
+        temperature=0.3, # 配合低温度，音色会更稳
+        top_p=0.85
     )
     return wavs[0], sr
 def extract_voice_clone_prompt(ref_audio,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
     tts = load_model("Base", "0.6B")
+    seed_everything(42)
     audio_tuple = _audio_to_tuple(ref_audio)
     if audio_tuple is None:
         return None, "错误：需要参考音频。"