Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on Feb 23

Commit

652ae4a

1 Parent(s): e8a5955

T

Browse files

Files changed (2) hide show

app.py +18 -18
qwen_tts/core/models/modeling_qwen3_tts.py +2 -2

app.py CHANGED Viewed

@@ -216,7 +216,7 @@ def infer_voice_design(part, language, voice_description):
 def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
     """Single segment inference for Voice Clone using reference audio."""
     # tts = BASE_MODELS[model_size]
-    seed_everything(42)
     tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
@@ -289,25 +289,25 @@ def extract_voice_clone_prompt(ref_audio,ref_text,use_xvector_only):
     logger.info(f"开始 Whisper 语音识别任务。模型: {model_size}, 音频路径: {ref_audio}")
     r_text = ref_text
     uxo = use_xvector_only
-    try:
-        whisper_model = load_whisper_model(model_size)
-        # 使用 transcribe 方法进行转录
-        # whisper 会自动处理音频加载和重采样
-        audio, sr = audio_tuple
-        # Whisper 模型期望 16000Hz 采样率的音频
-        if sr != 16000:
-            logger.info(f"重采样音频: {sr}Hz -> 16000Hz")
-            audio = librosa.resample(audio, orig_sr=sr, target_sr=16000)
-        result = whisper_model.transcribe(audio)
-        text = result["text"]
-        logger.info(f"Whisper 识别完成。文本长度: {len(text)}")
-        r_text = text.strip()
-        logger.error(f"Whisper 识别成功：{r_text}")
-        uxo = False
-    except Exception as e:
-        logger.error(f"Whisper 识别失败: {str(e)}", exc_info=True)
     voice_clone_prompt_items = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,

 def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
     """Single segment inference for Voice Clone using reference audio."""
     # tts = BASE_MODELS[model_size]
+    # seed_everything(42)
     tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,
     logger.info(f"开始 Whisper 语音识别任务。模型: {model_size}, 音频路径: {ref_audio}")
     r_text = ref_text
     uxo = use_xvector_only
+    # try:
+    #     whisper_model = load_whisper_model(model_size)
+    #     # 使用 transcribe 方法进行转录
+    #     # whisper 会自动处理音频加载和重采样
+    #     audio, sr = audio_tuple
+    #     # Whisper 模型期望 16000Hz 采样率的音频
+    #     if sr != 16000:
+    #         logger.info(f"重采样音频: {sr}Hz -> 16000Hz")
+    #         audio = librosa.resample(audio, orig_sr=sr, target_sr=16000)
+    #     result = whisper_model.transcribe(audio)
+    #     text = result["text"]
+    #     logger.info(f"Whisper 识别完成。文本长度: {len(text)}")
+    #     r_text = text.strip()
+    #     logger.error(f"Whisper 识别成功：{r_text}")
+    #     uxo = False
+    # except Exception as e:
+    #     logger.error(f"Whisper 识别失败: {str(e)}", exc_info=True)
     voice_clone_prompt_items = tts.create_voice_clone_prompt(
         ref_audio=audio_tuple,

qwen_tts/core/models/modeling_qwen3_tts.py CHANGED Viewed

@@ -1956,7 +1956,7 @@ class Qwen3TTSForConditionalGeneration(Qwen3TTSPreTrainedModel, GenerationMixin)
     @torch.inference_mode()
     def generate_speaker_prompt(
         self,
-        voice_clone_prompt: list[dict]
     ):
         voice_clone_spk_embeds = []
         for index in range(len(voice_clone_prompt['ref_spk_embedding'])):
@@ -2024,7 +2024,7 @@ class Qwen3TTSForConditionalGeneration(Qwen3TTSPreTrainedModel, GenerationMixin)
         input_ids: Optional[list[torch.Tensor]] = None,
         instruct_ids: Optional[list[torch.Tensor]] = None,
         ref_ids: Optional[list[torch.Tensor]] = None,
-        voice_clone_prompt: list[dict] = None,
         languages: list[str] = None,
         speakers: list[str] = None,
         non_streaming_mode = False,

     @torch.inference_mode()
     def generate_speaker_prompt(
         self,
+        voice_clone_prompt: dict
     ):
         voice_clone_spk_embeds = []
         for index in range(len(voice_clone_prompt['ref_spk_embedding'])):
         input_ids: Optional[list[torch.Tensor]] = None,
         instruct_ids: Optional[list[torch.Tensor]] = None,
         ref_ids: Optional[list[torch.Tensor]] = None,
+        voice_clone_prompt: dict = None,
         languages: list[str] = None,
         speakers: list[str] = None,
         non_streaming_mode = False,