Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on about 1 month ago

Commit

ddefb98

1 Parent(s): 48360e9

T

Browse files

Files changed (1) hide show

app.py +140 -14

app.py CHANGED Viewed

@@ -13,6 +13,7 @@ import torch
 from huggingface_hub import snapshot_download, login
 from qwen_tts import Qwen3TTSModel
 import functools
 # 配置日志
 logging.basicConfig(
@@ -221,9 +222,10 @@ def infer_voice_design(part, language, voice_description):
     return wavs[0], sr
 @spaces.GPU
 def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
-    """Single segment inference for Voice Clone."""
     # tts = BASE_MODELS[model_size]
     tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
@@ -239,6 +241,19 @@ def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
     )
     return wavs[0], sr
 def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
     tts = load_model("Base", "0.6B")
@@ -248,7 +263,16 @@ def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
         x_vector_only_mode=use_xvector_only
     )
     logger.info("参考音频特征提取完成。")
-    return voice_clone_prompt
 # @spaces.GPU(duration=60)
 # def infer_custom_voice(model_size, part, language, speaker, instruct):
 #     """Single segment inference for Custom Voice."""
@@ -324,6 +348,39 @@ def generate_voice_clone(ref_audio, ref_text, target_text, language, use_xvector
         logger.error(f"Voice Clone 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"
 # def generate_custom_voice(text, language, speaker, instruct, model_size, progress=gr.Progress(track_tqdm=True)):
 #     """Generate speech using CustomVoice model with segment-based GPU allocation."""
@@ -415,47 +472,116 @@ Built with [Qwen3-TTS](https://github.com/QwenLM/Qwen3-TTS) by Alibaba Qwen Team
             # Tab 2: Voice Clone (Base)
             with gr.Tab("Voice Clone (Base)"):
-                gr.Markdown("### Clone Voice from Reference Audio")
                 with gr.Row():
                     with gr.Column(scale=2):
                         clone_ref_audio = gr.Audio(
-                            label="Reference Audio (Upload a voice sample to clone)",
                             type="numpy",
                         )
                         clone_ref_text = gr.Textbox(
-                            label="Reference Text (Transcript of the reference audio)",
                             lines=2,
-                            placeholder="Enter the exact text spoken in the reference audio...",
                         )
                         clone_xvector = gr.Checkbox(
-                            label="Use x-vector only (No reference text needed, but lower quality)",
                             value=False,
                         )
                     with gr.Column(scale=2):
                         clone_target_text = gr.Textbox(
-                            label="Target Text (Text to synthesize with cloned voice)",
                             lines=4,
-                            placeholder="Enter the text you want the cloned voice to speak...",
                         )
                         with gr.Row():
                             clone_language = gr.Dropdown(
-                                label="Language",
                                 choices=LANGUAGES,
                                 value="Auto",
                                 interactive=True,
                             )
                             clone_model_size = gr.Dropdown(
-                                label="Model Size",
                                 choices=MODEL_SIZES,
                                 value="1.7B",
                                 interactive=True,
                             )
-                        clone_btn = gr.Button("Clone & Generate", variant="primary")
                 with gr.Row():
-                    clone_audio_out = gr.Audio(label="Generated Audio", type="numpy")
-                    clone_status = gr.Textbox(label="Status", lines=2, interactive=False)
                 clone_btn.click(
                     generate_voice_clone,

 from huggingface_hub import snapshot_download, login
 from qwen_tts import Qwen3TTSModel
 import functools
+import uuid
 # 配置日志
 logging.basicConfig(
     return wavs[0], sr
 @spaces.GPU
 def infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only):
+    """Single segment inference for Voice Clone using reference audio."""
     # tts = BASE_MODELS[model_size]
     tts = load_model("Base", "0.6B")
     voice_clone_prompt = tts.create_voice_clone_prompt(
     )
     return wavs[0], sr
+@spaces.GPU
+def infer_voice_clone_from_prompt(part, language, voice_clone_prompt):
+    """Single segment inference for Voice Clone using pre-extracted prompt."""
+    tts = load_model("Base", "0.6B")
+    wavs, sr = tts.generate_voice_clone(
+        text=part,
+        language=language,
+        voice_clone_prompt=voice_clone_prompt,
+        max_new_tokens=2048,
+    )
+    return wavs[0], sr
+@spaces.GPU
 def extract_voice_clone_prompt(audio_tuple,ref_text,use_xvector_only):
     logger.info("正在提取参考音频特征（仅执行一次）...")
     tts = load_model("Base", "0.6B")
         x_vector_only_mode=use_xvector_only
     )
     logger.info("参考音频特征提取完成。")
+    # 生成唯一的文件名
+    file_id = str(uuid.uuid4())[:8]
+    file_path = f"voice_clone_prompt_{file_id}.pt"
+    # 保存到文件
+    torch.save(voice_clone_prompt, file_path)
+    logger.info(f"voice_clone_prompt 已保存到: {file_path}")
+    return file_path
 # @spaces.GPU(duration=60)
 # def infer_custom_voice(model_size, part, language, speaker, instruct):
 #     """Single segment inference for Custom Voice."""
         logger.error(f"Voice Clone 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"
+def generate_voice_clone_from_prompt_file(prompt_file_path, target_text, language, progress=gr.Progress(track_tqdm=True)):
+    """Generate speech using Base (Voice Clone) model with pre-extracted prompt file."""
+    if not target_text or not target_text.strip():
+        return None, "错误：目标文本不能为空。"
+    if not prompt_file_path:
+        return None, "错误：需要提供音频特征文件。"
+    logger.info(f"开始 Voice Clone 生成任务（使用特征文件）。语言: {language}, 目标文本长度: {len(target_text)}, 特征文件: {prompt_file_path}")
+    try:
+        # 加载预提取的音频特征
+        logger.info("正在加载音频特征文件...")
+        voice_clone_prompt = torch.load(prompt_file_path, map_location='cpu')
+        logger.info("音频特征文件加载成功。")
+        text_parts = split_text(target_text.strip())
+        logger.info(f"目标目标文本已切分为 {len(text_parts)} 段。")
+        all_wavs = []
+        sr = 24000
+        for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
+            logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
+            wav, current_sr = infer_voice_clone_from_prompt(part, language, voice_clone_prompt)
+            all_wavs.append(wav)
+            sr = current_sr
+        combined_wav = np.concatenate(all_wavs)
+        logger.info("Voice Clone 生成任务完成，正在合并音频...")
+        return (sr, combined_wav), "语音克隆生成成功（使用特征文件）！"
+    except Exception as e:
+        logger.error(f"Voice Clone 生成失败: {str(e)}", exc_info=True)
+        return None, f"错误: {type(e).__name__}: {e}"
 # def generate_custom_voice(text, language, speaker, instruct, model_size, progress=gr.Progress(track_tqdm=True)):
 #     """Generate speech using CustomVoice model with segment-based GPU allocation."""
             # Tab 2: Voice Clone (Base)
             with gr.Tab("Voice Clone (Base)"):
+                # Section 1: Extract Voice Features
+                gr.Markdown("### 1. 提取音频特征")
+                gr.Markdown("上传参考音频并提取特征，保存为文件供后续使用。")
+                with gr.Row():
+                    with gr.Column(scale=2):
+                        extract_ref_audio = gr.Audio(
+                            label="参考音频",
+                            type="numpy",
+                        )
+                        extract_ref_text = gr.Textbox(
+                            label="参考文本（参考音频的文字内容）",
+                            lines=2,
+                            placeholder="输入参考音频中的确切文字...",
+                        )
+                        extract_xvector = gr.Checkbox(
+                            label="仅使用 x-vector（无需参考文本，但质量较低）",
+                            value=False,
+                        )
+                        extract_btn = gr.Button("提取音频特征", variant="primary")
+                    with gr.Column(scale=2):
+                        extract_file_out = gr.File(label="下载特征文件 (.pt)")
+                        extract_status = gr.Textbox(label="状态", lines=2, interactive=False)
+                extract_btn.click(
+                    extract_voice_clone_prompt,
+                    inputs=[extract_ref_audio, extract_ref_text, extract_xvector],
+                    outputs=[extract_file_out],
+                    api_name="extract_voice_clone_prompt"
+                )
+                gr.Markdown("---")
+                # Section 2: Generate Voice from Features
+                gr.Markdown("### 2. 使用特征文件生成语音")
+                gr.Markdown("上传之前提取的特征文件，快速生成语音（无需重复提取特征）。")
+                with gr.Row():
+                    with gr.Column(scale=2):
+                        prompt_file = gr.File(
+                            label="音频特征文件 (.pt)",
+                        )
+                        prompt_target_text = gr.Textbox(
+                            label="目标文本（要用克隆音色合成的文字）",
+                            lines=4,
+                            placeholder="输入要让克隆音色说话的文字...",
+                        )
+                        prompt_language = gr.Dropdown(
+                            label="语言",
+                            choices=LANGUAGES,
+                            value="Auto",
+                            interactive=True,
+                        )
+                        prompt_btn = gr.Button("使用特征文件生成", variant="primary")
+                    with gr.Column(scale=2):
+                        prompt_audio_out = gr.Audio(label="生成的音频", type="numpy")
+                        prompt_status = gr.Textbox(label="状态", lines=2, interactive=False)
+                prompt_btn.click(
+                    generate_voice_clone_from_prompt_file,
+                    inputs=[prompt_file, prompt_target_text, prompt_language],
+                    outputs=[prompt_audio_out, prompt_status],
+                    api_name="generate_voice_clone_from_prompt"
+                )
+                gr.Markdown("---")
+                # Section 3: Traditional Voice Clone (Original)
+                gr.Markdown("### 3. 传统音色克隆（直接使用参考音频）")
+                gr.Markdown("直接上传参考音频生成语音（每次都需要提取特征）。")
                 with gr.Row():
                     with gr.Column(scale=2):
                         clone_ref_audio = gr.Audio(
+                            label="参考音频",
                             type="numpy",
                         )
                         clone_ref_text = gr.Textbox(
+                            label="参考文本",
                             lines=2,
+                            placeholder="输入参考音频中的确切文字...",
                         )
                         clone_xvector = gr.Checkbox(
+                            label="仅使用 x-vector",
                             value=False,
                         )
                     with gr.Column(scale=2):
                         clone_target_text = gr.Textbox(
+                            label="目标文本",
                             lines=4,
+                            placeholder="输入要让克隆音色说话的文字...",
                         )
                         with gr.Row():
                             clone_language = gr.Dropdown(
+                                label="语言",
                                 choices=LANGUAGES,
                                 value="Auto",
                                 interactive=True,
                             )
                             clone_model_size = gr.Dropdown(
+                                label="模型大小",
                                 choices=MODEL_SIZES,
                                 value="1.7B",
                                 interactive=True,
                             )
+                        clone_btn = gr.Button("克隆并生成", variant="primary")
                 with gr.Row():
+                    clone_audio_out = gr.Audio(label="生成的音频", type="numpy")
+                    clone_status = gr.Textbox(label="状态", lines=2, interactive=False)
                 clone_btn.click(
                     generate_voice_clone,