Spaces:

WJBSCUT
/

CosyVoice

Running

App Files Files Community

jerrybwang commited on Jan 26

Commit

bd60378

1 Parent(s): 43a7cd5

1

Browse files

Files changed (1) hide show

app.py +98 -57

app.py CHANGED Viewed

@@ -264,65 +264,85 @@ def text_to_speech(text, speaker="中文女", prompt_audio=None, prompt_text=Non
                         print(f"使用官方CosyVoice API: text={text[:50]}...")
-                        # 使用 inference_sft 方法（预训练说话人）
-                        # 注意：CosyVoice-300M 支持的说话人需要查看模型文档
                         try:
-                            # 尝试使用 inference_sft
-                            audio_chunks = []
-                            for i, output in enumerate(cosyvoice.inference_sft(text, speaker, stream=False)):
-                                if isinstance(output, dict) and 'tts_speech' in output:
-                                    audio_chunks.append(output['tts_speech'])
-                                else:
-                                    audio_chunks.append(output)
-                            # 合并音频块
-                            if audio_chunks:
-                                if torch.is_tensor(audio_chunks[0]):
-                                    audio_data = torch.cat(audio_chunks, dim=-1).cpu().numpy()
-                                else:
-                                    audio_data = np.concatenate(audio_chunks, axis=-1)
-                                # 确保是1D数组
-                                if audio_data.ndim > 1:
-                                    audio_data = audio_data.flatten()
-                                audio_tuple = (sample_rate, audio_data.astype(np.float32))
-                                return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (官方API - SFT)"
                         except Exception as e:
-                            print(f"inference_sft 失败: {e}")
-                            # 如果有提示音频，尝试 zero-shot
-                            if prompt_audio and prompt_text:
-                                try:
-                                    audio_chunks = []
-                                    for i, output in enumerate(cosyvoice.inference_zero_shot(
-                                        text,
-                                        prompt_text,
-                                        prompt_audio,
-                                        stream=False
-                                    )):
-                                        if isinstance(output, dict) and 'tts_speech' in output:
-                                            audio_chunks.append(output['tts_speech'])
-                                        else:
-                                            audio_chunks.append(output)
-                                    if audio_chunks:
-                                        if torch.is_tensor(audio_chunks[0]):
-                                            audio_data = torch.cat(audio_chunks, dim=-1).cpu().numpy()
-                                        else:
-                                            audio_data = np.concatenate(audio_chunks, axis=-1)
-                                        if audio_data.ndim > 1:
-                                            audio_data = audio_data.flatten()
-                                        audio_tuple = (sample_rate, audio_data.astype(np.float32))
-                                        return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n模式: Zero-shot\n模型: CosyVoice (官方API)"
-                                except Exception as e2:
-                                    print(f"inference_zero_shot 也失败: {e2}")
-                                    raise e
-                            else:
-                                raise e
                     elif model_type == 'transformers':
                         # 使用transformers接口
@@ -523,7 +543,7 @@ try:
 except:
     theme = None
-with gr.Blocks(theme=theme) as demo:
     gr.Markdown(f"# {title}")
     gr.Markdown(description)
@@ -571,10 +591,31 @@ with gr.Blocks(theme=theme) as demo:
                     lines=3
                 )
                 speaker_input = gr.Dropdown(
-                    label="选择说话人",
                     choices=["中文女", "中文男", "英文女", "英文男", "粤语女", "粤语男", "日语男", "韩语女"],
                     value="中文女"
                 )
                 tts_btn = gr.Button("生成语音", variant="primary")
             with gr.Column():
@@ -583,7 +624,7 @@ with gr.Blocks(theme=theme) as demo:
         tts_btn.click(
             fn=text_to_speech,
-            inputs=[text_input, speaker_input],
             outputs=[audio_output, tts_status]
         )
@@ -610,4 +651,4 @@ with gr.Blocks(theme=theme) as demo:
         """)
 if __name__ == "__main__":
-    demo.launch()

                         print(f"使用官方CosyVoice API: text={text[:50]}...")
+                        # 使用 inference_zero_shot 方法（zero-shot克隆）
+                        # 根据官方文档，使用正确的提示文本格式
                         try:
+                            # 准备提示文本（使用官方格式）
+                            if prompt_text is None:
+                                # 使用默认提示文本
+                                prompt_text = 'You are a helpful assistant.<|endofprompt|>希望你以后能够做的比我还好呦。'
+                            # 准备提示音频
+                            if prompt_audio is None:
+                                # 尝试使用项目中的示例音频
+                                possible_prompt_paths = [
+                                    './asset/zero_shot_prompt.wav',
+                                    './CosyVoice/asset/zero_shot_prompt.wav',
+                                    './zero_shot_prompt.wav'
+                                ]
+                                for path in possible_prompt_paths:
+                                    if os.path.exists(path):
+                                        prompt_audio = path
+                                        print(f"使用提示音频: {path}")
+                                        break
+                            # 如果有提示音频，使用 zero-shot 模式
+                            if prompt_audio and os.path.exists(prompt_audio):
+                                print(f"使用 inference_zero_shot: text={text[:30]}, prompt={prompt_text[:50]}")
+                                audio_chunks = []
+                                for i, output in enumerate(cosyvoice.inference_zero_shot(
+                                    text,
+                                    prompt_text,
+                                    prompt_audio,
+                                    stream=False
+                                )):
+                                    if isinstance(output, dict) and 'tts_speech' in output:
+                                        audio_chunks.append(output['tts_speech'])
+                                    else:
+                                        audio_chunks.append(output)
+                                if audio_chunks:
+                                    if torch.is_tensor(audio_chunks[0]):
+                                        audio_data = torch.cat(audio_chunks, dim=-1).cpu().numpy()
+                                    else:
+                                        audio_data = np.concatenate(audio_chunks, axis=-1)
+                                    if audio_data.ndim > 1:
+                                        audio_data = audio_data.flatten()
+                                    audio_tuple = (sample_rate, audio_data.astype(np.float32))
+                                    return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n模式: Zero-shot\n模型: CosyVoice (官方API)"
+                            # 如果没有提示音频，尝试使用 inference_sft（预训练说话人）
+                            else:
+                                print(f"使用 inference_sft: text={text[:30]}, speaker={speaker}")
+                                # CosyVoice-300M 可能支持的说话人ID
+                                # 需要根据实际模型调整
+                                audio_chunks = []
+                                for i, output in enumerate(cosyvoice.inference_sft(text, speaker, stream=False)):
+                                    if isinstance(output, dict) and 'tts_speech' in output:
+                                        audio_chunks.append(output['tts_speech'])
+                                    else:
+                                        audio_chunks.append(output)
+                                if audio_chunks:
+                                    if torch.is_tensor(audio_chunks[0]):
+                                        audio_data = torch.cat(audio_chunks, dim=-1).cpu().numpy()
+                                    else:
+                                        audio_data = np.concatenate(audio_chunks, axis=-1)
+                                    if audio_data.ndim > 1:
+                                        audio_data = audio_data.flatten()
+                                    audio_tuple = (sample_rate, audio_data.astype(np.float32))
+                                    return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (官方API - SFT)"
                         except Exception as e:
+                            print(f"CosyVoice API 调用失败: {e}")
+                            import traceback
+                            traceback.print_exc()
+                            # 返回演示音频并显示错误信息
+                            return generate_demo_audio(text, speaker, error=f"API调用失败: {str(e)}")
                     elif model_type == 'transformers':
                         # 使用transformers接口
 except:
     theme = None
+with gr.Blocks() as demo:
     gr.Markdown(f"# {title}")
     gr.Markdown(description)
                     lines=3
                 )
                 speaker_input = gr.Dropdown(
+                    label="选择说话人（SFT模式）",
                     choices=["中文女", "中文男", "英文女", "英文男", "粤语女", "粤语男", "日语男", "韩语女"],
                     value="中文女"
                 )
+                # Zero-shot 模式选项
+                with gr.Accordion("高级选项 - Zero-shot 声音克隆", open=False):
+                    prompt_audio_input = gr.Audio(
+                        label="上传提示音频（3-10秒）",
+                        type="filepath",
+                        sources=["upload"]
+                    )
+                    prompt_text_input = gr.Textbox(
+                        label="提示文本（音频对应的文字）",
+                        placeholder="You are a helpful assistant.<|endofprompt|>希望你以后能够做的比我还好呦。",
+                        lines=2
+                    )
+                    gr.Markdown("""
+                    **使用说明：**
+                    - 上传一段3-10秒的参考音频
+                    - 输入音频对应的文字内容
+                    - 格式：`You are a helpful assistant.<|endofprompt|>音频对应的文字`
+                    - 系统将克隆该音频的音色来合成新文本
+                    """)
                 tts_btn = gr.Button("生成语音", variant="primary")
             with gr.Column():
         tts_btn.click(
             fn=text_to_speech,
+            inputs=[text_input, speaker_input, prompt_audio_input, prompt_text_input],
             outputs=[audio_output, tts_status]
         )
         """)
 if __name__ == "__main__":
+    demo.launch(theme=theme)