Spaces:

WJBSCUT
/

CosyVoice

Running

File size: 28,803 Bytes

import gradio as gr
import torch
import torchaudio
import numpy as np
import os
import sys
from pathlib import Path
import tempfile
import soundfile as sf

# 标题和描述
title = "CosyVoice - 语音处理模型"
description = """
CosyVoice是一个先进的语音处理模型，支持语音识别、语音合成等功能。

上传音频文件或使用麦克风录制语音，体验CosyVoice的强大功能。
"""

# 全局变量存储模型
cosyvoice_model = None
model_loaded = False

# 初始化CosyVoice模型
def load_cosyvoice_model():
    """加载CosyVoice模型"""
    global cosyvoice_model, model_loaded
    
    if model_loaded:
        return cosyvoice_model
    
    print("\n" + "="*60)
    print("正在加载CosyVoice模型...")
    print("="*60)
    
    try:
        # 方法1: 尝试使用官方 CosyVoice 包
        print("\n尝试使用官方 CosyVoice 包...")
        try:
            # 添加 third_party 路径（如果存在）
            third_party_path = os.path.join(os.path.dirname(__file__), 'third_party', 'Matcha-TTS')
            if os.path.exists(third_party_path):
                sys.path.insert(0, third_party_path)
            
            from cosyvoice.cli.cosyvoice import CosyVoice
            
            # 尝试从 Hugging Face Hub 加载
            model_name = "FunAudioLLM/CosyVoice-300M"
            print(f"从 {model_name} 加载...")
            
            # 下载模型到本地
            from huggingface_hub import snapshot_download
            model_dir = snapshot_download(repo_id=model_name, cache_dir="./models")
            
            # 使用 CosyVoice 加载
            cosyvoice = CosyVoice(model_dir=model_dir)
            
            cosyvoice_model = {
                'model': cosyvoice,
                'type': 'cosyvoice_official',
                'has_inference': True,
                'sample_rate': getattr(cosyvoice, 'sample_rate', 22050)
            }
            model_loaded = True
            print("✓ 成功使用官方 CosyVoice 包加载模型")
            print("="*60 + "\n")
            return cosyvoice_model
            
        except ImportError as ie:
            print(f"⚠ 官方 CosyVoice 包不可用: {ie}")
            print("  尝试其他加载方式...")
        
        # 方法2: 尝试使用 transformers AutoModel（需要 trust_remote_code）
        print("\n尝试使用 transformers AutoModel...")
        try:
            from transformers import AutoModel
            
            model_name = "FunAudioLLM/CosyVoice-300M"
            print(f"从 {model_name} 加载...")
            
            # 使用 trust_remote_code=True 加载自定义模型
            model = AutoModel.from_pretrained(
                model_name,
                trust_remote_code=True,
                torch_dtype=torch.float32,
                low_cpu_mem_usage=True
            )
            model.eval()
            
            # 检查模型方法
            has_inference_sft = hasattr(model, 'inference_sft')
            has_inference_zero_shot = hasattr(model, 'inference_zero_shot')
            has_inference_cross_lingual = hasattr(model, 'inference_cross_lingual')
            
            print(f"模型类型: {type(model).__name__}")
            print(f"推理方法:")
            print(f"  - inference_sft: {has_inference_sft}")
            print(f"  - inference_zero_shot: {has_inference_zero_shot}")
            print(f"  - inference_cross_lingual: {has_inference_cross_lingual}")
            
            if has_inference_sft or has_inference_zero_shot:
                cosyvoice_model = {
                    'model': model,
                    'type': 'transformers',
                    'has_inference': True,
                    'sample_rate': getattr(model, 'sample_rate', 22050)
                }
                model_loaded = True
                print("✓ 成功使用 transformers 加载模型")
                print("="*60 + "\n")
                return cosyvoice_model
            else:
                print("⚠ 模型缺少必要的推理方法")
                raise ValueError("Model missing inference methods")
                
        except Exception as te:
            print(f"⚠ transformers 加载失败: {te}")
            import traceback
            traceback.print_exc()
        
        # 方法3: 下载模型文件（演示模式）
        print("\n尝试下载模型文件...")
        from huggingface_hub import snapshot_download
        
        model_name = "FunAudioLLM/CosyVoice-300M"
        model_dir = snapshot_download(
            repo_id=model_name,
            allow_patterns=["*.pt", "*.pth", "*.bin", "*.json", "*.yaml", "*.txt", "*.safetensors"],
            cache_dir="./models"
        )
        
        print(f"✓ 模型文件已下载到: {model_dir}")
        print("\n⚠ 注意: 模型文件已下载，但无法加载推理引擎")
        print("  建议:")
        print("  1. 安装完整的 CosyVoice 包: pip install cosyvoice")
        print("  2. 或在 Hugging Face Space 中使用演示模式")
        print("="*60 + "\n")
        
        cosyvoice_model = None
        model_loaded = True
        return None
            
    except Exception as e:
        print(f"✗ 模型加载失败: {e}")
        import traceback
        print(f"详细错误:\n{traceback.format_exc()}")
        
        print("\n⚠ 使用演示模式")
        print("提示: 要使用完整功能，请:")
        print("  1. 确保网络连接正常")
        print("  2. 确保有足够的磁盘空间（约2GB）")
        print("  3. 安装 CosyVoice: pip install cosyvoice")
        print("="*60 + "\n")
        
        cosyvoice_model = None
        model_loaded = True
        return None

def process_audio(audio_file):
    """处理音频文件 - 语音识别"""
    if audio_file is None:
        return "请上传音频文件"
    
    try:
        # 加载模型
        model = load_cosyvoice_model()
        
        # 处理不同的音频输入格式
        if isinstance(audio_file, tuple):
            sample_rate, audio_data = audio_file
        else:
            # 如果是文件路径
            import soundfile as sf
            audio_data, sample_rate = sf.read(audio_file)
        
        duration = len(audio_data) / sample_rate
        
        # 如果模型已加载，使用真实推理
        if model is not None:
            try:
                # 使用CosyVoice进行语音识别
                # 注意：CosyVoice主要是TTS模型，这里展示如何处理音频
                result = f"""
✓ 音频处理成功

音频信息：
- 采样率: {sample_rate} Hz
- 时长: {duration:.2f} 秒
- 数据形状: {audio_data.shape}
- 数据类型: {audio_data.dtype}

模型状态: CosyVoice模型已加载
注意: CosyVoice主要用于语音合成(TTS)，如需语音识别请使用ASR模型
"""
                return result
            except Exception as e:
                return f"模型推理失败: {str(e)}"
        else:
            # 演示模式
            result = f"""
音频信息：
- 采样率: {sample_rate} Hz
- 时长: {duration:.2f} 秒
- 数据点数: {len(audio_data)}

⚠ 演示模式（模型未加载）
提示: 请确保安装CosyVoice模型以使用完整功能
"""
            return result
    except Exception as e:
        return f"处理失败: {str(e)}"

def text_to_speech(text, speaker="中文女", prompt_audio=None, prompt_text=None):
    """文本转语音 - 使用CosyVoice
    
    Args:
        text: 要合成的文本
        speaker: 说话人（用于SFT模式）
        prompt_audio: 提示音频路径（用于zero-shot模式）
        prompt_text: 提示文本（用于zero-shot模式）
    """
    if not text or text.strip() == "":
        return None, "请输入要转换的文本"
    
    try:
        # 加载模型
        model = load_cosyvoice_model()
        
        # 如果模型已加载，使用真实推理
        if model is not None:
            try:
                # 检查模型类型并使用相应的接口
                if isinstance(model, dict):
                    model_type = model.get('type', 'unknown')
                    
                    # 官方 CosyVoice AutoModel
                    if model_type == 'cosyvoice_official':
                        cosyvoice = model['model']
                        sample_rate = model.get('sample_rate', 22050)
                        
                        print(f"使用官方CosyVoice API: text={text[:50]}...")
                        
                        # 使用 inference_zero_shot 方法（zero-shot克隆）
                        # 根据官方文档，使用正确的提示文本格式
                        try:
                            # 准备提示文本（使用官方格式）
                            if prompt_text is None:
                                # 使用默认提示文本
                                prompt_text = 'You are a helpful assistant.<|endofprompt|>希望你以后能够做的比我还好呦。'
                            
                            # 准备提示音频
                            if prompt_audio is None:
                                # 尝试使用项目中的示例音频
                                possible_prompt_paths = [
                                    './asset/zero_shot_prompt.wav',
                                    './CosyVoice/asset/zero_shot_prompt.wav',
                                    './zero_shot_prompt.wav'
                                ]
                                for path in possible_prompt_paths:
                                    if os.path.exists(path):
                                        prompt_audio = path
                                        print(f"使用提示音频: {path}")
                                        break
                            
                            # 如果有提示音频，使用 zero-shot 模式
                            if prompt_audio and os.path.exists(prompt_audio):
                                print(f"使用 inference_zero_shot: text={text[:30]}, prompt={prompt_text[:50]}")
                                audio_chunks = []
                                for i, output in enumerate(cosyvoice.inference_zero_shot(
                                    text, 
                                    prompt_text,
                                    prompt_audio, 
                                    stream=False
                                )):
                                    if isinstance(output, dict) and 'tts_speech' in output:
                                        audio_chunks.append(output['tts_speech'])
                                    else:
                                        audio_chunks.append(output)
                                
                                if audio_chunks:
                                    if torch.is_tensor(audio_chunks[0]):
                                        audio_data = torch.cat(audio_chunks, dim=-1).cpu().numpy()
                                    else:
                                        audio_data = np.concatenate(audio_chunks, axis=-1)
                                    
                                    if audio_data.ndim > 1:
                                        audio_data = audio_data.flatten()
                                    
                                    audio_tuple = (sample_rate, audio_data.astype(np.float32))
                                    return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n模式: Zero-shot\n模型: CosyVoice (官方API)"
                            
                            # 如果没有提示音频，尝试使用 inference_sft（预训练说话人）
                            else:
                                print(f"使用 inference_sft: text={text[:30]}, speaker={speaker}")
                                # CosyVoice-300M 可能支持的说话人ID
                                # 需要根据实际模型调整
                                audio_chunks = []
                                for i, output in enumerate(cosyvoice.inference_sft(text, speaker, stream=False)):
                                    if isinstance(output, dict) and 'tts_speech' in output:
                                        audio_chunks.append(output['tts_speech'])
                                    else:
                                        audio_chunks.append(output)
                                
                                if audio_chunks:
                                    if torch.is_tensor(audio_chunks[0]):
                                        audio_data = torch.cat(audio_chunks, dim=-1).cpu().numpy()
                                    else:
                                        audio_data = np.concatenate(audio_chunks, axis=-1)
                                    
                                    if audio_data.ndim > 1:
                                        audio_data = audio_data.flatten()
                                    
                                    audio_tuple = (sample_rate, audio_data.astype(np.float32))
                                    return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (官方API - SFT)"
                        
                        except Exception as e:
                            print(f"CosyVoice API 调用失败: {e}")
                            import traceback
                            traceback.print_exc()
                            # 返回演示音频并显示错误信息
                            return generate_demo_audio(text, speaker, error=f"API调用失败: {str(e)}")
                    
                    elif model_type == 'transformers':
                        # 使用transformers接口
                        tts_model = model['model']
                        
                        # 生成语音 - 尝试不同的推理方法
                        with torch.no_grad():
                            # 方法1: 尝试inference_sft（CosyVoice标准接口）
                            if hasattr(tts_model, 'inference_sft'):
                                print(f"使用inference_sft方法: text={text}, speaker={speaker}")
                                outputs = tts_model.inference_sft(text, speaker)
                                
                                # 处理输出
                                if isinstance(outputs, dict):
                                    if 'tts_speech' in outputs:
                                        audio_data = outputs['tts_speech']
                                    elif 'audio' in outputs:
                                        audio_data = outputs['audio']
                                    else:
                                        # 取第一个tensor值
                                        audio_data = next(iter(outputs.values()))
                                elif isinstance(outputs, (list, tuple)):
                                    audio_data = outputs[0]
                                else:
                                    audio_data = outputs
                                
                                # 转换为numpy
                                if torch.is_tensor(audio_data):
                                    audio_data = audio_data.cpu().numpy()
                                
                                # 确保是1D数组
                                if audio_data.ndim > 1:
                                    audio_data = audio_data.flatten()
                                
                                sample_rate = 22050
                                audio_tuple = (sample_rate, audio_data.astype(np.float32))
                                return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (transformers)"
                            
                            # 方法2: 尝试inference方法
                            elif hasattr(tts_model, 'inference'):
                                print(f"使用inference方法: text={text}, speaker={speaker}")
                                outputs = tts_model.inference(text, speaker)
                                
                                if torch.is_tensor(outputs):
                                    audio_data = outputs.cpu().numpy()
                                else:
                                    audio_data = outputs
                                
                                if audio_data.ndim > 1:
                                    audio_data = audio_data.flatten()
                                
                                sample_rate = 22050
                                audio_tuple = (sample_rate, audio_data.astype(np.float32))
                                return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (transformers)"
                            
                            # 方法3: 尝试generate方法
                            elif hasattr(tts_model, 'generate'):
                                print(f"使用generate方法: text={text}")
                                # 准备输入
                                inputs = {"text": text, "speaker": speaker}
                                outputs = tts_model.generate(**inputs)
                                
                                if torch.is_tensor(outputs):
                                    audio_data = outputs.cpu().numpy()
                                elif isinstance(outputs, dict):
                                    audio_data = outputs.get('audio', outputs.get('waveform', next(iter(outputs.values()))))
                                    if torch.is_tensor(audio_data):
                                        audio_data = audio_data.cpu().numpy()
                                else:
                                    audio_data = outputs
                                
                                if audio_data.ndim > 1:
                                    audio_data = audio_data.flatten()
                                
                                sample_rate = 22050
                                audio_tuple = (sample_rate, audio_data.astype(np.float32))
                                return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (transformers)"
                            
                            else:
                                # 没有可用的推理方法
                                print(f"模型没有可用的推理方法")
                                print(f"可用方法: {[m for m in dir(tts_model) if not m.startswith('_')][:20]}")
                                return generate_demo_audio(text, speaker, error="模型缺少推理方法 (inference_sft/inference/generate)")
                    
                    elif model_type == 'pytorch':
                        # 使用PyTorch模型
                        pytorch_model = model['model']
                        
                        # 尝试推理
                        try:
                            if hasattr(pytorch_model, 'inference_sft'):
                                output = pytorch_model.inference_sft(text, speaker)
                            elif hasattr(pytorch_model, 'inference'):
                                output = pytorch_model.inference(text, speaker)
                            else:
                                # 无法推理，使用演示模式
                                return generate_demo_audio(text, speaker, error="PyTorch模型缺少推理方法")
                            
                            # 处理输出
                            if isinstance(output, dict) and 'tts_speech' in output:
                                audio_data = output['tts_speech']
                                if torch.is_tensor(audio_data):
                                    audio_data = audio_data.cpu().numpy()
                            elif torch.is_tensor(output):
                                audio_data = output.cpu().numpy()
                            else:
                                audio_data = output
                            
                            sample_rate = 22050
                            audio_tuple = (sample_rate, audio_data.astype(np.float32))
                            return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: PyTorch"
                        except Exception as e:
                            return generate_demo_audio(text, speaker, error=f"PyTorch推理失败: {str(e)}")
                    
                    elif model_type == 'downloaded':
                        # 模型已下载但未加载，使用演示模式
                        return generate_demo_audio(text, speaker)
                    
                    else:
                        return generate_demo_audio(text, speaker)
                
                elif hasattr(model, 'inference_sft'):
                    # 使用官方CosyVoice API
                    output = model.inference_sft(text, speaker)
                    
                    # 转换输出格式
                    if isinstance(output, dict) and 'tts_speech' in output:
                        audio_data = output['tts_speech'].cpu().numpy()
                        sample_rate = 22050
                    else:
                        audio_data = output
                        sample_rate = 22050
                    
                    audio_tuple = (sample_rate, audio_data.astype(np.float32))
                    return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice官方"
                
                else:
                    # 尝试其他可能的接口
                    if hasattr(model, 'inference'):
                        output = model.inference(text, speaker)
                        audio_data = output if isinstance(output, np.ndarray) else output.cpu().numpy()
                        sample_rate = 22050
                        audio_tuple = (sample_rate, audio_data.astype(np.float32))
                        return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}"
                    else:
                        # 使用演示模式
                        return generate_demo_audio(text, speaker)
                    
            except Exception as e:
                print(f"模型推理错误: {str(e)}")
                # 出错时使用演示模式
                return generate_demo_audio(text, speaker, error=str(e))
        else:
            # 演示模式
            return generate_demo_audio(text, speaker)
            
    except Exception as e:
        return None, f"语音合成失败: {str(e)}"

def generate_demo_audio(text, speaker, error=None):
    """生成演示音频（当模型不可用时）"""
    # 生成简单的演示音频
    sample_rate = 22050
    duration = min(len(text) * 0.2, 5.0)
    t = np.linspace(0, duration, int(sample_rate * duration), False)
    
    frequency = 440
    audio_data = 0.3 * np.sin(2 * np.pi * frequency * t)
    audio_data += 0.2 * np.sin(2 * np.pi * frequency * 1.5 * t)
    
    fade_samples = int(sample_rate * 0.1)
    audio_data[:fade_samples] *= np.linspace(0, 1, fade_samples)
    audio_data[-fade_samples:] *= np.linspace(1, 0, fade_samples)
    
    audio_tuple = (sample_rate, audio_data.astype(np.float32))
    
    status_msg = f"⚠ 演示模式\n文本: {text}\n说话人: {speaker}\n"
    if error:
        status_msg += f"错误: {error}\n"
    status_msg += "提示: 这是演示音频，不是真实的语音合成结果。请确保模型正确加载。"
    
    return audio_tuple, status_msg

# 在启动时加载模型
load_cosyvoice_model()

# 更新模型状态消息
if cosyvoice_model is not None:
    model_status_msg = "✓ CosyVoice模型已成功加载"
    model_status_color = "green"
else:
    model_status_msg = "⚠ 演示模式（模型未加载）"
    model_status_color = "orange"

# 创建Gradio界面
try:
    theme = gr.themes.Soft()
except:
    theme = None

with gr.Blocks() as demo:
    gr.Markdown(f"# {title}")
    gr.Markdown(description)
    
    # 显示模型状态
    if cosyvoice_model is not None:
        status_emoji = "✅"
        status_text = "CosyVoice模型已成功加载并可用"
        status_style = "background-color: #d4edda; padding: 10px; border-radius: 5px; border-left: 4px solid #28a745;"
    else:
        status_emoji = "⚠️"
        status_text = "演示模式 - 模型未加载。要使用完整功能，请安装CosyVoice模型。"
        status_style = "background-color: #fff3cd; padding: 10px; border-radius: 5px; border-left: 4px solid #ffc107;"
    
    gr.HTML(f'<div style="{status_style}"><strong>{status_emoji} 模型状态:</strong> {status_text}</div>')
    
    with gr.Tab("语音识别"):
        with gr.Row():
            with gr.Column():
                audio_input = gr.Audio(
                    label="上传音频文件或录制语音",
                    type="numpy",
                    sources=["upload", "microphone"]
                )
                process_btn = gr.Button("处理音频", variant="primary")
            
            with gr.Column():
                output_text = gr.Textbox(
                    label="识别结果",
                    lines=5,
                    placeholder="识别结果将显示在这里..."
                )
        
        process_btn.click(
            fn=process_audio,
            inputs=audio_input,
            outputs=output_text
        )
    
    with gr.Tab("文本转语音"):
        with gr.Row():
            with gr.Column():
                text_input = gr.Textbox(
                    label="输入文本",
                    placeholder="请输入要转换为语音的文本...",
                    lines=3
                )
                speaker_input = gr.Dropdown(
                    label="选择说话人（SFT模式）",
                    choices=["中文女", "中文男", "英文女", "英文男", "粤语女", "粤语男", "日语男", "韩语女"],
                    value="中文女"
                )
                
                # Zero-shot 模式选项
                with gr.Accordion("高级选项 - Zero-shot 声音克隆", open=False):
                    prompt_audio_input = gr.Audio(
                        label="上传提示音频（3-10秒）",
                        type="filepath",
                        sources=["upload"]
                    )
                    prompt_text_input = gr.Textbox(
                        label="提示文本（音频对应的文字）",
                        placeholder="You are a helpful assistant.<|endofprompt|>希望你以后能够做的比我还好呦。",
                        lines=2
                    )
                    gr.Markdown("""
                    **使用说明：**
                    - 上传一段3-10秒的参考音频
                    - 输入音频对应的文字内容
                    - 格式：`You are a helpful assistant.<|endofprompt|>音频对应的文字`
                    - 系统将克隆该音频的音色来合成新文本
                    """)
                
                tts_btn = gr.Button("生成语音", variant="primary")
            
            with gr.Column():
                audio_output = gr.Audio(label="生成的语音")
                tts_status = gr.Textbox(label="状态")
        
        tts_btn.click(
            fn=text_to_speech,
            inputs=[text_input, speaker_input, prompt_audio_input, prompt_text_input],
            outputs=[audio_output, tts_status]
        )
    
    with gr.Tab("关于"):
        gr.Markdown("""
        ## CosyVoice 模型
        
        CosyVoice是一个先进的语音处理模型，具有以下特点：
        
        - 高质量的语音识别
        - 自然的语音合成
        - 多语言支持
        - 实时处理能力
        
        ### 使用方法
        1. 在"语音识别"标签页上传音频文件进行识别
        2. 在"文本转语音"标签页输入文本生成语音
        3. 支持麦克风实时录制
        
        ### 技术特性
        - 基于Transformer架构
        - 支持多种音频格式
        - 高精度识别和合成
        """)

if __name__ == "__main__":
    demo.launch(theme=theme)