Spaces:

WJBSCUT
/

CosyVoice

Running

App Files Files Community

jerrybwang commited on Jan 26

Commit

6baad6c

1 Parent(s): 228e994

--other 更新代码

Browse files

Files changed (1) hide show

app.py +80 -47

app.py CHANGED Viewed

@@ -36,14 +36,13 @@ def load_cosyvoice_model():
         # 方法1: 使用transformers加载（推荐用于Hugging Face Space）
         try:
             print("\n[方法1] 尝试使用transformers加载...")
-            from transformers import AutoModel, AutoTokenizer
             import torch
             model_name = "FunAudioLLM/CosyVoice-300M"
             print(f"  从 {model_name} 加载...")
-            # CosyVoice需要trust_remote_code=True
-            tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
             model = AutoModel.from_pretrained(
                 model_name,
                 trust_remote_code=True,
@@ -53,10 +52,14 @@ def load_cosyvoice_model():
             # 设置为评估模式
             model.eval()
             cosyvoice_model = {
-                'tokenizer': tokenizer,
                 'model': model,
-                'type': 'transformers'
             }
             model_loaded = True
             print("  ✓ 成功通过transformers加载CosyVoice模型")
@@ -287,56 +290,86 @@ def text_to_speech(text, speaker="中文女"):
                     if model_type == 'transformers':
                         # 使用transformers接口
-                        tokenizer = model['tokenizer']
                         tts_model = model['model']
-                        # 准备输入
-                        inputs = tokenizer(text, return_tensors="pt", padding=True)
-                        # 生成语音
                         with torch.no_grad():
-                            # 尝试不同的生成方法
                             if hasattr(tts_model, 'inference_sft'):
                                 outputs = tts_model.inference_sft(text, speaker)
-                            elif hasattr(tts_model, 'generate'):
-                                outputs = tts_model.generate(**inputs)
-                            elif hasattr(tts_model, 'forward'):
-                                outputs = tts_model(**inputs)
-                            else:
-                                raise AttributeError("模型没有可用的推理方法")
-                        # 处理输出
-                        if isinstance(outputs, dict):
-                            if 'tts_speech' in outputs:
-                                audio_data = outputs['tts_speech']
-                                if torch.is_tensor(audio_data):
-                                    audio_data = audio_data.cpu().numpy()
-                            elif 'audio' in outputs:
-                                audio_data = outputs['audio']
                                 if torch.is_tensor(audio_data):
                                     audio_data = audio_data.cpu().numpy()
                             else:
-                                # 使用第一个tensor输出
-                                for v in outputs.values():
-                                    if torch.is_tensor(v):
-                                        audio_data = v.cpu().numpy()
-                                        break
-                        elif torch.is_tensor(outputs):
-                            audio_data = outputs.cpu().numpy()
-                            if audio_data.ndim > 1:
-                                audio_data = audio_data[0]  # 取第一个batch
-                        elif isinstance(outputs, np.ndarray):
-                            audio_data = outputs
-                        else:
-                            raise TypeError(f"不支持的输出类型: {type(outputs)}")
-                        # 确保音频数据是1D数组
-                        if audio_data.ndim > 1:
-                            audio_data = audio_data.flatten()
-                        sample_rate = 22050
-                        audio_tuple = (sample_rate, audio_data.astype(np.float32))
-                        return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: transformers"
                     elif model_type == 'pytorch':
                         # 使用PyTorch模型

         # 方法1: 使用transformers加载（推荐用于Hugging Face Space）
         try:
             print("\n[方法1] 尝试使用transformers加载...")
+            from transformers import AutoModel
             import torch
             model_name = "FunAudioLLM/CosyVoice-300M"
             print(f"  从 {model_name} 加载...")
+            # CosyVoice需要trust_remote_code=True来加载自定义模型代码
             model = AutoModel.from_pretrained(
                 model_name,
                 trust_remote_code=True,
             # 设置为评估模式
             model.eval()
+            # 检查模型是否有推理方法
+            has_inference = hasattr(model, 'inference_sft') or hasattr(model, 'inference') or hasattr(model, 'generate')
+            print(f"  模型推理方法检查: inference_sft={hasattr(model, 'inference_sft')}, inference={hasattr(model, 'inference')}, generate={hasattr(model, 'generate')}")
             cosyvoice_model = {
                 'model': model,
+                'type': 'transformers',
+                'has_inference': has_inference
             }
             model_loaded = True
             print("  ✓ 成功通过transformers加载CosyVoice模型")
                     if model_type == 'transformers':
                         # 使用transformers接口
                         tts_model = model['model']
+                        # 生成语音 - 尝试不同的推理方法
                         with torch.no_grad():
+                            # 方法1: 尝试inference_sft（CosyVoice标准接口）
                             if hasattr(tts_model, 'inference_sft'):
+                                print(f"使用inference_sft方法: text={text}, speaker={speaker}")
                                 outputs = tts_model.inference_sft(text, speaker)
+                                # 处理输出
+                                if isinstance(outputs, dict):
+                                    if 'tts_speech' in outputs:
+                                        audio_data = outputs['tts_speech']
+                                    elif 'audio' in outputs:
+                                        audio_data = outputs['audio']
+                                    else:
+                                        # 取第一个tensor值
+                                        audio_data = next(iter(outputs.values()))
+                                elif isinstance(outputs, (list, tuple)):
+                                    audio_data = outputs[0]
+                                else:
+                                    audio_data = outputs
+                                # 转换为numpy
                                 if torch.is_tensor(audio_data):
                                     audio_data = audio_data.cpu().numpy()
+                                # 确保是1D数组
+                                if audio_data.ndim > 1:
+                                    audio_data = audio_data.flatten()
+                                sample_rate = 22050
+                                audio_tuple = (sample_rate, audio_data.astype(np.float32))
+                                return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (transformers)"
+                            # 方法2: 尝试inference方法
+                            elif hasattr(tts_model, 'inference'):
+                                print(f"使用inference方法: text={text}, speaker={speaker}")
+                                outputs = tts_model.inference(text, speaker)
+                                if torch.is_tensor(outputs):
+                                    audio_data = outputs.cpu().numpy()
+                                else:
+                                    audio_data = outputs
+                                if audio_data.ndim > 1:
+                                    audio_data = audio_data.flatten()
+                                sample_rate = 22050
+                                audio_tuple = (sample_rate, audio_data.astype(np.float32))
+                                return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (transformers)"
+                            # 方法3: 尝试generate方法
+                            elif hasattr(tts_model, 'generate'):
+                                print(f"使用generate方法: text={text}")
+                                # 准备输入
+                                inputs = {"text": text, "speaker": speaker}
+                                outputs = tts_model.generate(**inputs)
+                                if torch.is_tensor(outputs):
+                                    audio_data = outputs.cpu().numpy()
+                                elif isinstance(outputs, dict):
+                                    audio_data = outputs.get('audio', outputs.get('waveform', next(iter(outputs.values()))))
+                                    if torch.is_tensor(audio_data):
+                                        audio_data = audio_data.cpu().numpy()
+                                else:
+                                    audio_data = outputs
+                                if audio_data.ndim > 1:
+                                    audio_data = audio_data.flatten()
+                                sample_rate = 22050
+                                audio_tuple = (sample_rate, audio_data.astype(np.float32))
+                                return audio_tuple, f"✓ 语音合成成功\n文本: {text}\n说话人: {speaker}\n模型: CosyVoice (transformers)"
                             else:
+                                # 没有可用的推理方法
+                                print(f"模型没有可用的推理方法")
+                                print(f"可用方法: {[m for m in dir(tts_model) if not m.startswith('_')][:20]}")
+                                return generate_demo_audio(text, speaker, error="模型缺少推理方法 (inference_sft/inference/generate)")
                     elif model_type == 'pytorch':
                         # 使用PyTorch模型