Spaces:

Difficult-Burger
/

vevo-test

Build error

App Files Files Community

积极的屁孩 commited on Apr 12, 2025

Commit

e48a9d8

1 Parent(s): 6efd082

adjust frequency

Browse files

Files changed (1) hide show

app.py +51 -23

app.py CHANGED Viewed

@@ -234,23 +234,34 @@ def vevo_style(content_wav, style_wav):
     temp_style_path = "wav/temp_style.wav"
     output_path = "wav/output_vevostyle.wav"
-    # 检查并正确处理音频数据
     if content_wav is None or style_wav is None:
         raise ValueError("请上传音频文件")
-    # Gradio音频组件返回(sample_rate, data)元组或(data, sample_rate)元组
     if isinstance(content_wav, tuple) and len(content_wav) == 2:
-        # 确保正确的顺序 (data, sample_rate)
         if isinstance(content_wav[0], np.ndarray):
             content_data, content_sr = content_wav
         else:
             content_sr, content_data = content_wav
-        content_tensor = torch.FloatTensor(content_data)
-        if content_tensor.ndim == 1:
-            content_tensor = content_tensor.unsqueeze(0)  # 添加通道维度
     else:
         raise ValueError("内容音频格式不正确")
     if isinstance(style_wav, tuple) and len(style_wav) == 2:
         # 确保正确的顺序 (data, sample_rate)
         if isinstance(style_wav[0], np.ndarray):
@@ -263,25 +274,42 @@ def vevo_style(content_wav, style_wav):
     else:
         raise ValueError("风格音频格式不正确")
-    # 保存上传的音频
     torchaudio.save(temp_content_path, content_tensor, content_sr)
     torchaudio.save(temp_style_path, style_tensor, style_sr)
-    # 获取管道
-    pipeline = get_pipeline("style")
-    # 推理
-    gen_audio = pipeline.inference_ar_and_fm(
-        src_wav_path=temp_content_path,
-        src_text=None,
-        style_ref_wav_path=temp_style_path,
-        timbre_ref_wav_path=temp_content_path,
-    )
-    # 保存生成的音频
-    save_audio(gen_audio, output_path=output_path)
-    return output_path
 def vevo_timbre(content_wav, reference_wav):
     temp_content_path = "wav/temp_content.wav"

     temp_style_path = "wav/temp_style.wav"
     output_path = "wav/output_vevostyle.wav"
+    # 检查并处理音频数据
     if content_wav is None or style_wav is None:
         raise ValueError("请上传音频文件")
+    # 处理音频格式
     if isinstance(content_wav, tuple) and len(content_wav) == 2:
         if isinstance(content_wav[0], np.ndarray):
             content_data, content_sr = content_wav
         else:
             content_sr, content_data = content_wav
+        # 确保是单声道
+        if len(content_data.shape) > 1 and content_data.shape[1] > 1:
+            content_data = np.mean(content_data, axis=1)
+        # 重采样到24kHz
+        if content_sr != 24000:
+            content_tensor = torch.FloatTensor(content_data).unsqueeze(0)
+            content_tensor = torchaudio.functional.resample(content_tensor, content_sr, 24000)
+            content_sr = 24000
+        else:
+            content_tensor = torch.FloatTensor(content_data).unsqueeze(0)
+        # 归一化音量
+        content_tensor = content_tensor / (torch.max(torch.abs(content_tensor)) + 1e-6) * 0.95
     else:
         raise ValueError("内容音频格式不正确")
     if isinstance(style_wav, tuple) and len(style_wav) == 2:
         # 确保正确的顺序 (data, sample_rate)
         if isinstance(style_wav[0], np.ndarray):
     else:
         raise ValueError("风格音频格式不正确")
+    # 打印debug信息
+    print(f"内容音频形状: {content_tensor.shape}, 采样率: {content_sr}")
+    print(f"风格音频形状: {style_tensor.shape}, 采样率: {style_sr}")
+    # 保存音频
     torchaudio.save(temp_content_path, content_tensor, content_sr)
     torchaudio.save(temp_style_path, style_tensor, style_sr)
+    try:
+        # 获取管道
+        pipeline = get_pipeline("style")
+        # 推理
+        gen_audio = pipeline.inference_ar_and_fm(
+            src_wav_path=temp_content_path,
+            src_text=None,
+            style_ref_wav_path=temp_style_path,
+            timbre_ref_wav_path=temp_content_path,
+        )
+        # 检查生成音频是否为数值异常
+        if torch.isnan(gen_audio).any() or torch.isinf(gen_audio).any():
+            print("警告：生成的音频包含NaN或Inf值")
+            gen_audio = torch.nan_to_num(gen_audio, nan=0.0, posinf=0.95, neginf=-0.95)
+        print(f"生成音频形状: {gen_audio.shape}, 最大值: {torch.max(gen_audio)}, 最小值: {torch.min(gen_audio)}")
+        # 保存生成的音频
+        save_audio(gen_audio, output_path=output_path)
+        return output_path
+    except Exception as e:
+        print(f"处理过程中出错: {e}")
+        import traceback
+        traceback.print_exc()
+        raise e
 def vevo_timbre(content_wav, reference_wav):
     temp_content_path = "wav/temp_content.wav"