Spaces:

Difficult-Burger
/

vevo-test

Build error

App Files Files Community

积极的屁孩 commited on Apr 11, 2025

Commit

4a1664c

1 Parent(s): abbd236

debug audio saving format

Browse files

Files changed (1) hide show

app.py +123 -8

app.py CHANGED Viewed

@@ -234,9 +234,38 @@ def vevo_style(content_wav, style_wav):
     temp_style_path = "wav/temp_style.wav"
     output_path = "wav/output_vevostyle.wav"
     # 保存上传的音频
-    torchaudio.save(temp_content_path, content_wav[0], content_wav[1])
-    torchaudio.save(temp_style_path, style_wav[0], style_wav[1])
     # 获取管道
     pipeline = get_pipeline("style")
@@ -259,9 +288,38 @@ def vevo_timbre(content_wav, reference_wav):
     temp_reference_path = "wav/temp_reference.wav"
     output_path = "wav/output_vevotimbre.wav"
     # 保存上传的音频
-    torchaudio.save(temp_content_path, content_wav[0], content_wav[1])
-    torchaudio.save(temp_reference_path, reference_wav[0], reference_wav[1])
     # 获取管道
     pipeline = get_pipeline("timbre")
@@ -283,9 +341,38 @@ def vevo_voice(content_wav, reference_wav):
     temp_reference_path = "wav/temp_reference.wav"
     output_path = "wav/output_vevovoice.wav"
     # 保存上传的音频
-    torchaudio.save(temp_content_path, content_wav[0], content_wav[1])
-    torchaudio.save(temp_reference_path, reference_wav[0], reference_wav[1])
     # 获取管道
     pipeline = get_pipeline("voice")
@@ -308,11 +395,39 @@ def vevo_tts(text, ref_wav, timbre_ref_wav=None, src_language="en", ref_language
     temp_timbre_path = "wav/temp_timbre.wav"
     output_path = "wav/output_vevotts.wav"
     # 保存上传的音频
-    torchaudio.save(temp_ref_path, ref_wav[0], ref_wav[1])
     if timbre_ref_wav is not None:
-        torchaudio.save(temp_timbre_path, timbre_ref_wav[0], timbre_ref_wav[1])
     else:
         temp_timbre_path = temp_ref_path

     temp_style_path = "wav/temp_style.wav"
     output_path = "wav/output_vevostyle.wav"
+    # 检查并正确处理音频数据
+    if content_wav is None or style_wav is None:
+        raise ValueError("请上传音频文件")
+    # Gradio音频组件返回(sample_rate, data)元组或(data, sample_rate)元组
+    if isinstance(content_wav, tuple) and len(content_wav) == 2:
+        # 确保正确的顺序 (data, sample_rate)
+        if isinstance(content_wav[0], np.ndarray):
+            content_data, content_sr = content_wav
+        else:
+            content_sr, content_data = content_wav
+        content_tensor = torch.FloatTensor(content_data)
+        if content_tensor.ndim == 1:
+            content_tensor = content_tensor.unsqueeze(0)  # 添加通道维度
+    else:
+        raise ValueError("内容音频格式不正确")
+    if isinstance(style_wav, tuple) and len(style_wav) == 2:
+        # 确保正确的顺序 (data, sample_rate)
+        if isinstance(style_wav[0], np.ndarray):
+            style_data, style_sr = style_wav
+        else:
+            style_sr, style_data = style_wav
+        style_tensor = torch.FloatTensor(style_data)
+        if style_tensor.ndim == 1:
+            style_tensor = style_tensor.unsqueeze(0)  # 添加通道维度
+    else:
+        raise ValueError("风格音频格式不正确")
     # 保存上传的音频
+    torchaudio.save(temp_content_path, content_tensor, content_sr)
+    torchaudio.save(temp_style_path, style_tensor, style_sr)
     # 获取管道
     pipeline = get_pipeline("style")
     temp_reference_path = "wav/temp_reference.wav"
     output_path = "wav/output_vevotimbre.wav"
+    # 检查并正确处理音频数据
+    if content_wav is None or reference_wav is None:
+        raise ValueError("请上传音频文件")
+    # Gradio音频组件返回(sample_rate, data)元组或(data, sample_rate)元组
+    if isinstance(content_wav, tuple) and len(content_wav) == 2:
+        # 确保正确的顺序 (data, sample_rate)
+        if isinstance(content_wav[0], np.ndarray):
+            content_data, content_sr = content_wav
+        else:
+            content_sr, content_data = content_wav
+        content_tensor = torch.FloatTensor(content_data)
+        if content_tensor.ndim == 1:
+            content_tensor = content_tensor.unsqueeze(0)  # 添加通道维度
+    else:
+        raise ValueError("内容音频格式不正确")
+    if isinstance(reference_wav, tuple) and len(reference_wav) == 2:
+        # 确保正确的顺序 (data, sample_rate)
+        if isinstance(reference_wav[0], np.ndarray):
+            reference_data, reference_sr = reference_wav
+        else:
+            reference_sr, reference_data = reference_wav
+        reference_tensor = torch.FloatTensor(reference_data)
+        if reference_tensor.ndim == 1:
+            reference_tensor = reference_tensor.unsqueeze(0)  # 添加通道维度
+    else:
+        raise ValueError("参考音频格式不正确")
     # 保存上传的音频
+    torchaudio.save(temp_content_path, content_tensor, content_sr)
+    torchaudio.save(temp_reference_path, reference_tensor, reference_sr)
     # 获取管道
     pipeline = get_pipeline("timbre")
     temp_reference_path = "wav/temp_reference.wav"
     output_path = "wav/output_vevovoice.wav"
+    # 检查并正确处理音频数据
+    if content_wav is None or reference_wav is None:
+        raise ValueError("请上传音频文件")
+    # Gradio音频组件返回(sample_rate, data)元组或(data, sample_rate)元组
+    if isinstance(content_wav, tuple) and len(content_wav) == 2:
+        # 确保正确的顺序 (data, sample_rate)
+        if isinstance(content_wav[0], np.ndarray):
+            content_data, content_sr = content_wav
+        else:
+            content_sr, content_data = content_wav
+        content_tensor = torch.FloatTensor(content_data)
+        if content_tensor.ndim == 1:
+            content_tensor = content_tensor.unsqueeze(0)  # 添加通道维度
+    else:
+        raise ValueError("内容音频格式不正确")
+    if isinstance(reference_wav, tuple) and len(reference_wav) == 2:
+        # 确保正确的顺序 (data, sample_rate)
+        if isinstance(reference_wav[0], np.ndarray):
+            reference_data, reference_sr = reference_wav
+        else:
+            reference_sr, reference_data = reference_wav
+        reference_tensor = torch.FloatTensor(reference_data)
+        if reference_tensor.ndim == 1:
+            reference_tensor = reference_tensor.unsqueeze(0)  # 添加通道维度
+    else:
+        raise ValueError("参考音频格式不正确")
     # 保存上传的音频
+    torchaudio.save(temp_content_path, content_tensor, content_sr)
+    torchaudio.save(temp_reference_path, reference_tensor, reference_sr)
     # 获取管道
     pipeline = get_pipeline("voice")
     temp_timbre_path = "wav/temp_timbre.wav"
     output_path = "wav/output_vevotts.wav"
+    # 检查并正确处理音频数据
+    if ref_wav is None:
+        raise ValueError("请上传参考音频文件")
+    # Gradio音频组件返回(sample_rate, data)元组或(data, sample_rate)元组
+    if isinstance(ref_wav, tuple) and len(ref_wav) == 2:
+        # 确保正确的顺序 (data, sample_rate)
+        if isinstance(ref_wav[0], np.ndarray):
+            ref_data, ref_sr = ref_wav
+        else:
+            ref_sr, ref_data = ref_wav
+        ref_tensor = torch.FloatTensor(ref_data)
+        if ref_tensor.ndim == 1:
+            ref_tensor = ref_tensor.unsqueeze(0)  # 添加通道维度
+    else:
+        raise ValueError("参考音频格式不正确")
     # 保存上传的音频
+    torchaudio.save(temp_ref_path, ref_tensor, ref_sr)
     if timbre_ref_wav is not None:
+        if isinstance(timbre_ref_wav, tuple) and len(timbre_ref_wav) == 2:
+            # 确保正确的顺序 (data, sample_rate)
+            if isinstance(timbre_ref_wav[0], np.ndarray):
+                timbre_data, timbre_sr = timbre_ref_wav
+            else:
+                timbre_sr, timbre_data = timbre_ref_wav
+            timbre_tensor = torch.FloatTensor(timbre_data)
+            if timbre_tensor.ndim == 1:
+                timbre_tensor = timbre_tensor.unsqueeze(0)  # 添加通道维度
+            torchaudio.save(temp_timbre_path, timbre_tensor, timbre_sr)
+        else:
+            raise ValueError("音色参考音频格式不正确")
     else:
         temp_timbre_path = temp_ref_path