Spaces:

Difficult-Burger
/

vevo-test

Build error

App Files Files Community

积极的屁孩 commited on Apr 16, 2025

Commit

65b6204

1 Parent(s): fbb3473

add links and style ref text for vevo-tts

Browse files

Files changed (1) hide show

app.py +39 -6

app.py CHANGED Viewed

@@ -525,7 +525,7 @@ def vevo_voice(content_wav, style_reference_wav, timbre_reference_wav):
         traceback.print_exc()
         raise e
-def vevo_tts(text, ref_wav, timbre_ref_wav=None, src_language="en", ref_language="en"):
     temp_ref_path = "wav/temp_ref.wav"
     temp_timbre_path = "wav/temp_timbre.wav"
     output_path = "wav/output_vevotts.wav"
@@ -560,6 +560,8 @@ def vevo_tts(text, ref_wav, timbre_ref_wav=None, src_language="en", ref_language
     # 打印debug信息
     print(f"Reference audio shape: {ref_tensor.shape}, sample rate: {ref_sr}")
     # 保存上传的音频
     torchaudio.save(temp_ref_path, ref_tensor, ref_sr)
@@ -603,7 +605,7 @@ def vevo_tts(text, ref_wav, timbre_ref_wav=None, src_language="en", ref_language
             src_text=text,
             style_ref_wav_path=temp_ref_path,
             timbre_ref_wav_path=temp_timbre_path,
-            style_ref_wav_text=None,
             src_text_language=src_language,
             style_ref_wav_text_language=ref_language,
         )
@@ -626,9 +628,39 @@ def vevo_tts(text, ref_wav, timbre_ref_wav=None, src_language="en", ref_language
         raise e
 # 创建Gradio界面
-with gr.Blocks(title="VEVO DEMO") as demo:
-    gr.Markdown("# VEVO DEMO")
     with gr.Tab("Vevo-Timbre"):
         gr.Markdown("### Vevo-Timbre: Maintain style but transfer timbre")
         with gr.Row():
@@ -674,13 +706,14 @@ with gr.Blocks(title="VEVO DEMO") as demo:
                 tts_reference = gr.Audio(label="Style Reference", type="numpy")
                 tts_timbre_reference = gr.Audio(label="Timbre Reference", type="numpy")
                 tts_ref_language = gr.Dropdown(["en", "zh", "de", "fr", "ja", "ko"], label="Reference Audio Language", value="en")
                 tts_button = gr.Button("Generate")
             with gr.Column():
                 tts_output = gr.Audio(label="Result")
         tts_button.click(
             vevo_tts,
-            inputs=[tts_text, tts_reference, tts_timbre_reference, tts_src_language, tts_ref_language],
             outputs=tts_output
         )

         traceback.print_exc()
         raise e
+def vevo_tts(text, ref_wav, timbre_ref_wav=None, style_ref_text=None, src_language="en", ref_language="en"):
     temp_ref_path = "wav/temp_ref.wav"
     temp_timbre_path = "wav/temp_timbre.wav"
     output_path = "wav/output_vevotts.wav"
     # 打印debug信息
     print(f"Reference audio shape: {ref_tensor.shape}, sample rate: {ref_sr}")
+    if style_ref_text:
+        print(f"Style reference text: {style_ref_text}")
     # 保存上传的音频
     torchaudio.save(temp_ref_path, ref_tensor, ref_sr)
             src_text=text,
             style_ref_wav_path=temp_ref_path,
             timbre_ref_wav_path=temp_timbre_path,
+            style_ref_wav_text=style_ref_text,
             src_text_language=src_language,
             style_ref_wav_text_language=ref_language,
         )
         raise e
 # 创建Gradio界面
+with gr.Blocks(title="Vevo DEMO") as demo:
+    gr.Markdown("# Vevo DEMO")
+    # 添加链接标签行
+    with gr.Row(elem_id="links_row"):
+        gr.HTML("""
+        <div style="display: flex; justify-content: center; gap: 10px; margin-bottom: 20px;">
+            <a href="https://arxiv.org/abs/2502.07243" target="_blank" style="text-decoration: none;">
+                <div style="background-color: #4a4a4a; color: white; padding: 5px 10px; border-radius: 5px; display: flex; align-items: center;">
+                    <span style="background-color: #c44e52; padding: 5px 10px; border-radius: 0 5px 5px 0; margin-left: 5px;">Paper</span>
+                    <span style="padding: 5px 10px;">arXiv</span>
+                </div>
+            </a>
+            <a href="https://openreview.net/pdf?id=anQDiQZhDP" target="_blank" style="text-decoration: none;">
+                <div style="background-color: #4a4a4a; color: white; padding: 5px 10px; border-radius: 5px; display: flex; align-items: center;">
+                    <span style="background-color: #55a868; padding: 5px 10px; border-radius: 0 5px 5px 0; margin-left: 5px;">Paper</span>
+                    <span style="padding: 5px 10px;">ICLR</span>
+                </div>
+            </a>
+            <a href="https://huggingface.co/amphion/Vevo" target="_blank" style="text-decoration: none;">
+                <div style="background-color: #4a4a4a; color: white; padding: 5px 10px; border-radius: 5px; display: flex; align-items: center;">
+                    <span style="background-color: #eeca3b; padding: 5px 10px; border-radius: 0 5px 5px 0; margin-left: 5px;">Model</span>
+                    <span style="padding: 5px 10px;">HuggingFace</span>
+                </div>
+            </a>
+            <a href="https://github.com/open-mmlab/Amphion/tree/main/models/vc/vevo" target="_blank" style="text-decoration: none;">
+                <div style="background-color: #4a4a4a; color: white; padding: 5px 10px; border-radius: 5px; display: flex; align-items: center;">
+                    <span style="background-color: #4c72b0; padding: 5px 10px; border-radius: 0 5px 5px 0; margin-left: 5px;">Repo</span>
+                    <span style="padding: 5px 10px;">GitHub</span>
+                </div>
+            </a>
+        </div>
+        """)
     with gr.Tab("Vevo-Timbre"):
         gr.Markdown("### Vevo-Timbre: Maintain style but transfer timbre")
         with gr.Row():
                 tts_reference = gr.Audio(label="Style Reference", type="numpy")
                 tts_timbre_reference = gr.Audio(label="Timbre Reference", type="numpy")
                 tts_ref_language = gr.Dropdown(["en", "zh", "de", "fr", "ja", "ko"], label="Reference Audio Language", value="en")
+                tts_style_ref_text = gr.Textbox(label="Style Reference Text", placeholder="Enter style reference text...", lines=3)
                 tts_button = gr.Button("Generate")
             with gr.Column():
                 tts_output = gr.Audio(label="Result")
         tts_button.click(
             vevo_tts,
+            inputs=[tts_text, tts_reference, tts_timbre_reference, tts_style_ref_text, tts_src_language, tts_ref_language],
             outputs=tts_output
         )