explore-vits

Paused

App Files Files Community

ylacombe commited on Nov 29, 2023

Commit

865af48

1 Parent(s): aeeb0c4

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -35

app.py CHANGED Viewed

@@ -98,8 +98,9 @@ css = """
 # Gradio blocks demo
 with gr.Blocks(css=css) as demo_blocks:
-    with gr.Column(elem_id="container"):
-        gr.Markdown(title, elem_id="intro")
         with gr.Column():
             inp_text = gr.Textbox(label="Input Text", info="What would you like VITS to synthesise?")
             btn = gr.Button("Generate Audio!")
@@ -117,46 +118,46 @@ with gr.Blocks(css=css) as demo_blocks:
                 outputs.append(out_audio)
-        gr.Markdown("""
-            ## Datasets and models details
-            ### English
-            * **Model**: [VITS-ljs](https://huggingface.co/kakao-enterprise/vits-ljs)
-            * **Dataset**: [British Isles Accent](https://huggingface.co/datasets/ylacombe/english_dialects). For each accent, we used 100 to 150 samples of a single speaker to finetune [VITS-ljs](https://huggingface.co/kakao-enterprise/vits-ljs).
-            ### Spanish
-            * **Model**: [Spanish MMS TTS](https://huggingface.co/facebook/mms-tts-spa). This model is part of Facebook's [Massively Multilingual Speech](https://arxiv.org/abs/2305.13516) project, aiming to
 provide speech technology across a diverse range of languages. You can find more details about the supported languages
 and their ISO 639-3 codes in the [MMS Language Coverage Overview](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html),
 and see all MMS-TTS checkpoints on the Hugging Face Hub: [facebook/mms-tts](https://huggingface.co/models?sort=trending&search=facebook%2Fmms-tts).
-            * **Datasets**:  For each accent, we used 100 to 150 samples of a single speaker to finetune the model.
-                - [Colombian Spanish TTS dataset](https://huggingface.co/datasets/ylacombe/google-colombian-spanish).
-                - [Argentinian Spanish TTS dataset](https://huggingface.co/datasets/ylacombe/google-argentinian-spanish).
-                - [Chilean Spanish TTS dataset](https://huggingface.co/datasets/ylacombe/google-chilean-spanish).
-            """)
-        with gr.Accordion("Run with transformers"):
-            gr.Markdown(
-                """## Running VITS and MMS with transformers
-            ```bash
-            pip install transformers
-            ```
-            ```py
-            from transformers import pipeline
-            import scipy
-            pipe = pipeline("text-to-speech", model="kakao-enterprise/vits-ljs", device=0)
-            results = pipe("A cinematic shot of a baby racoon wearing an intricate italian priest robe")
-            # write to a wav file
-            scipy.io.wavfile.write("audio_vits.wav", rate=results["sampling_rate"], data=results["audio"].squeeze())
-            ```
-            """
-            )
     btn.click(generate_audio, [inp_text, language], outputs)

 # Gradio blocks demo
 with gr.Blocks(css=css) as demo_blocks:
+    gr.Markdown(title, elem_id="intro")
+    with gr.Row():
         with gr.Column():
             inp_text = gr.Textbox(label="Input Text", info="What would you like VITS to synthesise?")
             btn = gr.Button("Generate Audio!")
                 outputs.append(out_audio)
+    gr.Markdown("""
+        ## Datasets and models details
+        ### English
+        * **Model**: [VITS-ljs](https://huggingface.co/kakao-enterprise/vits-ljs)
+        * **Dataset**: [British Isles Accent](https://huggingface.co/datasets/ylacombe/english_dialects). For each accent, we used 100 to 150 samples of a single speaker to finetune [VITS-ljs](https://huggingface.co/kakao-enterprise/vits-ljs).
+        ### Spanish
+        * **Model**: [Spanish MMS TTS](https://huggingface.co/facebook/mms-tts-spa). This model is part of Facebook's [Massively Multilingual Speech](https://arxiv.org/abs/2305.13516) project, aiming to
 provide speech technology across a diverse range of languages. You can find more details about the supported languages
 and their ISO 639-3 codes in the [MMS Language Coverage Overview](https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html),
 and see all MMS-TTS checkpoints on the Hugging Face Hub: [facebook/mms-tts](https://huggingface.co/models?sort=trending&search=facebook%2Fmms-tts).
+        * **Datasets**:  For each accent, we used 100 to 150 samples of a single speaker to finetune the model.
+            - [Colombian Spanish TTS dataset](https://huggingface.co/datasets/ylacombe/google-colombian-spanish).
+            - [Argentinian Spanish TTS dataset](https://huggingface.co/datasets/ylacombe/google-argentinian-spanish).
+            - [Chilean Spanish TTS dataset](https://huggingface.co/datasets/ylacombe/google-chilean-spanish).
+        """)
+    with gr.Accordion("Run with transformers"):
+        gr.Markdown(
+            """## Running VITS and MMS with transformers
+        ```bash
+        pip install transformers
+        ```
+        ```py
+        from transformers import pipeline
+        import scipy
+        pipe = pipeline("text-to-speech", model="kakao-enterprise/vits-ljs", device=0)
+        results = pipe("A cinematic shot of a baby racoon wearing an intricate italian priest robe")
+        # write to a wav file
+        scipy.io.wavfile.write("audio_vits.wav", rate=results["sampling_rate"], data=results["audio"].squeeze())
+        ```
+        """
+        )
     btn.click(generate_audio, [inp_text, language], outputs)