Spaces:

Plachta
/

VITS-Umamusume-voice-synthesizer

Running

@@ -201,7 +201,7 @@ if __name__ == "__main__":
                                                           placeholder="Type your sentence here (Maximum 150 words)",
                                                           value="こんにちわ。", elem_id=f"tts-input")
                                     with gr.Accordion(label="Phoneme Input", open=False):
-                                        temp_text_var = gr.State()
                                         symbol_input = gr.Checkbox(value=False, label="Symbol input")
                                         symbol_list = gr.Dataset(label="Symbol list", components=[textbox],
                                                                  samples=[[x] for x in symbols],
@@ -210,7 +210,29 @@ if __name__ == "__main__":
                                     symbol_input.change(to_symbol_fn,
                                                         [symbol_input, textbox, temp_text_var],
                                                         [textbox, temp_text_var])
-                                    symbol_list.click(None, [symbol_list, symbol_list_json], textbox,)
                                     # select character
                                     char_dropdown = gr.Dropdown(choices=speakers, value=speakers[0], label='character')
                                     language_dropdown = gr.Dropdown(choices=lang, value=lang[0], label='language')
@@ -231,4 +253,4 @@ if __name__ == "__main__":
                                 outputs=[text_output, audio_output],
                                 fn=tts_fn
                             )
-    app.queue(max_size=3).launch(show_api=False, share=args.share)

                                                           placeholder="Type your sentence here (Maximum 150 words)",
                                                           value="こんにちわ。", elem_id=f"tts-input")
                                     with gr.Accordion(label="Phoneme Input", open=False):
+                                        temp_text_var = gr.Variable()
                                         symbol_input = gr.Checkbox(value=False, label="Symbol input")
                                         symbol_list = gr.Dataset(label="Symbol list", components=[textbox],
                                                                  samples=[[x] for x in symbols],
                                     symbol_input.change(to_symbol_fn,
                                                         [symbol_input, textbox, temp_text_var],
                                                         [textbox, temp_text_var])
+                                    symbol_list.click(None, [symbol_list, symbol_list_json], textbox,
+                                                      _js=f"""
+                                    (i, symbols, text) => {{
+                                        let root = document.querySelector("body > gradio-app");
+                                        if (root.shadowRoot != null)
+                                            root = root.shadowRoot;
+                                        let text_input = root.querySelector("#tts-input").querySelector("textarea");
+                                        let startPos = text_input.selectionStart;
+                                        let endPos = text_input.selectionEnd;
+                                        let oldTxt = text_input.value;
+                                        let result = oldTxt.substring(0, startPos) + symbols[i] + oldTxt.substring(endPos);
+                                        text_input.value = result;
+                                        let x = window.scrollX, y = window.scrollY;
+                                        text_input.focus();
+                                        text_input.selectionStart = startPos + symbols[i].length;
+                                        text_input.selectionEnd = startPos + symbols[i].length;
+                                        text_input.blur();
+                                        window.scrollTo(x, y);
+                                        text = text_input.value;
+                                        return text;
+                                    }}""")
                                     # select character
                                     char_dropdown = gr.Dropdown(choices=speakers, value=speakers[0], label='character')
                                     language_dropdown = gr.Dropdown(choices=lang, value=lang[0], label='language')
                                 outputs=[text_output, audio_output],
                                 fn=tts_fn
                             )
+    app.queue(concurrency_count=3).launch(show_api=False, share=args.share)

requirements.txt CHANGED Viewed

@@ -1,7 +1,7 @@
 numba
 librosa
 matplotlib
-numpy==1.26.4
 phonemizer
 scipy
 tensorboard
@@ -9,7 +9,7 @@ torch
 torchvision
 torchaudio
 unidecode
-pyopenjtalk-prebuilt
 jamo
 pypinyin
 ko_pron

 numba
 librosa
 matplotlib
+numpy
 phonemizer
 scipy
 tensorboard
 torchvision
 torchaudio
 unidecode
+pyopenjtalk>=0.3.0
 jamo
 pypinyin
 ko_pron