Spaces:

murasamesamada
/

vits

Runtime error

App Files Files Community

ikechan8370 commited on Mar 23, 2023

Commit

b772f7c

1 Parent(s): 7e90749

feat: add support for gpu

Browse files

Files changed (1) hide show

app.py +8 -7

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# coding=utf-8
 import time
 import gradio as gr
 import utils
@@ -6,14 +5,16 @@ import commons
 from models import SynthesizerTrn
 from text import text_to_sequence
 from torch import no_grad, LongTensor
 hps_ms = utils.get_hparams_from_file(r'./model/config.json')
 net_g_ms = SynthesizerTrn(
     len(hps_ms.symbols),
     hps_ms.data.filter_length // 2 + 1,
     hps_ms.train.segment_size // hps_ms.data.hop_length,
     n_speakers=hps_ms.data.n_speakers,
-    **hps_ms.model)
 _ = net_g_ms.eval()
 speakers = hps_ms.speakers
 model, optimizer, learning_rate, epochs = utils.load_checkpoint(r'./model/G_953000.pth', net_g_ms, None)
@@ -30,7 +31,7 @@ def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
     if not len(text):
         return "输入文本不能为空！", None, None
     text = text.replace('\n', ' ').replace('\r', '').replace(" ", "")
-    if len(text) > 300:
         return f"输入文字过长！{len(text)}>100", None, None
     if language == 0:
         text = f"[ZH]{text}[ZH]"
@@ -44,7 +45,7 @@ def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
         x_tst_lengths = LongTensor([stn_tst.size(0)])
         speaker_id = LongTensor([speaker_id])
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=speaker_id, noise_scale=noise_scale, noise_scale_w=noise_scale_w,
-                               length_scale=length_scale)[0][0, 0].data.float().numpy()
     return "生成成功!", (22050, audio), f"生成耗时 {round(time.perf_counter()-start, 2)} s"
@@ -116,8 +117,8 @@ if __name__ == '__main__':
                         download = gr.Button("Download Audio")
                     btn.click(vits, inputs=[input_text, lang, sid, ns, nsw, ls], outputs=[o1, o2, o3], api_name="generate")
                     download.click(None, [], [], _js=download_audio_js.format())
-                    btn2.click(search_speaker, inputs=[search], outputs=[sid], api_name="search_speaker")
-                    lang.change(change_lang, inputs=[lang], outputs=[ns, nsw, ls], api_name="fuck")
             with gr.TabItem("可用人物一览"):
                 gr.Radio(label="Speaker", choices=speakers, interactive=False, type="index")
-    app.queue(concurrency_count=1).launch()

 import time
 import gradio as gr
 import utils
 from models import SynthesizerTrn
 from text import text_to_sequence
 from torch import no_grad, LongTensor
+import torch
 hps_ms = utils.get_hparams_from_file(r'./model/config.json')
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 net_g_ms = SynthesizerTrn(
     len(hps_ms.symbols),
     hps_ms.data.filter_length // 2 + 1,
     hps_ms.train.segment_size // hps_ms.data.hop_length,
     n_speakers=hps_ms.data.n_speakers,
+    **hps_ms.model).to(device)
 _ = net_g_ms.eval()
 speakers = hps_ms.speakers
 model, optimizer, learning_rate, epochs = utils.load_checkpoint(r'./model/G_953000.pth', net_g_ms, None)
     if not len(text):
         return "输入文本不能为空！", None, None
     text = text.replace('\n', ' ').replace('\r', '').replace(" ", "")
+    if len(text) > 500:
         return f"输入文字过长！{len(text)}>100", None, None
     if language == 0:
         text = f"[ZH]{text}[ZH]"
         x_tst_lengths = LongTensor([stn_tst.size(0)])
         speaker_id = LongTensor([speaker_id])
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=speaker_id, noise_scale=noise_scale, noise_scale_w=noise_scale_w,
+                               length_scale=length_scale)[0][0, 0].data.cpu().float().numpy()
     return "生成成功!", (22050, audio), f"生成耗时 {round(time.perf_counter()-start, 2)} s"
                         download = gr.Button("Download Audio")
                     btn.click(vits, inputs=[input_text, lang, sid, ns, nsw, ls], outputs=[o1, o2, o3], api_name="generate")
                     download.click(None, [], [], _js=download_audio_js.format())
+                    btn2.click(search_speaker, inputs=[search], outputs=[sid])
+                    lang.change(change_lang, inputs=[lang], outputs=[ns, nsw, ls])
             with gr.TabItem("可用人物一览"):
                 gr.Radio(label="Speaker", choices=speakers, interactive=False, type="index")
+    app.queue(concurrency_count=1).launch()