Spaces:

pyInter
/

Liyuu_sovits4

Runtime error

App Files Files Community

laiwu commited on Feb 25, 2023

Commit

c35279b

1 Parent(s): cf817d2

Update files for Liyuu model.

Browse files

Files changed (3) hide show

app.py +5 -5
configs/config.json +92 -63
logs/44k/kmeans_10000.pt +0 -3

app.py CHANGED Viewed

@@ -14,7 +14,7 @@ logging.getLogger('markdown_it').setLevel(logging.WARNING)
 logging.getLogger('urllib3').setLevel(logging.WARNING)
 logging.getLogger('matplotlib').setLevel(logging.WARNING)
-model = Svc("logs/44k/G_114400.pth", "configs/config.json", cluster_model_path="logs/44k/kmeans_10000.pt")
@@ -40,7 +40,7 @@ def vc_fn(sid, input_audio, vc_transform, auto_f0,cluster_ratio, noise_scale):
                                    auto_predict_f0=auto_f0,
                                    noice_scale=noise_scale
                                    )
-    return "Success", (44100, out_audio.numpy())
 app = gr.Blocks()
@@ -48,12 +48,12 @@ with app:
     with gr.Tabs():
         with gr.TabItem("Basic"):
             gr.Markdown(value="""
-                sovits4.0 在线demo
-                此demo为预训练底模在线demo，使用数据：云灏 即霜 辉宇·星AI 派蒙 绫地宁宁
                 """)
             spks = list(model.spk2id.keys())
-            sid = gr.Dropdown(label="音色", choices=["nen", "yunhao","paimon", "huiyu","jishuang"], value="yunhao")
             vc_input3 = gr.Audio(label="上传音频（长度小于45秒）")
             vc_transform = gr.Number(label="变调（整数，可以正负，半音数量，升高八度就是12）", value=0)
             cluster_ratio = gr.Number(label="聚类模型混合比例，0-1之间，默认为0不启用聚类，能提升音色相似度，但会导致咬字下降（如果使用建议0.5左右）", value=0)

 logging.getLogger('urllib3').setLevel(logging.WARNING)
 logging.getLogger('matplotlib').setLevel(logging.WARNING)
+model = Svc("logs/44k/G_97600.pth", "configs/config.json", cluster_model_path="logs/44k/kmeans_10000.pt")
                                    auto_predict_f0=auto_f0,
                                    noice_scale=noise_scale
                                    )
+    return "Success", (44100, out_audio.cpu().numpy())
 app = gr.Blocks()
     with gr.Tabs():
         with gr.TabItem("Basic"):
             gr.Markdown(value="""
+                Liyuu sovits4.0 在线demo
+                使用中文直播录音训练，目前未包含聚类模型（咕咕咕）
                 """)
             spks = list(model.spk2id.keys())
+            sid = gr.Dropdown(label="音色", choices=["liyuu"], value="liyuu")
             vc_input3 = gr.Audio(label="上传音频（长度小于45秒）")
             vc_transform = gr.Number(label="变调（整数，可以正负，半音数量，升高八度就是12）", value=0)
             cluster_ratio = gr.Number(label="聚类模型混合比例，0-1之间，默认为0不启用聚类，能提升音色相似度，但会导致咬字下降（如果使用建议0.5左右）", value=0)

configs/config.json CHANGED Viewed

@@ -1,64 +1,93 @@
-{
-  "train": {
-    "log_interval": 200,
-    "eval_interval": 800,
-    "seed": 1234,
-    "epochs": 10000,
-    "learning_rate": 0.0001,
-    "betas": [
-      0.8,
-      0.99
-    ],
-    "eps": 1e-09,
-    "batch_size": 6,
-    "fp16_run": false,
-    "lr_decay": 0.999875,
-    "segment_size": 10240,
-    "init_lr_ratio": 1,
-    "warmup_epochs": 0,
-    "c_mel": 45,
-    "c_kl": 1.0,
-    "use_sr": true,
-    "max_speclen": 512,
-    "port": "8001"
-  },
-  "data": {
-    "training_files": "filelists/train.txt",
-    "validation_files": "filelists/val.txt",
-    "max_wav_value": 32768.0,
-    "sampling_rate": 44100,
-    "filter_length": 2048,
-    "hop_length": 512,
-    "win_length": 2048,
-    "n_mel_channels": 80,
-    "mel_fmin": 0.0,
-    "mel_fmax": 22050
-  },
-  "model": {
-    "inter_channels": 192,
-    "hidden_channels": 192,
-    "filter_channels": 768,
-    "n_heads": 2,
-    "n_layers": 6,
-    "kernel_size": 3,
-    "p_dropout": 0.1,
-    "resblock": "1",
-    "resblock_kernel_sizes": [3,7,11],
-    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
-    "upsample_rates": [ 8, 8, 2, 2, 2],
-    "upsample_initial_channel": 512,
-    "upsample_kernel_sizes": [16,16, 4, 4, 4],
-    "n_layers_q": 3,
-    "use_spectral_norm": false,
-    "gin_channels": 256,
-    "ssl_dim": 256,
-    "n_speakers": 200
-  },
-  "spk": {
-    "jishuang": 0,
-    "huiyu": 1,
-    "nen": 2,
-    "paimon": 3,
-    "yunhao": 4
-  }
 }

+{
+  "train": {
+    "log_interval": 200,
+    "eval_interval": 800,
+    "seed": 1234,
+    "epochs": 10000,
+    "learning_rate": 0.0001,
+    "betas": [
+      0.8,
+      0.99
+    ],
+    "eps": 1e-09,
+    "batch_size": 6,
+    "fp16_run": false,
+    "lr_decay": 0.999875,
+    "segment_size": 10240,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "use_sr": true,
+    "max_speclen": 512,
+    "port": "8001",
+    "keep_ckpts": 0
+  },
+  "data": {
+    "training_files": "filelists/train.txt",
+    "validation_files": "filelists/val.txt",
+    "max_wav_value": 32768.0,
+    "sampling_rate": 44100,
+    "filter_length": 2048,
+    "hop_length": 512,
+    "win_length": 2048,
+    "n_mel_channels": 80,
+    "mel_fmin": 0.0,
+    "mel_fmax": 22050
+  },
+  "model": {
+    "inter_channels": 192,
+    "hidden_channels": 192,
+    "filter_channels": 768,
+    "n_heads": 2,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [
+      3,
+      7,
+      11
+    ],
+    "resblock_dilation_sizes": [
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ],
+      [
+        1,
+        3,
+        5
+      ]
+    ],
+    "upsample_rates": [
+      8,
+      8,
+      2,
+      2,
+      2
+    ],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [
+      16,
+      16,
+      4,
+      4,
+      4
+    ],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 256,
+    "ssl_dim": 256,
+    "n_speakers": 200
+  },
+  "spk": {
+    "liyuu": 0
+  }
 }

logs/44k/kmeans_10000.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f1d6ee9c62e091257a4e68d3d2b5c593a215fc503bab7271cae772fac35345b2
-size 77120889