Spaces:

yukie
/

yukie-sovits3

Runtime error

App Files Files Community

yukie commited on Jan 17, 2023

Commit

272e838

1 Parent(s): 0e4d01f

feat: update new choice for sts

Browse files

Files changed (4) hide show

app.py +25 -14
inference_main.py +59 -0
local.md +36 -0
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -4,18 +4,21 @@ import gradio as gr
 import librosa
 import numpy as np
 import soundfile
-import torch
 from inference.infer_tool import Svc
 import logging
 logging.getLogger('numba').setLevel(logging.WARNING)
-model_name = "logs/32k/talk1.pth"
 config_name = "configs/config.json"
-svc_model = Svc(model_name, config_name)
 sid_map = {
-    "yukie": "yukie"
 }
@@ -25,20 +28,25 @@ def vc_fn(sid, input_audio, vc_transform):
     sampling_rate, audio = input_audio
     # print(audio.shape,sampling_rate)
     duration = audio.shape[0] / sampling_rate
-    if duration > 45:
-        return "请上传小于45s的音频，需要转换长音频请本地进行转换", None
     audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
     if len(audio.shape) > 1:
         audio = librosa.to_mono(audio.transpose(1, 0))
     if sampling_rate != 32000:
         audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=32000)
     print(audio.shape)
     out_wav_path = io.BytesIO()
     soundfile.write(out_wav_path, audio, 32000, format="wav")
     out_wav_path.seek(0)
-    sid = sid_map[sid]
-    out_audio, out_sr = svc_model.infer(sid, vc_transform, out_wav_path)
     _audio = out_audio.cpu().numpy()
     return "Success", (32000, _audio)
@@ -60,8 +68,11 @@ with app:
                 # start！
                 上传一段干音（45s以内），然后点击提交即可开始推理！
                 """)
-            sid = gr.Dropdown(label="音色", choices=["yukie"], value="yukie")
             vc_input3 = gr.Audio(label="上传音频（长度小于45秒）")
             vc_transform = gr.Number(
                 label="变调（整数，可以正负，半音数量，升高八度就是12）", value=0)
@@ -70,13 +81,13 @@ with app:
             vc_output2 = gr.Audio(label="Output Audio")
             gr.Markdown(value="""
                 ## 注意
-                请使用无bgm，纯人声的音频来进行测试，且本模型无法识别出带有和声的部分，使用较高品质干净的纯人声会有更好的体验
-                如果要在本地使用该demo，请使用  `git lfs clone` 该仓库，安装requirements.txt后命令行运行`python ./app.py`即可
-                如果需要使用gpu进行推理，可能需要额外去安装gpu版本的pytorch以及对应cuda依赖等
-                本地合成可以删除26、27两行代码以解除合成45s长度限制，也可以自行使用inference_main.py来推理
                 """)
         vc_submit.click(vc_fn, [sid, vc_input3, vc_transform], [
                         vc_output1, vc_output2])

 import librosa
 import numpy as np
 import soundfile
 from inference.infer_tool import Svc
 import logging
+from logmmse import logmmse
 logging.getLogger('numba').setLevel(logging.WARNING)
+model_sing = "logs/32k/sing1.pth"
+model_talk = "logs/32k/talk1.pth"
 config_name = "configs/config.json"
+svc_sing = Svc(model_sing, config_name)
+svc_talk = Svc(model_talk, config_name)
 sid_map = {
+    "唱歌": "yukie",
+    "杂谈": "yukie"
 }
     sampling_rate, audio = input_audio
     # print(audio.shape,sampling_rate)
     duration = audio.shape[0] / sampling_rate
+    if duration > 60:
+        return "请上传小于60s的音频，需要转换长音频请本地进行转换", None
     audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
     if len(audio.shape) > 1:
         audio = librosa.to_mono(audio.transpose(1, 0))
     if sampling_rate != 32000:
         audio = librosa.resample(audio, orig_sr=sampling_rate, target_sr=32000)
+    audio = logmmse(audio, 32000)
     print(audio.shape)
     out_wav_path = io.BytesIO()
     soundfile.write(out_wav_path, audio, 32000, format="wav")
     out_wav_path.seek(0)
+    if sid == "唱歌":
+        out_audio, _out_sr = svc_sing.infer(
+            "yukie", vc_transform, out_wav_path)
+    else:
+        out_audio, _out_sr = svc_talk.infer(
+            "yukie", vc_transform, out_wav_path)
     _audio = out_audio.cpu().numpy()
     return "Success", (32000, _audio)
                 # start！
                 上传一段干音（45s以内），然后点击提交即可开始推理！
+                请使用无bgm，纯人声的音频来进行测试，且本模型无法识别出带有和声的部分，使用较高品质干净的纯人声会有更好的体验
                 """)
+            sid = gr.Dropdown(label="音色", choices=[
+                              "唱歌", "杂谈"], value="唱歌")
             vc_input3 = gr.Audio(label="上传音频（长度小于45秒）")
             vc_transform = gr.Number(
                 label="变调（整数，可以正负，半音数量，升高八度就是12）", value=0)
             vc_output2 = gr.Audio(label="Output Audio")
             gr.Markdown(value="""
                 ## 注意
+                在线版只简单的使用logmmse进行降噪处理，与本地处理的方式有所不同，同时限制了最大处理时间为45s
+                如果要在本地使用该demo，请使用  `git lfs clone https://huggingface.co/spaces/yukie/yukie-sovits3`克隆该仓库([简单教程](https://huggingface.co/spaces/yukie/yukie-sovits3/edit/main/local.md))
+                # todo:
+                1. 降噪算法优化
+                2. 内部逻辑优化，使得在线平台性能较差情况下支持60s以上的片段，同时减少计算时间
                 """)
         vc_submit.click(vc_fn, [sid, vc_input3, vc_transform], [
                         vc_output1, vc_output2])

inference_main.py ADDED Viewed

	@@ -0,0 +1,59 @@

+import io
+import logging
+import time
+from pathlib import Path
+import librosa
+import numpy as np
+import soundfile
+from inference import infer_tool
+from inference import slicer
+from inference.infer_tool import Svc
+logging.getLogger('numba').setLevel(logging.WARNING)
+chunks_dict = infer_tool.read_temp("inference/chunks_temp.json")
+model_path = "logs/32k/sing1.pth"
+config_path = "configs/config.json"
+svc_model = Svc(model_path, config_path)
+infer_tool.mkdir(["raw", "results"])
+# 支持多个wav文件，放在raw文件夹下，并修改clean_names为对应文件名（不需要文件后缀）
+clean_names = ["cccc1"]
+trans = [0]  # 音高调整，支持正负（半音）
+spk_list = ['yukie']  # 每次同时合成多语者音色
+slice_db = -40  # 默认-40，嘈杂的音频可以-30，干声保留呼吸可以-50
+wav_format = 'flac'  # 音频输出格式
+infer_tool.fill_a_to_b(trans, clean_names)
+for clean_name, tran in zip(clean_names, trans):
+    raw_audio_path = f"raw/{clean_name}"
+    if "." not in raw_audio_path:
+        raw_audio_path += ".wav"
+    infer_tool.format_wav(raw_audio_path)
+    wav_path = Path(raw_audio_path).with_suffix('.wav')
+    chunks = slicer.cut(wav_path, db_thresh=slice_db)
+    audio_data, audio_sr = slicer.chunks2audio(wav_path, chunks)
+    for spk in spk_list:
+        audio = []
+        for (slice_tag, data) in audio_data:
+            print(
+                f'#=====segment start, {round(len(data) / audio_sr, 3)}s======')
+            length = int(
+                np.ceil(len(data) / audio_sr * svc_model.target_sample))
+            raw_path = io.BytesIO()
+            soundfile.write(raw_path, data, audio_sr, format="wav")
+            raw_path.seek(0)
+            if slice_tag:
+                print('jump empty segment')
+                _audio = np.zeros(length)
+            else:
+                out_audio, out_sr = svc_model.infer(spk, tran, raw_path)
+                _audio = out_audio.cpu().numpy()
+            audio.extend(list(_audio))
+        res_path = f'./results/{clean_name}_{tran}key_{spk}-6-1.{wav_format}'
+        soundfile.write(res_path, audio,
+                        svc_model.target_sample, format=wav_format)

local.md ADDED Viewed

	@@ -0,0 +1,36 @@

+# 前言
+本教程用于简单的本地推理使用，适合全新环境下使用
+# START！
+## step0
+先行安装python环境`https://www.python.org/ftp/python/3.9.9/python-3.9.9-amd64.exe`，下载后安装，全部都默认即可
+这里版本也可以自行选择，但是尽量不要选择3.10及以上版本，又可能有部分依赖高版本有问题
+## step1
+`win + r`后输入`powershell`进入终端，当然是win11系统下输入`wt`会有更好体验
+然后使用`git clone https://huggingface.co/spaces/yukie/yukie-talk`克隆该项目到本地，如果提示找不到git，需要自行下载安装git
+下载完成后，使用`cd <项目地址>`进入项目文件夹（eg. "cd ./yukie-talk"）
+## step2
+输入`pip install -r requirements.txt`安装对应依赖，没有梯子的话速度会比较慢，可以自行百度搜索python换源，这里不做演示
+这一步可能会出现较多问题，但都是各自计算机系统环境不同，难以直接列出，需要各自自行查找解决方案
+## step3
+理论上完成上一步后,wt中使用cd命令进入该项目解压后的文件夹（eg. "cd D:\Coding\yukie-sovits"），就可以`python ./app.py`直接运行了
+需要进阶处理时，则使用`python ./inference_main.py`,这里需要一定的编程基础更佳，需要自行修改inference_main.py中参数（clean_names等）
+但是由于本地环境的不同，会出现各自不同的问题，这里列出其中一部分
+1. 输入文件为mp3等无法进行推理：
+这是由于默认只支持wav格式，而使用mp3等需要电脑环境中有ffmpeg，需要下载ffempg（https://www.gyan.dev/ffmpeg/builds/packages/ffmpeg-5.1.2-full_build.7z），然后解压出后将其中bin文件夹加入系统path中
+1. 其他

requirements.txt CHANGED Viewed

@@ -13,4 +13,5 @@ tqdm
 scikit-maad
 praat-parselmouth
 librosa
-torchvision

 scikit-maad
 praat-parselmouth
 librosa
+torchvision
+logmmse