Spaces:

lj1995
/

GPT-SoVITS-ProPlus

Running on Zero

App Files Files Community

lj1995 commited on Jun 29

Commit

6c168a1

1 Parent(s): e27e3fe

Delete feature_extractor

Browse files

Files changed (3) hide show

feature_extractor/__init__.py +0 -6
feature_extractor/cnhubert.py +0 -109
feature_extractor/whisper_enc.py +0 -25

feature_extractor/__init__.py DELETED Viewed

@@ -1,6 +0,0 @@
-from . import cnhubert, whisper_enc
-content_module_map = {
-    'cnhubert': cnhubert,
-    'whisper': whisper_enc
-}

feature_extractor/cnhubert.py DELETED Viewed

@@ -1,109 +0,0 @@
-import time
-import librosa
-import torch
-import torch.nn.functional as F
-import soundfile as sf
-import os
-from transformers import logging as tf_logging
-tf_logging.set_verbosity_error()
-import logging
-logging.getLogger("numba").setLevel(logging.WARNING)
-from transformers import (
-    Wav2Vec2FeatureExtractor,
-    HubertModel,
-)
-import utils
-import torch.nn as nn
-cnhubert_base_path = None
-class CNHubert(nn.Module):
-    def __init__(self):
-        super().__init__()
-        if os.path.exists(cnhubert_base_path):...
-        else:raise FileNotFoundError(cnhubert_base_path)
-        self.model = HubertModel.from_pretrained(cnhubert_base_path, local_files_only=True)
-        self.feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(
-            cnhubert_base_path, local_files_only=True
-        )
-    def forward(self, x):
-        input_values = self.feature_extractor(
-            x, return_tensors="pt", sampling_rate=16000
-        ).input_values.to(x.device)
-        feats = self.model(input_values)["last_hidden_state"]
-        return feats
-# class CNHubertLarge(nn.Module):
-#     def __init__(self):
-#         super().__init__()
-#         self.model = HubertModel.from_pretrained("/data/docker/liujing04/gpt-vits/chinese-hubert-large")
-#         self.feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("/data/docker/liujing04/gpt-vits/chinese-hubert-large")
-#     def forward(self, x):
-#         input_values = self.feature_extractor(x, return_tensors="pt", sampling_rate=16000).input_values.to(x.device)
-#         feats = self.model(input_values)["last_hidden_state"]
-#         return feats
-#
-# class CVec(nn.Module):
-#     def __init__(self):
-#         super().__init__()
-#         self.model = HubertModel.from_pretrained("/data/docker/liujing04/vc-webui-big/hubert_base")
-#         self.feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("/data/docker/liujing04/vc-webui-big/hubert_base")
-#     def forward(self, x):
-#         input_values = self.feature_extractor(x, return_tensors="pt", sampling_rate=16000).input_values.to(x.device)
-#         feats = self.model(input_values)["last_hidden_state"]
-#         return feats
-#
-# class cnw2v2base(nn.Module):
-#     def __init__(self):
-#         super().__init__()
-#         self.model = Wav2Vec2Model.from_pretrained("/data/docker/liujing04/gpt-vits/chinese-wav2vec2-base")
-#         self.feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained("/data/docker/liujing04/gpt-vits/chinese-wav2vec2-base")
-#     def forward(self, x):
-#         input_values = self.feature_extractor(x, return_tensors="pt", sampling_rate=16000).input_values.to(x.device)
-#         feats = self.model(input_values)["last_hidden_state"]
-#         return feats
-def get_model():
-    model = CNHubert()
-    model.eval()
-    return model
-# def get_large_model():
-#     model = CNHubertLarge()
-#     model.eval()
-#     return model
-#
-# def get_model_cvec():
-#     model = CVec()
-#     model.eval()
-#     return model
-#
-# def get_model_cnw2v2base():
-#     model = cnw2v2base()
-#     model.eval()
-#     return model
-def get_content(hmodel, wav_16k_tensor):
-    with torch.no_grad():
-        feats = hmodel(wav_16k_tensor)
-    return feats.transpose(1, 2)
-if __name__ == "__main__":
-    model = get_model()
-    src_path = "/Users/Shared/原音频2.wav"
-    wav_16k_tensor = utils.load_wav_to_torch_and_resample(src_path, 16000)
-    model = model
-    wav_16k_tensor = wav_16k_tensor
-    feats = get_content(model, wav_16k_tensor)
-    print(feats.shape)

feature_extractor/whisper_enc.py DELETED Viewed

@@ -1,25 +0,0 @@
-import torch
-def get_model():
-    import whisper
-    model = whisper.load_model("small", device="cpu")
-    return model.encoder
-def get_content(model=None, wav_16k_tensor=None):
-    from whisper import log_mel_spectrogram, pad_or_trim
-    dev = next(model.parameters()).device
-    mel = log_mel_spectrogram(wav_16k_tensor).to(dev)[:, :3000]
-    # if torch.cuda.is_available():
-    #     mel = mel.to(torch.float16)
-    feature_len = mel.shape[-1] // 2
-    assert mel.shape[-1] < 3000, "输入音频过长，只允许输入30以内音频"
-    with torch.no_grad():
-        feature = model(pad_or_trim(mel, 3000).unsqueeze(0))[
-            :1, :feature_len, :
-        ].transpose(1, 2)
-    return feature