Upload 8 files

Browse files

Files changed (8) hide show

README.md +36 -0
configs/config_jp_extra.json +86 -0
pretrained_jp_extra/DUR_0.safetensors +3 -0
pretrained_jp_extra/D_0.safetensors +3 -0
pretrained_jp_extra/G_0.safetensors +3 -0
pretrained_jp_extra/WD_0.safetensors +3 -0
style_bert_vits2/nlp/japanese/normalizer.py +176 -0
style_bert_vits2/nlp/symbols.py +199 -0

README.md ADDED Viewed

	@@ -0,0 +1,36 @@

+Style-Bert-VITS2用事前学習モデルjp_extra_large_Ver20240627_20240630
+====許可している内容====
+１：githubやhuggingface等の不特定多数がダウンロード可能なサイトへのアップロード（転載）
+２：この事前学習モデルは俺 or 私が作った！という自作発言及び、自身の成果物としての宣伝・配布・販売
+３：禁止事項の改変やライセンスの変更（自作発言をする場合は自由に変更して構わない）
+====禁止事項====
+１：転載時に転載元を記載しない。
+＊悪意あるサイトへの誘導を防ぐ為。
+２：転載時に転載元のアップロード者及び開発者に関する内容を記載しない。
+＊転載しただけの人が開発者と混同されないようにするため。
+＊＊自作発言をした人が出てきた場合に混沌とするため。
+====使用上の注意====
+使用可能な記号として:　;　=　#　<　>　^　(　)　*の計10個を追加しています。
+追加学習に用いるデータが多い場合に差が出やすいです。
+VRAM16GB以上の環境で学習をするのを想定しています。
+G_XXXXX.pthのサイズは約1.4GB
+XXXX_eYYY_sZZZZZZ.safetensorsのサイズは約400MB
+====使い方====
+各フォルダーに上書き。

configs/config_jp_extra.json ADDED Viewed

	@@ -0,0 +1,86 @@

+{
+  "model_name": "Dummy",
+  "train": {
+    "log_interval": 500,
+    "eval_interval": 10000,
+    "seed": 42,
+    "epochs": 200,
+    "learning_rate": 9e-05,
+    "betas": [
+      0.8,
+      0.99
+    ],
+    "eps": 1e-09,
+    "batch_size": 3,
+    "bf16_run": false,
+    "fp16_run": false,
+    "lr_decay": 0.99996,
+    "segment_size": 16384,
+    "init_lr_ratio": 1,
+    "warmup_epochs": 0,
+    "c_mel": 45,
+    "c_kl": 1.0,
+    "c_commit": 100,
+    "skip_optimizer": false,
+    "freeze_ZH_bert": false,
+    "freeze_JP_bert": false,
+    "freeze_EN_bert": false,
+    "freeze_emo": false,
+    "freeze_style": false,
+    "freeze_decoder": false
+  },
+  "data": {
+    "use_jp_extra": true,
+    "training_files": "Data/Dummy/train.list",
+    "validation_files": "Data/Dummy/val.list",
+    "max_wav_value": 32768.0,
+    "sampling_rate": 44100,
+    "filter_length": 2048,
+    "hop_length": 512,
+    "win_length": 2048,
+    "n_mel_channels": 256,
+    "mel_fmin": 0.0,
+    "mel_fmax": null,
+    "add_blank": true,
+    "n_speakers": 1,
+    "cleaned_text": true,
+    "spk2id": {
+      ",00,": 0
+    }
+  },
+  "model": {
+    "use_spk_conditioned_encoder": true,
+    "use_noise_scaled_mas": true,
+    "use_mel_posterior_encoder": true,
+    "use_duration_discriminator": true,
+    "use_wavlm_discriminator": true,
+    "inter_channels": 256,
+    "hidden_channels": 256,
+    "filter_channels": 1024,
+    "n_heads": 4,
+    "n_layers": 6,
+    "kernel_size": 3,
+    "p_dropout": 0.1,
+    "resblock": "1",
+    "resblock_kernel_sizes": [3, 7, 11],
+    "resblock_dilation_sizes": [
+      [1, 3, 5],
+      [1, 3, 5],
+      [1, 3, 5]
+    ],
+    "upsample_rates": [8, 8, 2, 2, 2],
+    "upsample_initial_channel": 512,
+    "upsample_kernel_sizes": [16, 16, 8, 2, 2],
+    "n_layers_q": 3,
+    "use_spectral_norm": false,
+    "gin_channels": 768,
+    "slm": {
+      "model": "./slm/wavlm-base-plus",
+      "sr": 16000,
+      "hidden": 768,
+      "nlayers": 13,
+      "initial_channel": 64
+    }
+  },
+  "version": "2.5.0-JP-Extra"
+}

pretrained_jp_extra/DUR_0.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d44a7c1f62662ef7b24ef7464b4b06ad3db0b8f7791f16f03abe957056b277d
+size 8680228

pretrained_jp_extra/D_0.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2835f76e6762c6c4840c6eb5cc8bac6ce7d0ca7ff7e1a4bce728690db467ff6
+size 187000064

pretrained_jp_extra/G_0.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76cddf68770aa94b10e625a0fd7f86ddd29bde3960a288e1421451130dc9f05a
+size 477947964

pretrained_jp_extra/WD_0.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d1a6c02aebedf6f47c8b5af5db4e6fdb18c02d7afe343671ff2a9953384bb6e
+size 4695736

style_bert_vits2/nlp/japanese/normalizer.py ADDED Viewed

	@@ -0,0 +1,176 @@

+"""
+記号類の正規化変換マップの； ： 「 」 括弧全般の扱いを変更
+記号類の正規化変換マップに、＝ ＜ ＞ ＃ ＾ ＊を追加
+"""
+import re
+import unicodedata
+from num2words import num2words
+from style_bert_vits2.nlp.symbols import PUNCTUATIONS
+def normalize_text(text: str) -> str:
+    """
+    日本語のテキストを正規化する。
+    結果は、ちょうど次の文字のみからなる：
+    - ひらがな
+    - カタカナ（全角長音記号「ー」が入る！）
+    - 漢字
+    - 半角アルファベット（大文字と小文字）
+    - ギリシャ文字
+    - `.` （句点`。`や`…`の一部や改行等）
+    - `,` （読点`、`や`:`等）
+    - `?` （疑問符`？`）
+    - `!` （感嘆符`！`）
+    - `'` （`「`や`」`等）
+    - `-` （`―`（ダッシュ、長音記号ではない）や`-`等）
+    注意点:
+    - 三点リーダー`…`は`...`に変換される（`なるほど…。` → `なるほど....`）
+    - 数字は漢字に変換される（`1,100円` → `千百円`、`52.34` → `五十二点三四`）
+    - 読点や疑問符等の位置・個数等は保持される（`??あ、、！！！` → `??あ,,!!!`）
+    Args:
+        text (str): 正規化するテキスト
+    Returns:
+        str: 正規化されたテキスト
+    """
+    res = unicodedata.normalize("NFKC", text)  # ここでアルファベットは半角になる
+    res = __convert_numbers_to_words(res)  # 「100円」→「百円」等
+    # 「～」と「〜」と「~」も長音記号として扱う
+    res = res.replace("~", "ー")
+    res = res.replace("～", "ー")
+    res = res.replace("〜", "ー")
+    res = replace_punctuation(res)  # 句読点等正規化、読めない文字を削除
+    # 結合文字の濁点・半濁点を削除
+    # 通常の「ば」等はそのままのこされる、「あ゛」は上で「あ゙」になりここで「あ」になる
+    res = res.replace("\u3099", "")  # 結合文字の濁点を削除、る゙ → る
+    res = res.replace("\u309A", "")  # 結合文字の半濁点を削除、な゚ → な
+    return res
+def replace_punctuation(text: str) -> str:
+    """
+    句読点等を「.」「,」「!」「?」「'」「-」に正規化し、OpenJTalk で読みが取得できるもののみ残す：
+    漢字・平仮名・カタカナ、アルファベット、ギリシャ文字
+    Args:
+        text (str): 正規化するテキスト
+    Returns:
+        str: 正規化されたテキスト
+    """
+    # 記号類の正規化変換マップ
+    REPLACE_MAP = {
+        "：": ":",
+        "；": ";",
+        "，": ",",
+        "。": ".",
+        "！": "!",
+        "？": "?",
+        "\n": ".",
+        "．": ".",
+        "…": "...",
+        "···": "...",
+        "・・・": "...",
+        "·": ",",
+        "・": ",",
+        "、": ",",
+        "$": ".",
+        "“": "'",
+        "”": "'",
+        '"': "'",
+        "‘": "'",
+        "’": "'",
+        "（": "(",
+        "）": ")",
+        "(": "(",
+        ")": ")",
+        "《": "(",
+        "》": ")",
+        "【": "(",
+        "】": ")",
+        "[": "(",
+        "]": ")",
+        # NFKC 正規化後のハイフン・ダッシュの変種を全て通常半角ハイフン - \u002d に変換
+        "\u02d7": "\u002d",  # ˗, Modifier Letter Minus Sign
+        "\u2010": "\u002d",  # ‐, Hyphen,
+        # "\u2011": "\u002d",  # ‑, Non-Breaking Hyphen, NFKC により \u2010 に変換される
+        "\u2012": "\u002d",  # ‒, Figure Dash
+        "\u2013": "\u002d",  # –, En Dash
+        "\u2014": "\u002d",  # —, Em Dash
+        "\u2015": "\u002d",  # ―, Horizontal Bar
+        "\u2043": "\u002d",  # ⁃, Hyphen Bullet
+        "\u2212": "\u002d",  # −, Minus Sign
+        "\u23af": "\u002d",  # ⎯, Horizontal Line Extension
+        "\u23e4": "\u002d",  # ⏤, Straightness
+        "\u2500": "\u002d",  # ─, Box Drawings Light Horizontal
+        "\u2501": "\u002d",  # ━, Box Drawings Heavy Horizontal
+        "\u2e3a": "\u002d",  # ⸺, Two-Em Dash
+        "\u2e3b": "\u002d",  # ⸻, Three-Em Dash
+        # "～": "-",  # これは長音記号「ー」として扱うよう変更
+        # "~": "-",  # これも長音記号「ー」として扱うよう変更
+        "「": "'",
+        "」": "'",
+        "＝": "=",
+        "＜": "<",
+        "＞": ">",
+        "＃": "#",
+        "＾": "^",
+        "＊": "*",
+    }
+    pattern = re.compile("|".join(re.escape(p) for p in REPLACE_MAP.keys()))
+    # 句読点を辞書で置換
+    replaced_text = pattern.sub(lambda x: REPLACE_MAP[x.group()], text)
+    replaced_text = re.sub(
+        # ↓ ひらがな、カタカナ、漢字
+        r"[^\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF\u3005"
+        # ↓ 半角アルファベット（大文字と小文字）
+        + r"\u0041-\u005A\u0061-\u007A"
+        # ↓ 全角アルファベット（大文字と小文字）
+        + r"\uFF21-\uFF3A\uFF41-\uFF5A"
+        # ↓ ギリシャ文字
+        + r"\u0370-\u03FF\u1F00-\u1FFF"
+        # ↓ "!", "?", "…", ",", ".", "'", "-", 但し`…`はすでに`...`に変換されている
+        + "".join(PUNCTUATIONS) + r"]+",
+        # 上述以外の文字を削除
+        "",
+        replaced_text,
+    )
+    return replaced_text
+def __convert_numbers_to_words(text: str) -> str:
+    """
+    記号や数字を日本語の文字表現に変換する。
+    Args:
+        text (str): 変換するテキスト
+    Returns:
+        str: 変換されたテキスト
+    """
+    NUMBER_WITH_SEPARATOR_PATTERN = re.compile("[0-9]{1,3}(,[0-9]{3})+")
+    CURRENCY_MAP = {"$": "ドル", "¥": "円", "£": "ポンド", "€": "ユーロ"}
+    CURRENCY_PATTERN = re.compile(r"([$¥£€])([0-9.]*[0-9])")
+    NUMBER_PATTERN = re.compile(r"[0-9]+(\.[0-9]+)?")
+    res = NUMBER_WITH_SEPARATOR_PATTERN.sub(lambda m: m[0].replace(",", ""), text)
+    res = CURRENCY_PATTERN.sub(lambda m: m[2] + CURRENCY_MAP.get(m[1], m[1]), res)
+    res = NUMBER_PATTERN.sub(lambda m: num2words(m[0], lang="ja"), res)
+    return res

style_bert_vits2/nlp/symbols.py ADDED Viewed

	@@ -0,0 +1,199 @@

+"""
+PUNCTUATIONSに ":", ";", "=", "#", "<", ">", "^", "(", ")", "*"を追加
+"""
+# Punctuations
+PUNCTUATIONS = ["!", "?", "…", ",", ".", "'", "-", ":", ";", "=", "#", "<", ">", "^", "(", ")", "*"]
+# Punctuations and special tokens
+PUNCTUATION_SYMBOLS = PUNCTUATIONS + ["SP", "UNK"]
+# Padding
+PAD = "_"
+# Chinese symbols
+ZH_SYMBOLS = [
+    "E",
+    "En",
+    "a",
+    "ai",
+    "an",
+    "ang",
+    "ao",
+    "b",
+    "c",
+    "ch",
+    "d",
+    "e",
+    "ei",
+    "en",
+    "eng",
+    "er",
+    "f",
+    "g",
+    "h",
+    "i",
+    "i0",
+    "ia",
+    "ian",
+    "iang",
+    "iao",
+    "ie",
+    "in",
+    "ing",
+    "iong",
+    "ir",
+    "iu",
+    "j",
+    "k",
+    "l",
+    "m",
+    "n",
+    "o",
+    "ong",
+    "ou",
+    "p",
+    "q",
+    "r",
+    "s",
+    "sh",
+    "t",
+    "u",
+    "ua",
+    "uai",
+    "uan",
+    "uang",
+    "ui",
+    "un",
+    "uo",
+    "v",
+    "van",
+    "ve",
+    "vn",
+    "w",
+    "x",
+    "y",
+    "z",
+    "zh",
+    "AA",
+    "EE",
+    "OO",
+]
+NUM_ZH_TONES = 6
+# Japanese
+JP_SYMBOLS = [
+    "N",
+    "a",
+    "a:",
+    "b",
+    "by",
+    "ch",
+    "d",
+    "dy",
+    "e",
+    "e:",
+    "f",
+    "g",
+    "gy",
+    "h",
+    "hy",
+    "i",
+    "i:",
+    "j",
+    "k",
+    "ky",
+    "m",
+    "my",
+    "n",
+    "ny",
+    "o",
+    "o:",
+    "p",
+    "py",
+    "q",
+    "r",
+    "ry",
+    "s",
+    "sh",
+    "t",
+    "ts",
+    "ty",
+    "u",
+    "u:",
+    "w",
+    "y",
+    "z",
+    "zy",
+]
+NUM_JP_TONES = 2
+# English
+EN_SYMBOLS = [
+    "aa",
+    "ae",
+    "ah",
+    "ao",
+    "aw",
+    "ay",
+    "b",
+    "ch",
+    "d",
+    "dh",
+    "eh",
+    "er",
+    "ey",
+    "f",
+    "g",
+    "hh",
+    "ih",
+    "iy",
+    "jh",
+    "k",
+    "l",
+    "m",
+    "n",
+    "ng",
+    "ow",
+    "oy",
+    "p",
+    "r",
+    "s",
+    "sh",
+    "t",
+    "th",
+    "uh",
+    "uw",
+    "V",
+    "w",
+    "y",
+    "z",
+    "zh",
+]
+NUM_EN_TONES = 4
+# Combine all symbols
+NORMAL_SYMBOLS = sorted(set(ZH_SYMBOLS + JP_SYMBOLS + EN_SYMBOLS))
+SYMBOLS = [PAD] + NORMAL_SYMBOLS + PUNCTUATION_SYMBOLS
+SIL_PHONEMES_IDS = [SYMBOLS.index(i) for i in PUNCTUATION_SYMBOLS]
+# Combine all tones
+NUM_TONES = NUM_ZH_TONES + NUM_JP_TONES + NUM_EN_TONES
+# Language maps
+LANGUAGE_ID_MAP = {"ZH": 0, "JP": 1, "EN": 2}
+NUM_LANGUAGES = len(LANGUAGE_ID_MAP.keys())
+# Language tone start map
+LANGUAGE_TONE_START_MAP = {
+    "ZH": 0,
+    "JP": NUM_ZH_TONES,
+    "EN": NUM_ZH_TONES + NUM_JP_TONES,
+}
+if __name__ == "__main__":
+    a = set(ZH_SYMBOLS)
+    b = set(EN_SYMBOLS)
+    print(sorted(a & b))