Spaces:

simler
/

Genie-TTS-testing

Running

App Files Files Community

antigravity commited on 5 days ago

Commit

c441d2c

1 Parent(s): 620bb7c

sync all fixes: prompt leakage, cross-lang, ref_cache update, and file wait logic

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

app.py +62 -9
genie_tts/Audio/Audio.py +51 -51
genie_tts/Audio/__pycache__/Audio.cpython-311.pyc +0 -0
genie_tts/Audio/__pycache__/ReferenceAudio.cpython-311.pyc +0 -0
genie_tts/Audio/__pycache__/__init__.cpython-311.pyc +0 -0
genie_tts/Converter/Converter.py +11 -11
genie_tts/Converter/__pycache__/Converter.cpython-311.pyc +0 -0
genie_tts/Converter/__pycache__/__init__.cpython-311.pyc +0 -0
genie_tts/Converter/__pycache__/load_state_dict.cpython-311.pyc +0 -0
genie_tts/Converter/__pycache__/utils.cpython-311.pyc +0 -0
genie_tts/Converter/load_state_dict.py +26 -26
genie_tts/Converter/v2/Converter.py +146 -146
genie_tts/Converter/v2/EncoderConverter.py +106 -106
genie_tts/Converter/v2/T2SConverter.py +125 -125
genie_tts/Converter/v2/VITSConverter.py +129 -129
genie_tts/Converter/v2/__pycache__/Converter.cpython-311.pyc +0 -0
genie_tts/Converter/v2/__pycache__/EncoderConverter.cpython-311.pyc +0 -0
genie_tts/Converter/v2/__pycache__/T2SConverter.cpython-311.pyc +0 -0
genie_tts/Converter/v2/__pycache__/VITSConverter.cpython-311.pyc +0 -0
genie_tts/Converter/v2/__pycache__/__init__.cpython-311.pyc +0 -0
genie_tts/Converter/v2ProPlus/Converter.py +89 -89
genie_tts/Converter/v2ProPlus/PromptEncoderConverter.py +128 -128
genie_tts/Converter/v2ProPlus/__pycache__/Converter.cpython-311.pyc +0 -0
genie_tts/Converter/v2ProPlus/__pycache__/PromptEncoderConverter.cpython-311.pyc +0 -0
genie_tts/Core/Resources.py +76 -76
genie_tts/Core/__pycache__/Inference.cpython-311.pyc +0 -0
genie_tts/Core/__pycache__/Resources.cpython-311.pyc +0 -0
genie_tts/Core/__pycache__/TTSPlayer.cpython-311.pyc +0 -0
genie_tts/Core/__pycache__/__init__.cpython-311.pyc +0 -0
genie_tts/Data/v2/Keys/t2s_onnx_keys.txt +291 -291
genie_tts/Data/v2/Keys/vits_onnx_keys.txt +668 -668
genie_tts/Data/v2ProPlus/Keys/prompt_encoder_weights.txt +23 -23
genie_tts/Data/v2ProPlus/Keys/vits_weights.txt +650 -650
genie_tts/G2P/Chinese/CorrectPronunciation.py +50 -50
genie_tts/G2P/Chinese/Erhua.py +49 -49
genie_tts/G2P/Chinese/Normalization/__pycache__/__init__.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/Normalization/__pycache__/char_convert.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/Normalization/__pycache__/chronology.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/Normalization/__pycache__/constants.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/Normalization/__pycache__/num.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/Normalization/__pycache__/phonecode.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/Normalization/__pycache__/quantifier.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/Normalization/__pycache__/text_normlization.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/ToneSandhi.py +354 -354
genie_tts/G2P/Chinese/__pycache__/ChineseG2P.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/__pycache__/CorrectPronunciation.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/__pycache__/Erhua.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/__pycache__/ToneSandhi.cpython-311.pyc +0 -0
genie_tts/G2P/Chinese/__pycache__/__init__.cpython-311.pyc +0 -0
genie_tts/G2P/English/EnglishG2P.py +296 -296

app.py CHANGED Viewed

@@ -66,6 +66,30 @@ async def load_model(character_name: str = Form(...), model_path: str = Form(...
     try:
         print(f"📦 Loading character: {character_name} from {full_path}")
         genie_tts.load_character(character_name, full_path, language)
         return {"status": "success", "message": f"Character '{character_name}' loaded."}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
@@ -76,12 +100,21 @@ async def upload_and_tts(
     prompt_text: str = Form(...),
     text: str = Form(...),
     language: str = Form("zh"),
     file: UploadFile = File(...)
 ):
     """
     上传临时参考音频并生成语音
     """
     try:
         ts = int(time.time() * 1000)
         save_path = f"/tmp/ref_{ts}.wav"
         os.makedirs("/tmp", exist_ok=True)
@@ -89,23 +122,37 @@ async def upload_and_tts(
         with open(save_path, "wb") as buffer:
             shutil.copyfileobj(file.file, buffer)
-        print(f"🔥 [Custom] Using temp audio for {character_name}: {save_path}")
         genie_tts.set_reference_audio(character_name, save_path, prompt_text, language)
         out_path = f"/tmp/out_{ts}.wav"
-        genie_tts.tts(character_name, text, save_path=out_path, play=False)
         def iterfile():
-            with open(out_path, "rb") as f:
-                yield from f
-            try:
-                os.remove(save_path)
-                os.remove(out_path)
-            except: pass
         return StreamingResponse(iterfile(), media_type="audio/wav")
     except Exception as e:
-        print(f"❌ Error in upload/tts: {e}")
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/tts")
@@ -138,6 +185,12 @@ async def dynamic_tts(
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
         genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang)
         return StreamingResponse(open(out_path, "rb"), media_type="audio/wav")
     except Exception as e:
         print(f"❌ Error: {e}")

     try:
         print(f"📦 Loading character: {character_name} from {full_path}")
         genie_tts.load_character(character_name, full_path, language)
+        # 自动探测参考音频配置
+        prompt_json_path = os.path.join(full_path, "prompt_wav.json")
+        ref_wav_path = os.path.join(full_path, "ref.wav")
+        if os.path.exists(prompt_json_path):
+            import json
+            with open(prompt_json_path, "r", encoding="utf-8") as f:
+                data = json.load(f)
+                config = data.get("default", {})
+                REF_CACHE[character_name] = {
+                    "path": os.path.join(full_path, config.get("wav_path", "ref.wav")),
+                    "text": config.get("prompt_text", ""),
+                    "lang": config.get("prompt_lang", language)
+                }
+                print(f"📖 Loaded ref info from JSON for {character_name}")
+        elif os.path.exists(ref_wav_path):
+            REF_CACHE[character_name] = {
+                "path": ref_wav_path,
+                "text": "",
+                "lang": language
+            }
+            print(f"🎵 Found ref.wav for {character_name}")
         return {"status": "success", "message": f"Character '{character_name}' loaded."}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
     prompt_text: str = Form(...),
     text: str = Form(...),
     language: str = Form("zh"),
+    text_lang: str = Form(None),
     file: UploadFile = File(...)
 ):
     """
     上传临时参考音频并生成语音
     """
     try:
+        # 🟢 确保模型已加载
+        if not genie_tts.model_manager.get(character_name):
+             print(f"⚠️ Character {character_name} not loaded, trying to load...")
+             char_path = os.path.join(MODELS_ROOT, character_name.lower())
+             if not os.path.exists(char_path):
+                 char_path = os.path.join(MODELS_ROOT, "mzm") # 兜底逻辑
+             genie_tts.load_character(character_name, char_path, language)
         ts = int(time.time() * 1000)
         save_path = f"/tmp/ref_{ts}.wav"
         os.makedirs("/tmp", exist_ok=True)
         with open(save_path, "wb") as buffer:
             shutil.copyfileobj(file.file, buffer)
+        print(f"🔥 [Custom] Using temp audio: {save_path}")
         genie_tts.set_reference_audio(character_name, save_path, prompt_text, language)
         out_path = f"/tmp/out_{ts}.wav"
+        # 🟢 执行 TTS
+        genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang)
+        # 🟢 关键：强制等待文件出现（最多等5秒）
+        wait_time = 0
+        while not os.path.exists(out_path) and wait_time < 50:
+            time.sleep(0.1)
+            wait_time += 1
+        if not os.path.exists(out_path):
+            raise HTTPException(status_code=500, detail="Audio file generation timed out or failed.")
         def iterfile():
+            try:
+                with open(out_path, "rb") as f:
+                    yield from f
+            finally:
+                # 给一点延迟确保读取完毕后再删除
+                time.sleep(1)
+                try:
+                    if os.path.exists(save_path): os.remove(save_path)
+                    if os.path.exists(out_path): os.remove(out_path)
+                except: pass
         return StreamingResponse(iterfile(), media_type="audio/wav")
     except Exception as e:
+        print(f"❌ Error in upload/tts: {str(e)}")
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/tts")
         out_path = f"/tmp/out_dyn_{int(time.time())}.wav"
         genie_tts.tts(character_name, text, save_path=out_path, play=False, text_language=text_lang)
+        # 🟢 同样增加文件等待
+        wait_time = 0
+        while not os.path.exists(out_path) and wait_time < 50:
+            time.sleep(0.1)
+            wait_time += 1
         return StreamingResponse(open(out_path, "rb"), media_type="audio/wav")
     except Exception as e:
         print(f"❌ Error: {e}")

genie_tts/Audio/Audio.py CHANGED Viewed

@@ -1,51 +1,51 @@
-import os
-import soundfile as sf
-import soxr
-import numpy as np
-import logging
-from typing import Optional
-logger = logging.getLogger(__name__)
-# 音频时长建议范围 (秒)
-MIN_DURATION_S = 3
-MAX_DURATION_S = 10
-# 在音频末尾追加的静音时长 (秒)
-SILENCE_TO_APPEND_S = 0.3
-# 模型期望的目标采样率
-TARGET_SAMPLING_RATE = 16000
-def load_audio(
-        audio_path: str,
-        target_sampling_rate: int = TARGET_SAMPLING_RATE
-) -> Optional[np.ndarray]:
-    try:
-        wav, original_sr = sf.read(audio_path, dtype='float32')
-        if wav.ndim > 1:
-            wav = np.mean(wav, axis=1)  # 多声道转单声道。
-        if original_sr != target_sampling_rate:
-            wav = soxr.resample(wav, original_sr, target_sampling_rate, quality='hq')  # 重采样。
-    except Exception as e:
-        logger.error(f"Failed to load reference audio: {audio_path}. Error: {e}")
-        return None
-    # 检查音频长度是否在建议范围之外
-    min_samples = int(MIN_DURATION_S * target_sampling_rate)
-    max_samples = int(MAX_DURATION_S * target_sampling_rate)
-    if not (min_samples <= wav.shape[0] <= max_samples):
-        duration = len(wav) / target_sampling_rate
-        logger.warning(
-            f"The reference audio '{os.path.basename(audio_path)}' has a duration of {duration:.2f} seconds, "
-            f"which is outside the recommended range of {MIN_DURATION_S} to {MAX_DURATION_S} seconds!"
-        )
-    # 创建并拼接静音
-    silence_samples = int(SILENCE_TO_APPEND_S * target_sampling_rate)
-    silence_array = np.zeros(silence_samples, dtype=np.float32)
-    wav_processed = np.concatenate([wav, silence_array])
-    # 为模型输入增加批次维度
-    # wav_processed = np.expand_dims(wav_processed, axis=0)
-    return wav_processed

+import os
+import soundfile as sf
+import soxr
+import numpy as np
+import logging
+from typing import Optional
+logger = logging.getLogger(__name__)
+# 音频时长建议范围 (秒)
+MIN_DURATION_S = 3
+MAX_DURATION_S = 10
+# 在音频末尾追加的静音时长 (秒)
+SILENCE_TO_APPEND_S = 0.3
+# 模型期望的目标采样率
+TARGET_SAMPLING_RATE = 16000
+def load_audio(
+        audio_path: str,
+        target_sampling_rate: int = TARGET_SAMPLING_RATE
+) -> Optional[np.ndarray]:
+    try:
+        wav, original_sr = sf.read(audio_path, dtype='float32')
+        if wav.ndim > 1:
+            wav = np.mean(wav, axis=1)  # 多声道转单声道。
+        if original_sr != target_sampling_rate:
+            wav = soxr.resample(wav, original_sr, target_sampling_rate, quality='hq')  # 重采样。
+    except Exception as e:
+        logger.error(f"Failed to load reference audio: {audio_path}. Error: {e}")
+        return None
+    # 检查音频长度是否在建议范围之外
+    min_samples = int(MIN_DURATION_S * target_sampling_rate)
+    max_samples = int(MAX_DURATION_S * target_sampling_rate)
+    if not (min_samples <= wav.shape[0] <= max_samples):
+        duration = len(wav) / target_sampling_rate
+        logger.warning(
+            f"The reference audio '{os.path.basename(audio_path)}' has a duration of {duration:.2f} seconds, "
+            f"which is outside the recommended range of {MIN_DURATION_S} to {MAX_DURATION_S} seconds!"
+        )
+    # 创建并拼接静音
+    silence_samples = int(SILENCE_TO_APPEND_S * target_sampling_rate)
+    silence_array = np.zeros(silence_samples, dtype=np.float32)
+    wav_processed = np.concatenate([wav, silence_array])
+    # 为模型输入增加批次维度
+    # wav_processed = np.expand_dims(wav_processed, axis=0)
+    return wav_processed

genie_tts/Audio/__pycache__/Audio.cpython-311.pyc ADDED Viewed

Binary file (2.61 kB). View file

genie_tts/Audio/__pycache__/ReferenceAudio.cpython-311.pyc ADDED Viewed

Binary file (4.63 kB). View file

genie_tts/Audio/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (184 Bytes). View file

genie_tts/Converter/Converter.py CHANGED Viewed

@@ -1,11 +1,11 @@
-from .v2.Converter import convert as convert_v2
-from .v2ProPlus.Converter import convert as convert_v2pp
-import os
-def convert(torch_ckpt_path: str, torch_pth_path: str, output_dir: str) -> None:
-    if os.path.getsize(torch_pth_path) > 150 * 1024 * 1024:  # 大于 150 MB
-        convert_v2pp(torch_ckpt_path, torch_pth_path, output_dir)
-    else:
-        convert_v2(torch_ckpt_path, torch_pth_path, output_dir)

+from .v2.Converter import convert as convert_v2
+from .v2ProPlus.Converter import convert as convert_v2pp
+import os
+def convert(torch_ckpt_path: str, torch_pth_path: str, output_dir: str) -> None:
+    if os.path.getsize(torch_pth_path) > 150 * 1024 * 1024:  # 大于 150 MB
+        convert_v2pp(torch_ckpt_path, torch_pth_path, output_dir)
+    else:
+        convert_v2(torch_ckpt_path, torch_pth_path, output_dir)

genie_tts/Converter/__pycache__/Converter.cpython-311.pyc ADDED Viewed

Binary file (838 Bytes). View file

genie_tts/Converter/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (188 Bytes). View file

genie_tts/Converter/__pycache__/load_state_dict.cpython-311.pyc ADDED Viewed

Binary file (1.56 kB). View file

genie_tts/Converter/__pycache__/utils.cpython-311.pyc ADDED Viewed

Binary file (2.33 kB). View file

genie_tts/Converter/load_state_dict.py CHANGED Viewed

@@ -1,26 +1,26 @@
-import sys
-import os
-sys.path.append(os.path.dirname(__file__))
-import torch
-from io import BytesIO
-import utils
-def load_sovits_model(pth_path: str, device: str = 'cpu'):
-    f = open(pth_path, "rb")
-    meta = f.read(2)
-    if meta != b"PK":
-        # noinspection PyTypeChecker
-        data = b"PK" + f.read()
-        bio = BytesIO()
-        # noinspection PyTypeChecker
-        bio.write(data)
-        bio.seek(0)
-        return torch.load(bio, map_location=device, weights_only=False)
-    return torch.load(pth_path, map_location=device, weights_only=False)
-def load_gpt_model(ckpt_path: str, device: str = 'cpu'):
-    return torch.load(ckpt_path, map_location=device, weights_only=True)

+import sys
+import os
+sys.path.append(os.path.dirname(__file__))
+import torch
+from io import BytesIO
+import utils
+def load_sovits_model(pth_path: str, device: str = 'cpu'):
+    f = open(pth_path, "rb")
+    meta = f.read(2)
+    if meta != b"PK":
+        # noinspection PyTypeChecker
+        data = b"PK" + f.read()
+        bio = BytesIO()
+        # noinspection PyTypeChecker
+        bio.write(data)
+        bio.seek(0)
+        return torch.load(bio, map_location=device, weights_only=False)
+    return torch.load(pth_path, map_location=device, weights_only=False)
+def load_gpt_model(ckpt_path: str, device: str = 'cpu'):
+    return torch.load(ckpt_path, map_location=device, weights_only=True)

genie_tts/Converter/v2/Converter.py CHANGED Viewed

@@ -1,146 +1,146 @@
-from .VITSConverter import VITSConverter
-from .T2SConverter import T2SModelConverter
-from .EncoderConverter import EncoderConverter
-from ...Utils.Constants import PACKAGE_NAME
-import logging
-from typing import Optional, Tuple
-import re
-import os
-import shutil
-import traceback
-import importlib.resources
-import contextlib
-logger = logging.getLogger()
-CACHE_DIR = os.path.join(os.getcwd(), "Cache")
-ENCODER_RESOURCE_PATH = "Data/v2/Models/t2s_encoder_fp32.onnx"
-STAGE_DECODER_RESOURCE_PATH = "Data/v2/Models/t2s_stage_decoder_fp32.onnx"
-FIRST_STAGE_DECODER_RESOURCE_PATH = "Data/v2/Models/t2s_first_stage_decoder_fp32.onnx"
-VITS_RESOURCE_PATH = "Data/v2/Models/vits_fp32.onnx"
-T2S_KEYS_RESOURCE_PATH = "Data/v2/Keys/t2s_onnx_keys.txt"
-VITS_KEYS_RESOURCE_PATH = "Data/v2/Keys/vits_onnx_keys.txt"
-def find_ckpt_and_pth(directory: str) -> Tuple[Optional[str], Optional[str]]:
-    """
-    在 directory（不递归子目录）里查找：
-    - .ckpt：从所有 .ckpt 文件名中搜索 'e{正整数}' 作为 epoch（找不到则视为 e0），
-             选择 epoch 最大的那个文件（若无则为 None）
-    - .pth ：从所有 .pth 文件名中搜索 'e{正整数}' 作为 epoch（找不到则视为 e0），
-             选择 epoch 最大的那个文件（若无则为 None）
-    若出现相同 epoch，选修改时间较新的文件以打破平手。
-    """
-    best_ckpt_path: Optional[str] = None
-    best_ckpt_epoch: int = -1
-    best_pth_path: Optional[str] = None
-    best_pth_epoch: int = -1
-    for filename in os.listdir(directory):
-        full_path = os.path.join(directory, filename)
-        if not os.path.isfile(full_path):
-            continue
-        # 提取 epoch
-        m = re.search(r"e(\d+)", filename, flags=re.IGNORECASE)
-        epoch = int(m.group(1)) if m else 0
-        # .ckpt 文件处理
-        if filename.lower().endswith(".ckpt"):
-            if (
-                    epoch > best_ckpt_epoch
-                    or (
-                    epoch == best_ckpt_epoch
-                    and best_ckpt_path is not None
-                    and os.path.getmtime(full_path) > os.path.getmtime(best_ckpt_path)
-            )
-            ):
-                best_ckpt_epoch = epoch
-                best_ckpt_path = full_path
-        # .pth 文件处理
-        elif filename.lower().endswith(".pth"):
-            if (
-                    epoch > best_pth_epoch
-                    or (
-                    epoch == best_pth_epoch
-                    and best_pth_path is not None
-                    and os.path.getmtime(full_path) > os.path.getmtime(best_pth_path)
-            )
-            ):
-                best_pth_epoch = epoch
-                best_pth_path = full_path
-    return best_ckpt_path, best_pth_path
-def remove_folder(folder: str) -> None:
-    try:
-        if os.path.exists(folder):
-            shutil.rmtree(folder)
-            logger.info(f"🧹 Folder cleaned: {folder}")
-    except Exception as e:
-        logger.error(f"❌ Failed to clean folder {folder}: {e}")
-def convert(torch_ckpt_path: str,
-            torch_pth_path: str,
-            output_dir: str):
-    # 确保缓存和输出目录存在
-    os.makedirs(CACHE_DIR, exist_ok=True)
-    os.makedirs(output_dir, exist_ok=True)
-    if len(os.listdir(output_dir)) > 0:
-        logger.warning(f"The output directory {output_dir} is not empty!")
-    with contextlib.ExitStack() as stack:
-        files = importlib.resources.files(PACKAGE_NAME)
-        def enter(p):
-            return stack.enter_context(importlib.resources.as_file(files.joinpath(p)))
-        encoder_onnx_path = enter(ENCODER_RESOURCE_PATH)
-        stage_decoder_path = enter(STAGE_DECODER_RESOURCE_PATH)
-        first_stage_decoder_path = enter(FIRST_STAGE_DECODER_RESOURCE_PATH)
-        vits_onnx_path = enter(VITS_RESOURCE_PATH)
-        t2s_keys_path = enter(T2S_KEYS_RESOURCE_PATH)
-        vits_keys_path = enter(VITS_KEYS_RESOURCE_PATH)
-        converter_1 = T2SModelConverter(
-            torch_ckpt_path=torch_ckpt_path,
-            stage_decoder_onnx_path=str(stage_decoder_path),
-            first_stage_decoder_onnx_path=str(first_stage_decoder_path),
-            key_list_file=str(t2s_keys_path),
-            output_dir=output_dir,
-            cache_dir=CACHE_DIR,
-        )
-        converter_2 = VITSConverter(
-            torch_pth_path=torch_pth_path,
-            vits_onnx_path=str(vits_onnx_path),
-            key_list_file=str(vits_keys_path),
-            output_dir=output_dir,
-            cache_dir=CACHE_DIR,
-        )
-        converter_3 = EncoderConverter(
-            ckpt_path=torch_ckpt_path,
-            pth_path=torch_pth_path,
-            onnx_input_path=str(encoder_onnx_path),
-            output_dir=output_dir,
-        )
-        try:
-            converter_1.run_full_process()
-            converter_2.run_full_process()
-            converter_3.run_full_process()
-            logger.info(f"🎉 Conversion successful! Saved to: {os.path.abspath(output_dir)}\n"
-                        f"- Model Type: V2")
-        except Exception:
-            logger.error(f"❌ A critical error occurred during the conversion process")
-            logger.error(traceback.format_exc())
-            remove_folder(output_dir)  # 只在失败时清理输出目录
-        finally:
-            # 无论成功还是失败，都尝试清理缓存目录
-            remove_folder(CACHE_DIR)

+from .VITSConverter import VITSConverter
+from .T2SConverter import T2SModelConverter
+from .EncoderConverter import EncoderConverter
+from ...Utils.Constants import PACKAGE_NAME
+import logging
+from typing import Optional, Tuple
+import re
+import os
+import shutil
+import traceback
+import importlib.resources
+import contextlib
+logger = logging.getLogger()
+CACHE_DIR = os.path.join(os.getcwd(), "Cache")
+ENCODER_RESOURCE_PATH = "Data/v2/Models/t2s_encoder_fp32.onnx"
+STAGE_DECODER_RESOURCE_PATH = "Data/v2/Models/t2s_stage_decoder_fp32.onnx"
+FIRST_STAGE_DECODER_RESOURCE_PATH = "Data/v2/Models/t2s_first_stage_decoder_fp32.onnx"
+VITS_RESOURCE_PATH = "Data/v2/Models/vits_fp32.onnx"
+T2S_KEYS_RESOURCE_PATH = "Data/v2/Keys/t2s_onnx_keys.txt"
+VITS_KEYS_RESOURCE_PATH = "Data/v2/Keys/vits_onnx_keys.txt"
+def find_ckpt_and_pth(directory: str) -> Tuple[Optional[str], Optional[str]]:
+    """
+    在 directory（不递归子目录）里查找：
+    - .ckpt：从所有 .ckpt 文件名中搜索 'e{正整数}' 作为 epoch（找不到则视为 e0），
+             选择 epoch 最大的那个文件（若无则为 None）
+    - .pth ：从所有 .pth 文件名中搜索 'e{正整数}' 作为 epoch（找不到则视为 e0），
+             选择 epoch 最大的那个文件（若无则为 None）
+    若出现相同 epoch，选修改时间较新的文件以打破平手。
+    """
+    best_ckpt_path: Optional[str] = None
+    best_ckpt_epoch: int = -1
+    best_pth_path: Optional[str] = None
+    best_pth_epoch: int = -1
+    for filename in os.listdir(directory):
+        full_path = os.path.join(directory, filename)
+        if not os.path.isfile(full_path):
+            continue
+        # 提取 epoch
+        m = re.search(r"e(\d+)", filename, flags=re.IGNORECASE)
+        epoch = int(m.group(1)) if m else 0
+        # .ckpt 文件处理
+        if filename.lower().endswith(".ckpt"):
+            if (
+                    epoch > best_ckpt_epoch
+                    or (
+                    epoch == best_ckpt_epoch
+                    and best_ckpt_path is not None
+                    and os.path.getmtime(full_path) > os.path.getmtime(best_ckpt_path)
+            )
+            ):
+                best_ckpt_epoch = epoch
+                best_ckpt_path = full_path
+        # .pth 文件处理
+        elif filename.lower().endswith(".pth"):
+            if (
+                    epoch > best_pth_epoch
+                    or (
+                    epoch == best_pth_epoch
+                    and best_pth_path is not None
+                    and os.path.getmtime(full_path) > os.path.getmtime(best_pth_path)
+            )
+            ):
+                best_pth_epoch = epoch
+                best_pth_path = full_path
+    return best_ckpt_path, best_pth_path
+def remove_folder(folder: str) -> None:
+    try:
+        if os.path.exists(folder):
+            shutil.rmtree(folder)
+            logger.info(f"🧹 Folder cleaned: {folder}")
+    except Exception as e:
+        logger.error(f"❌ Failed to clean folder {folder}: {e}")
+def convert(torch_ckpt_path: str,
+            torch_pth_path: str,
+            output_dir: str):
+    # 确保缓存和输出目录存在
+    os.makedirs(CACHE_DIR, exist_ok=True)
+    os.makedirs(output_dir, exist_ok=True)
+    if len(os.listdir(output_dir)) > 0:
+        logger.warning(f"The output directory {output_dir} is not empty!")
+    with contextlib.ExitStack() as stack:
+        files = importlib.resources.files(PACKAGE_NAME)
+        def enter(p):
+            return stack.enter_context(importlib.resources.as_file(files.joinpath(p)))
+        encoder_onnx_path = enter(ENCODER_RESOURCE_PATH)
+        stage_decoder_path = enter(STAGE_DECODER_RESOURCE_PATH)
+        first_stage_decoder_path = enter(FIRST_STAGE_DECODER_RESOURCE_PATH)
+        vits_onnx_path = enter(VITS_RESOURCE_PATH)
+        t2s_keys_path = enter(T2S_KEYS_RESOURCE_PATH)
+        vits_keys_path = enter(VITS_KEYS_RESOURCE_PATH)
+        converter_1 = T2SModelConverter(
+            torch_ckpt_path=torch_ckpt_path,
+            stage_decoder_onnx_path=str(stage_decoder_path),
+            first_stage_decoder_onnx_path=str(first_stage_decoder_path),
+            key_list_file=str(t2s_keys_path),
+            output_dir=output_dir,
+            cache_dir=CACHE_DIR,
+        )
+        converter_2 = VITSConverter(
+            torch_pth_path=torch_pth_path,
+            vits_onnx_path=str(vits_onnx_path),
+            key_list_file=str(vits_keys_path),
+            output_dir=output_dir,
+            cache_dir=CACHE_DIR,
+        )
+        converter_3 = EncoderConverter(
+            ckpt_path=torch_ckpt_path,
+            pth_path=torch_pth_path,
+            onnx_input_path=str(encoder_onnx_path),
+            output_dir=output_dir,
+        )
+        try:
+            converter_1.run_full_process()
+            converter_2.run_full_process()
+            converter_3.run_full_process()
+            logger.info(f"🎉 Conversion successful! Saved to: {os.path.abspath(output_dir)}\n"
+                        f"- Model Type: V2")
+        except Exception:
+            logger.error(f"❌ A critical error occurred during the conversion process")
+            logger.error(traceback.format_exc())
+            remove_folder(output_dir)  # 只在失败时清理输出目录
+        finally:
+            # 无论成功还是失败，都尝试清理缓存目录
+            remove_folder(CACHE_DIR)

genie_tts/Converter/v2/EncoderConverter.py CHANGED Viewed

@@ -1,106 +1,106 @@
-import torch
-import onnx
-import os
-from ..load_state_dict import load_gpt_model, load_sovits_model
-class EncoderConverter:
-    """
-    一个转换器，用于为 t2s_encoder 模型创建：
-    1. 一个从 .ckpt 和 .pth 文件中合并而来的全精度 (fp32) .bin 权重文件。
-    2. 一个链接到该 .bin 文件的 ONNX 模型。
-    """
-    def __init__(self,
-                 ckpt_path: str,
-                 pth_path: str,
-                 onnx_input_path: str,
-                 output_dir: str,
-                 ):
-        self.ckpt_path: str = ckpt_path
-        self.pth_path: str = pth_path
-        self.onnx_input_path: str = onnx_input_path
-        self.output_dir: str = output_dir
-        # 定义最终输出文件的路径
-        self.output_bin_path: str = os.path.join(self.output_dir, "t2s_encoder_fp32.bin")
-        self.output_onnx_path: str = os.path.join(self.output_dir, "t2s_encoder_fp32.onnx")
-        # 确保输出目录存在
-        os.makedirs(self.output_dir, exist_ok=True)
-        # 检查所有输入文件是否存在
-        for path in [self.ckpt_path, self.pth_path, self.onnx_input_path]:
-            if not os.path.exists(path):
-                raise FileNotFoundError(f"Error: Input file not found! Path: {path}")
-    def run_full_process(self):
-        # 1. 定义固定的 ONNX 权重键列表 (此顺序决定了 .bin 文件的布局)
-        onnx_keys = [
-            "encoder.ar_text_embedding.word_embeddings.weight",
-            "encoder.bert_proj.weight",
-            "encoder.bert_proj.bias",
-            "encoder.ar_text_position.alpha",
-            "vits.ssl_proj.weight",
-            "vits.ssl_proj.bias",
-            "vits.quantizer.vq.layers.0._codebook.embed"
-        ]
-        # 2. 加载所有必要的模型和权重
-        ckpt_state_dict = load_gpt_model(self.ckpt_path)['weight']
-        pth_state_dict = load_sovits_model(self.pth_path)['weight']
-        model = onnx.load(self.onnx_input_path, load_external_data=False)
-        initializer_map = {init.name: init for init in model.graph.initializer}
-        current_offset = 0
-        bin_filename = os.path.basename(self.output_bin_path)
-        # 3. 生成 .bin 文件并同步修改 ONNX 模型
-        with open(self.output_bin_path, 'wb') as f_bin:
-            for onnx_key in onnx_keys:
-                source_key = ""
-                source_dict = None
-                if onnx_key.startswith("encoder."):
-                    source_key = "model." + onnx_key[len("encoder."):]
-                    source_dict = ckpt_state_dict
-                elif onnx_key.startswith("vits."):
-                    source_key = onnx_key[len("vits."):]
-                    source_dict = pth_state_dict
-                if source_dict is None:
-                    raise ValueError(
-                        f"❌ Critical error: Unable to determine the weight source for ONNX key '{onnx_key}'.")
-                # 从源文件中提取张量
-                tensor = source_dict.get(source_key)
-                if tensor is None:
-                    raise ValueError(
-                        f"❌ Critical error: Key '{source_key}' (corresponding to ONNX key '{onnx_key}') not found in the source file.")
-                # 转换为 fp32 numpy 数组并获取字节
-                numpy_array_fp32 = tensor.to(torch.float32).cpu().numpy()
-                tensor_bytes = numpy_array_fp32.tobytes()
-                tensor_length = len(tensor_bytes)
-                f_bin.write(tensor_bytes)
-                # 在 ONNX 模型中找到对应的 initializer 并修改它
-                if onnx_key in initializer_map:
-                    tensor_proto = initializer_map[onnx_key]
-                    tensor_proto.ClearField('raw_data')
-                    tensor_proto.data_location = onnx.TensorProto.EXTERNAL
-                    del tensor_proto.external_data[:]
-                    keys_to_set = ["location", "offset", "length"]
-                    values_to_set = [bin_filename, str(current_offset), str(tensor_length)]
-                    for k, v in zip(keys_to_set, values_to_set):
-                        entry = tensor_proto.external_data.add()
-                        entry.key = k
-                        entry.value = v
-                # 更新下一个权重的偏移量
-                current_offset += tensor_length
-        # 4. 保存修改后的 ONNX 模型
-        onnx.save(model, self.output_onnx_path)

+import torch
+import onnx
+import os
+from ..load_state_dict import load_gpt_model, load_sovits_model
+class EncoderConverter:
+    """
+    一个转换器，用于为 t2s_encoder 模型创建：
+    1. 一个从 .ckpt 和 .pth 文件中合并而来的全精度 (fp32) .bin 权重文件。
+    2. 一个链接到该 .bin 文件的 ONNX 模型。
+    """
+    def __init__(self,
+                 ckpt_path: str,
+                 pth_path: str,
+                 onnx_input_path: str,
+                 output_dir: str,
+                 ):
+        self.ckpt_path: str = ckpt_path
+        self.pth_path: str = pth_path
+        self.onnx_input_path: str = onnx_input_path
+        self.output_dir: str = output_dir
+        # 定义最终输出文件的路径
+        self.output_bin_path: str = os.path.join(self.output_dir, "t2s_encoder_fp32.bin")
+        self.output_onnx_path: str = os.path.join(self.output_dir, "t2s_encoder_fp32.onnx")
+        # 确保输出目录存在
+        os.makedirs(self.output_dir, exist_ok=True)
+        # 检查所有输入文件是否存在
+        for path in [self.ckpt_path, self.pth_path, self.onnx_input_path]:
+            if not os.path.exists(path):
+                raise FileNotFoundError(f"Error: Input file not found! Path: {path}")
+    def run_full_process(self):
+        # 1. 定义固定的 ONNX 权重键列表 (此顺序决定了 .bin 文件的布局)
+        onnx_keys = [
+            "encoder.ar_text_embedding.word_embeddings.weight",
+            "encoder.bert_proj.weight",
+            "encoder.bert_proj.bias",
+            "encoder.ar_text_position.alpha",
+            "vits.ssl_proj.weight",
+            "vits.ssl_proj.bias",
+            "vits.quantizer.vq.layers.0._codebook.embed"
+        ]
+        # 2. 加载所有必要的模型和权重
+        ckpt_state_dict = load_gpt_model(self.ckpt_path)['weight']
+        pth_state_dict = load_sovits_model(self.pth_path)['weight']
+        model = onnx.load(self.onnx_input_path, load_external_data=False)
+        initializer_map = {init.name: init for init in model.graph.initializer}
+        current_offset = 0
+        bin_filename = os.path.basename(self.output_bin_path)
+        # 3. 生成 .bin 文件并同步修改 ONNX 模型
+        with open(self.output_bin_path, 'wb') as f_bin:
+            for onnx_key in onnx_keys:
+                source_key = ""
+                source_dict = None
+                if onnx_key.startswith("encoder."):
+                    source_key = "model." + onnx_key[len("encoder."):]
+                    source_dict = ckpt_state_dict
+                elif onnx_key.startswith("vits."):
+                    source_key = onnx_key[len("vits."):]
+                    source_dict = pth_state_dict
+                if source_dict is None:
+                    raise ValueError(
+                        f"❌ Critical error: Unable to determine the weight source for ONNX key '{onnx_key}'.")
+                # 从源文件中提取张量
+                tensor = source_dict.get(source_key)
+                if tensor is None:
+                    raise ValueError(
+                        f"❌ Critical error: Key '{source_key}' (corresponding to ONNX key '{onnx_key}') not found in the source file.")
+                # 转换为 fp32 numpy 数组并获取字节
+                numpy_array_fp32 = tensor.to(torch.float32).cpu().numpy()
+                tensor_bytes = numpy_array_fp32.tobytes()
+                tensor_length = len(tensor_bytes)
+                f_bin.write(tensor_bytes)
+                # 在 ONNX 模型中找到对应的 initializer 并修改它
+                if onnx_key in initializer_map:
+                    tensor_proto = initializer_map[onnx_key]
+                    tensor_proto.ClearField('raw_data')
+                    tensor_proto.data_location = onnx.TensorProto.EXTERNAL
+                    del tensor_proto.external_data[:]
+                    keys_to_set = ["location", "offset", "length"]
+                    values_to_set = [bin_filename, str(current_offset), str(tensor_length)]
+                    for k, v in zip(keys_to_set, values_to_set):
+                        entry = tensor_proto.external_data.add()
+                        entry.key = k
+                        entry.value = v
+                # 更新下一个权重的偏移量
+                current_offset += tensor_length
+        # 4. 保存修改后的 ONNX 模型
+        onnx.save(model, self.output_onnx_path)

genie_tts/Converter/v2/T2SConverter.py CHANGED Viewed

@@ -1,125 +1,125 @@
-import torch
-import onnx
-import numpy as np
-import json
-import os
-from collections import OrderedDict
-from ..load_state_dict import load_gpt_model
-class T2SModelConverter:
-    """
-    一个专门的转换器，用于处理 t2s (Text-to-Speech) 模型。
-    - PyTorch 模型: .ckpt 文件
-    - ONNX 模型: t2s_stage_decoder_fp32.onnx
-    - 遵循特定的键名映射规则。
-    """
-    def __init__(self,
-                 torch_ckpt_path: str,
-                 stage_decoder_onnx_path: str,
-                 first_stage_decoder_onnx_path: str,
-                 key_list_file: str,
-                 output_dir: str,
-                 cache_dir: str,
-                 ):
-        self.torch_ckpt_path: str = torch_ckpt_path
-        self.stage_decoder_onnx_path: str = stage_decoder_onnx_path
-        self.first_stage_decoder_onnx_path: str = first_stage_decoder_onnx_path
-        self.key_list_file: str = key_list_file
-        self.output_dir: str = output_dir
-        self.cache_dir: str = cache_dir
-        os.makedirs(self.output_dir, exist_ok=True)
-        os.makedirs(self.output_dir, exist_ok=True)
-        # 定义输出文件路径
-        self.fp16_bin_path: str = os.path.join(self.output_dir, "t2s_shared_fp16.bin")
-        self.index_table_path: str = os.path.join(self.cache_dir, "t2s_weights_index_fp32.json")
-        self.relinked_encoder_path: str = os.path.join(self.output_dir, "t2s_encoder_fp32.onnx")
-        self.relinked_stage_decoder_path: str = os.path.join(self.output_dir, "t2s_stage_decoder_fp32.onnx")
-        self.relinked_first_stage_decoder_path: str = os.path.join(self.output_dir, "t2s_first_stage_decoder_fp32.onnx")
-        self.reconstructed_fp32_bin_path = os.path.join(self.output_dir, "t2s_shared_fp32.bin")
-    def step1_create_fp16_bin_with_key_mapping(self):
-        """
-        (1) 根据特定的键映射规则，从 .ckpt 创建 fp16 .bin 和 fp32 索引。
-            (已根据用户验证脚本的正确逻辑进行最终修正)
-        """
-        if not os.path.exists(self.key_list_file):
-            raise FileNotFoundError(
-                f"Error: Stage 1 requires the key list file, but it was not found: {self.key_list_file}")
-        with open(self.key_list_file, 'r') as f:
-            onnx_keys = [line.strip() for line in f.readlines()]
-        ckpt_data = load_gpt_model(self.torch_ckpt_path)
-        if 'weight' not in ckpt_data:
-            raise KeyError(
-                f"❌ Error: 'weight' key not found in the .ckpt file. Top-level keys in the file are: {list(ckpt_data.keys())}")
-        torch_state_dict = ckpt_data['weight']
-        index_table = OrderedDict()
-        current_fp32_offset = 0
-        with open(self.fp16_bin_path, 'wb') as f_bin:
-            for onnx_key in onnx_keys:
-                transformed_onnx_key = onnx_key.replace('transformer_encoder', 'h')
-                torch_lookup_key = f"model.{transformed_onnx_key}"
-                torch_tensor = torch_state_dict.get(torch_lookup_key)
-                numpy_array_fp16 = torch_tensor.to(torch.float16).cpu().numpy()
-                f_bin.write(numpy_array_fp16.tobytes())
-                tensor_length_fp32 = numpy_array_fp16.nbytes * 2
-                index_table[onnx_key] = {'offset': current_fp32_offset, 'length': tensor_length_fp32}
-                current_fp32_offset += tensor_length_fp32
-        with open(self.index_table_path, 'w') as f_json:
-            json.dump(index_table, f_json, indent=4)  # type: ignore
-    def step2_relink_onnx_for_fp32(self, old_model: str, new_model: str):
-        """
-        (2) 根据 fp32 索引表，修改 ONNX 模型，使其链接到未来的全精度 .bin。
-            (使用与第一个脚本相同的、更稳定的底层方法)
-        """
-        if not os.path.exists(self.index_table_path):
-            raise FileNotFoundError(
-                f"Error: Stage 2 requires the index file, but it was not found: {self.index_table_path}")
-        # 加载描述 fp32 布局的索引表
-        with open(self.index_table_path, 'r') as f:
-            index_table = json.load(f)
-        model = onnx.load_model(old_model, load_external_data=False)
-        reconstructed_bin_filename = os.path.basename(self.reconstructed_fp32_bin_path)
-        for tensor in model.graph.initializer:
-            if tensor.name in index_table:
-                tensor.ClearField('raw_data')
-                tensor.data_location = onnx.TensorProto.EXTERNAL
-                info = index_table[tensor.name]
-                del tensor.external_data[:]
-                keys = ["location", "offset", "length"]
-                values = [reconstructed_bin_filename, str(info['offset']), str(info['length'])]
-                for k, v in zip(keys, values):
-                    entry = tensor.external_data.add()
-                    entry.key = k
-                    entry.value = v
-        onnx.save(model, new_model)
-    @staticmethod
-    def step3_reconstruct_fp32_bin_from_fp16(fp16_bin_path: str, output_fp32_bin_path: str):
-        """
-        (3) 静态工具函数：从半精度 .bin 文件还原出全精度 .bin 文件。
-        """
-        fp16_array = np.fromfile(fp16_bin_path, dtype=np.float16)
-        fp32_array = fp16_array.astype(np.float32)
-        fp32_array.tofile(output_fp32_bin_path)
-    def run_full_process(self):
-        self.step1_create_fp16_bin_with_key_mapping()
-        self.step2_relink_onnx_for_fp32(self.stage_decoder_onnx_path, self.relinked_stage_decoder_path)
-        self.step2_relink_onnx_for_fp32(self.first_stage_decoder_onnx_path, self.relinked_first_stage_decoder_path)

+import torch
+import onnx
+import numpy as np
+import json
+import os
+from collections import OrderedDict
+from ..load_state_dict import load_gpt_model
+class T2SModelConverter:
+    """
+    一个专门的转换器，用于处理 t2s (Text-to-Speech) 模型。
+    - PyTorch 模型: .ckpt 文件
+    - ONNX 模型: t2s_stage_decoder_fp32.onnx
+    - 遵循特定的键名映射规则。
+    """
+    def __init__(self,
+                 torch_ckpt_path: str,
+                 stage_decoder_onnx_path: str,
+                 first_stage_decoder_onnx_path: str,
+                 key_list_file: str,
+                 output_dir: str,
+                 cache_dir: str,
+                 ):
+        self.torch_ckpt_path: str = torch_ckpt_path
+        self.stage_decoder_onnx_path: str = stage_decoder_onnx_path
+        self.first_stage_decoder_onnx_path: str = first_stage_decoder_onnx_path
+        self.key_list_file: str = key_list_file
+        self.output_dir: str = output_dir
+        self.cache_dir: str = cache_dir
+        os.makedirs(self.output_dir, exist_ok=True)
+        os.makedirs(self.output_dir, exist_ok=True)
+        # 定义输出文件路径
+        self.fp16_bin_path: str = os.path.join(self.output_dir, "t2s_shared_fp16.bin")
+        self.index_table_path: str = os.path.join(self.cache_dir, "t2s_weights_index_fp32.json")
+        self.relinked_encoder_path: str = os.path.join(self.output_dir, "t2s_encoder_fp32.onnx")
+        self.relinked_stage_decoder_path: str = os.path.join(self.output_dir, "t2s_stage_decoder_fp32.onnx")
+        self.relinked_first_stage_decoder_path: str = os.path.join(self.output_dir, "t2s_first_stage_decoder_fp32.onnx")
+        self.reconstructed_fp32_bin_path = os.path.join(self.output_dir, "t2s_shared_fp32.bin")
+    def step1_create_fp16_bin_with_key_mapping(self):
+        """
+        (1) 根据特定的键映射规则，从 .ckpt 创建 fp16 .bin 和 fp32 索引。
+            (已根据用户验证脚本的正确逻辑进行最终修正)
+        """
+        if not os.path.exists(self.key_list_file):
+            raise FileNotFoundError(
+                f"Error: Stage 1 requires the key list file, but it was not found: {self.key_list_file}")
+        with open(self.key_list_file, 'r') as f:
+            onnx_keys = [line.strip() for line in f.readlines()]
+        ckpt_data = load_gpt_model(self.torch_ckpt_path)
+        if 'weight' not in ckpt_data:
+            raise KeyError(
+                f"❌ Error: 'weight' key not found in the .ckpt file. Top-level keys in the file are: {list(ckpt_data.keys())}")
+        torch_state_dict = ckpt_data['weight']
+        index_table = OrderedDict()
+        current_fp32_offset = 0
+        with open(self.fp16_bin_path, 'wb') as f_bin:
+            for onnx_key in onnx_keys:
+                transformed_onnx_key = onnx_key.replace('transformer_encoder', 'h')
+                torch_lookup_key = f"model.{transformed_onnx_key}"
+                torch_tensor = torch_state_dict.get(torch_lookup_key)
+                numpy_array_fp16 = torch_tensor.to(torch.float16).cpu().numpy()
+                f_bin.write(numpy_array_fp16.tobytes())
+                tensor_length_fp32 = numpy_array_fp16.nbytes * 2
+                index_table[onnx_key] = {'offset': current_fp32_offset, 'length': tensor_length_fp32}
+                current_fp32_offset += tensor_length_fp32
+        with open(self.index_table_path, 'w') as f_json:
+            json.dump(index_table, f_json, indent=4)  # type: ignore
+    def step2_relink_onnx_for_fp32(self, old_model: str, new_model: str):
+        """
+        (2) 根据 fp32 索引表，修改 ONNX 模型，使其链接到未来的全精度 .bin。
+            (使用与第一个脚本相同的、更稳定的底层方法)
+        """
+        if not os.path.exists(self.index_table_path):
+            raise FileNotFoundError(
+                f"Error: Stage 2 requires the index file, but it was not found: {self.index_table_path}")
+        # 加载描述 fp32 布局的索引表
+        with open(self.index_table_path, 'r') as f:
+            index_table = json.load(f)
+        model = onnx.load_model(old_model, load_external_data=False)
+        reconstructed_bin_filename = os.path.basename(self.reconstructed_fp32_bin_path)
+        for tensor in model.graph.initializer:
+            if tensor.name in index_table:
+                tensor.ClearField('raw_data')
+                tensor.data_location = onnx.TensorProto.EXTERNAL
+                info = index_table[tensor.name]
+                del tensor.external_data[:]
+                keys = ["location", "offset", "length"]
+                values = [reconstructed_bin_filename, str(info['offset']), str(info['length'])]
+                for k, v in zip(keys, values):
+                    entry = tensor.external_data.add()
+                    entry.key = k
+                    entry.value = v
+        onnx.save(model, new_model)
+    @staticmethod
+    def step3_reconstruct_fp32_bin_from_fp16(fp16_bin_path: str, output_fp32_bin_path: str):
+        """
+        (3) 静态工具函数：从半精度 .bin 文件还原出全精度 .bin 文件。
+        """
+        fp16_array = np.fromfile(fp16_bin_path, dtype=np.float16)
+        fp32_array = fp16_array.astype(np.float32)
+        fp32_array.tofile(output_fp32_bin_path)
+    def run_full_process(self):
+        self.step1_create_fp16_bin_with_key_mapping()
+        self.step2_relink_onnx_for_fp32(self.stage_decoder_onnx_path, self.relinked_stage_decoder_path)
+        self.step2_relink_onnx_for_fp32(self.first_stage_decoder_onnx_path, self.relinked_first_stage_decoder_path)

genie_tts/Converter/v2/VITSConverter.py CHANGED Viewed

@@ -1,129 +1,129 @@
-import torch
-import onnx
-import numpy as np
-import json
-import os
-from collections import OrderedDict
-from ..load_state_dict import load_sovits_model
-class VITSConverter:
-    """
-    一个转换器，用于从 PyTorch 模型创建：
-    1. 一个用于分发的半精度 (fp16) .bin 权重文件。
-    2. 一个与全精度 (fp32) 布局兼容的 ONNX 模型。
-    3. 一个可以将 fp16 .bin 文件还原为 fp32 .bin 的工具函数。
-    """
-    def __init__(self,
-                 torch_pth_path: str,
-                 vits_onnx_path: str,
-                 key_list_file: str,
-                 output_dir: str,
-                 cache_dir: str,
-                 ):
-        self.torch_pth_path: str = torch_pth_path
-        self.vits_onnx_path: str = vits_onnx_path
-        self.key_list_file: str = key_list_file
-        self.output_dir: str = output_dir
-        self.cache_dir: str = cache_dir
-        # 定义输出文件路径
-        self.fp16_bin_path: str = os.path.join(self.output_dir, "vits_fp16.bin")
-        self.index_table_path: str = os.path.join(self.cache_dir, "vits_weights_index_fp32.json")
-        self.relinked_fp32_onnx_path: str = os.path.join(self.output_dir, "vits_fp32.onnx")
-        self.reconstructed_fp32_bin_path: str = os.path.join(self.output_dir, "vits_fp32.bin")
-        # 确保输出目录存在
-        os.makedirs(self.cache_dir, exist_ok=True)
-        os.makedirs(self.output_dir, exist_ok=True)
-        if not os.path.exists(self.key_list_file):
-            raise FileNotFoundError(f"Error: Key list file not found! Path: {self.key_list_file}")
-    def step1_create_fp16_bin_and_fp32_index(self):
-        """
-        (1) 创建一个半精度 (fp16) 的 .bin 文件，但生成一个
-            描述全精度 (fp32) 布局的索引表。
-        """
-        # 加载 key 列表
-        with open(self.key_list_file, 'r') as f:
-            onnx_keys = [line.strip() for line in f.readlines()]
-        # 加载 PyTorch 模型权重
-        torch_state_dict = load_sovits_model(self.torch_pth_path)['weight']
-        index_table = OrderedDict()
-        current_fp32_offset = 0
-        with open(self.fp16_bin_path, 'wb') as f_bin:
-            for onnx_key in onnx_keys:
-                torch_key = onnx_key[len("vq_model."):] if onnx_key.startswith("vq_model.") else onnx_key
-                torch_tensor = torch_state_dict.get(torch_key)
-                if torch_tensor is None:
-                    raise ValueError(f"❌ Critical error: Key '{torch_key}' not found in the PyTorch weights")
-                # 转换为 fp16 并写入文件
-                torch_tensor_fp16 = torch_tensor.to(torch.float16)
-                numpy_array_fp16 = torch_tensor_fp16.cpu().numpy()
-                tensor_bytes_fp16 = numpy_array_fp16.tobytes()
-                f_bin.write(tensor_bytes_fp16)
-                tensor_length_fp32 = len(tensor_bytes_fp16) * 2
-                index_table[onnx_key] = {
-                    'offset': current_fp32_offset,
-                    'length': tensor_length_fp32
-                }
-                current_fp32_offset += tensor_length_fp32
-        # 保存描述 fp32 布局的索引表
-        with open(self.index_table_path, 'w') as f_json:
-            json.dump(index_table, f_json, indent=4)  # type: ignore
-    def step2_relink_onnx_for_fp32(self):
-        """
-        (2) 根据 fp32 索引表，修改 ONNX 模型，使其链接到一个
-            未来的、全精度的 .bin 文件。
-        """
-        # 加载描述 fp32 布局的索引表
-        with open(self.index_table_path, 'r') as f:
-            index_table = json.load(f)
-        model = onnx.load_model(self.vits_onnx_path, load_external_data=False)
-        reconstructed_bin_filename = os.path.basename(self.reconstructed_fp32_bin_path)
-        for tensor in model.graph.initializer:
-            if tensor.name in index_table:
-                tensor.ClearField('raw_data')
-                tensor.data_location = onnx.TensorProto.EXTERNAL
-                info = index_table[tensor.name]
-                del tensor.external_data[:]
-                keys = ["location", "offset", "length"]
-                values = [reconstructed_bin_filename, str(info['offset']), str(info['length'])]
-                for k, v in zip(keys, values):
-                    entry = tensor.external_data.add()
-                    entry.key = k
-                    entry.value = v
-        # 保存修改后的、链接到 fp32 权重的 ONNX 模型
-        onnx.save(model, self.relinked_fp32_onnx_path)
-    @staticmethod
-    def step3_reconstruct_fp32_bin_from_fp16(fp16_bin_path: str, output_fp32_bin_path: str):
-        """
-        (3) 静态工具函数：从半精度 .bin 文件还原出全精度 .bin 文件。
-        Args:
-            fp16_bin_path (str): 输入的半精度 .bin 文件路径。
-            output_fp32_bin_path (str): 输出的全精度 .bin 文件路径。
-        """
-        fp16_array = np.fromfile(fp16_bin_path, dtype=np.float16)
-        fp32_array = fp16_array.astype(np.float32)
-        fp32_array.tofile(output_fp32_bin_path)
-    def run_full_process(self):
-        self.step1_create_fp16_bin_and_fp32_index()
-        self.step2_relink_onnx_for_fp32()

+import torch
+import onnx
+import numpy as np
+import json
+import os
+from collections import OrderedDict
+from ..load_state_dict import load_sovits_model
+class VITSConverter:
+    """
+    一个转换器，用于从 PyTorch 模型创建：
+    1. 一个用于分发的半精度 (fp16) .bin 权重文件。
+    2. 一个与全精度 (fp32) 布局兼容的 ONNX 模型。
+    3. 一个可以将 fp16 .bin 文件还原为 fp32 .bin 的工具函数。
+    """
+    def __init__(self,
+                 torch_pth_path: str,
+                 vits_onnx_path: str,
+                 key_list_file: str,
+                 output_dir: str,
+                 cache_dir: str,
+                 ):
+        self.torch_pth_path: str = torch_pth_path
+        self.vits_onnx_path: str = vits_onnx_path
+        self.key_list_file: str = key_list_file
+        self.output_dir: str = output_dir
+        self.cache_dir: str = cache_dir
+        # 定义输出文件路径
+        self.fp16_bin_path: str = os.path.join(self.output_dir, "vits_fp16.bin")
+        self.index_table_path: str = os.path.join(self.cache_dir, "vits_weights_index_fp32.json")
+        self.relinked_fp32_onnx_path: str = os.path.join(self.output_dir, "vits_fp32.onnx")
+        self.reconstructed_fp32_bin_path: str = os.path.join(self.output_dir, "vits_fp32.bin")
+        # 确保输出目录存在
+        os.makedirs(self.cache_dir, exist_ok=True)
+        os.makedirs(self.output_dir, exist_ok=True)
+        if not os.path.exists(self.key_list_file):
+            raise FileNotFoundError(f"Error: Key list file not found! Path: {self.key_list_file}")
+    def step1_create_fp16_bin_and_fp32_index(self):
+        """
+        (1) 创建一个半精度 (fp16) 的 .bin 文件，但生成一个
+            描述全精度 (fp32) 布局的索引表。
+        """
+        # 加载 key 列表
+        with open(self.key_list_file, 'r') as f:
+            onnx_keys = [line.strip() for line in f.readlines()]
+        # 加载 PyTorch 模型权重
+        torch_state_dict = load_sovits_model(self.torch_pth_path)['weight']
+        index_table = OrderedDict()
+        current_fp32_offset = 0
+        with open(self.fp16_bin_path, 'wb') as f_bin:
+            for onnx_key in onnx_keys:
+                torch_key = onnx_key[len("vq_model."):] if onnx_key.startswith("vq_model.") else onnx_key
+                torch_tensor = torch_state_dict.get(torch_key)
+                if torch_tensor is None:
+                    raise ValueError(f"❌ Critical error: Key '{torch_key}' not found in the PyTorch weights")
+                # 转换为 fp16 并写入文件
+                torch_tensor_fp16 = torch_tensor.to(torch.float16)
+                numpy_array_fp16 = torch_tensor_fp16.cpu().numpy()
+                tensor_bytes_fp16 = numpy_array_fp16.tobytes()
+                f_bin.write(tensor_bytes_fp16)
+                tensor_length_fp32 = len(tensor_bytes_fp16) * 2
+                index_table[onnx_key] = {
+                    'offset': current_fp32_offset,
+                    'length': tensor_length_fp32
+                }
+                current_fp32_offset += tensor_length_fp32
+        # 保存描述 fp32 布局的索引表
+        with open(self.index_table_path, 'w') as f_json:
+            json.dump(index_table, f_json, indent=4)  # type: ignore
+    def step2_relink_onnx_for_fp32(self):
+        """
+        (2) 根据 fp32 索引表，修改 ONNX 模型，使其链接到一个
+            未来的、全精度的 .bin 文件。
+        """
+        # 加载描述 fp32 布局的索引表
+        with open(self.index_table_path, 'r') as f:
+            index_table = json.load(f)
+        model = onnx.load_model(self.vits_onnx_path, load_external_data=False)
+        reconstructed_bin_filename = os.path.basename(self.reconstructed_fp32_bin_path)
+        for tensor in model.graph.initializer:
+            if tensor.name in index_table:
+                tensor.ClearField('raw_data')
+                tensor.data_location = onnx.TensorProto.EXTERNAL
+                info = index_table[tensor.name]
+                del tensor.external_data[:]
+                keys = ["location", "offset", "length"]
+                values = [reconstructed_bin_filename, str(info['offset']), str(info['length'])]
+                for k, v in zip(keys, values):
+                    entry = tensor.external_data.add()
+                    entry.key = k
+                    entry.value = v
+        # 保存修改后的、链接到 fp32 权重的 ONNX 模型
+        onnx.save(model, self.relinked_fp32_onnx_path)
+    @staticmethod
+    def step3_reconstruct_fp32_bin_from_fp16(fp16_bin_path: str, output_fp32_bin_path: str):
+        """
+        (3) 静态工具函数：从半精度 .bin 文件还原出全精度 .bin 文件。
+        Args:
+            fp16_bin_path (str): 输入的半精度 .bin 文件路径。
+            output_fp32_bin_path (str): 输出的全精度 .bin 文件路径。
+        """
+        fp16_array = np.fromfile(fp16_bin_path, dtype=np.float16)
+        fp32_array = fp16_array.astype(np.float32)
+        fp32_array.tofile(output_fp32_bin_path)
+    def run_full_process(self):
+        self.step1_create_fp16_bin_and_fp32_index()
+        self.step2_relink_onnx_for_fp32()

genie_tts/Converter/v2/__pycache__/Converter.cpython-311.pyc ADDED Viewed

Binary file (7.94 kB). View file

genie_tts/Converter/v2/__pycache__/EncoderConverter.cpython-311.pyc ADDED Viewed

Binary file (5.57 kB). View file

genie_tts/Converter/v2/__pycache__/T2SConverter.cpython-311.pyc ADDED Viewed

Binary file (9.11 kB). View file

genie_tts/Converter/v2/__pycache__/VITSConverter.cpython-311.pyc ADDED Viewed

Binary file (8.21 kB). View file

genie_tts/Converter/v2/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (191 Bytes). View file

genie_tts/Converter/v2ProPlus/Converter.py CHANGED Viewed

@@ -1,89 +1,89 @@
-import logging
-import traceback
-import os
-import contextlib
-import importlib.resources
-from ...Utils.Constants import PACKAGE_NAME
-from ..v2.VITSConverter import VITSConverter
-from ..v2.T2SConverter import T2SModelConverter
-from ..v2.EncoderConverter import EncoderConverter
-from ..v2.Converter import (ENCODER_RESOURCE_PATH, STAGE_DECODER_RESOURCE_PATH,
-                            FIRST_STAGE_DECODER_RESOURCE_PATH, T2S_KEYS_RESOURCE_PATH, CACHE_DIR, remove_folder)
-from .PromptEncoderConverter import PromptEncoderConverter
-logger = logging.getLogger()
-# 使用 V2 ProPlus 的文件。
-VITS_RESOURCE_PATH = "Data/v2ProPlus/Models/vits_fp32.onnx"
-PROMPT_ENCODER_RESOURCE_PATH = "Data/v2ProPlus/Models/prompt_encoder_fp32.onnx"
-VITS_KEYS_RESOURCE_PATH = "Data/v2ProPlus/Keys/vits_weights.txt"
-PROMPT_ENCODER_KEYS_RESOURCE_PATH = "Data/v2ProPlus/Keys/prompt_encoder_weights.txt"
-def convert(torch_ckpt_path: str, torch_pth_path: str, output_dir: str) -> None:
-    # 确保缓存和输出目录存在
-    os.makedirs(CACHE_DIR, exist_ok=True)
-    os.makedirs(output_dir, exist_ok=True)
-    if len(os.listdir(output_dir)) > 0:
-        logger.warning(f"The output directory {output_dir} is not empty!")
-    with contextlib.ExitStack() as stack:
-        files = importlib.resources.files(PACKAGE_NAME)
-        def enter(p: str) -> str:
-            return str(stack.enter_context(importlib.resources.as_file(files.joinpath(p))))
-        encoder_onnx_path = enter(ENCODER_RESOURCE_PATH)
-        stage_decoder_path = enter(STAGE_DECODER_RESOURCE_PATH)
-        first_stage_decoder_path = enter(FIRST_STAGE_DECODER_RESOURCE_PATH)
-        vits_onnx_path = enter(VITS_RESOURCE_PATH)
-        t2s_keys_path = enter(T2S_KEYS_RESOURCE_PATH)
-        vits_keys_path = enter(VITS_KEYS_RESOURCE_PATH)
-        prompt_encoder_path = enter(PROMPT_ENCODER_RESOURCE_PATH)
-        prompt_encoder_keys_path = enter(PROMPT_ENCODER_KEYS_RESOURCE_PATH)
-        converter_1 = T2SModelConverter(
-            torch_ckpt_path=torch_ckpt_path,
-            stage_decoder_onnx_path=stage_decoder_path,
-            first_stage_decoder_onnx_path=first_stage_decoder_path,
-            key_list_file=t2s_keys_path,
-            output_dir=output_dir,
-            cache_dir=CACHE_DIR,
-        )
-        converter_2 = VITSConverter(
-            torch_pth_path=torch_pth_path,
-            vits_onnx_path=vits_onnx_path,
-            key_list_file=vits_keys_path,
-            output_dir=output_dir,
-            cache_dir=CACHE_DIR,
-        )
-        converter_3 = EncoderConverter(
-            ckpt_path=torch_ckpt_path,
-            pth_path=torch_pth_path,
-            onnx_input_path=encoder_onnx_path,
-            output_dir=output_dir,
-        )
-        converter_4 = PromptEncoderConverter(
-            torch_pth_path=torch_pth_path,
-            prompt_encoder_onnx_path=prompt_encoder_path,
-            key_list_file=prompt_encoder_keys_path,
-            output_dir=output_dir,
-            cache_dir=CACHE_DIR,
-        )
-        try:
-            converter_1.run_full_process()
-            converter_2.run_full_process()
-            converter_3.run_full_process()
-            converter_4.run_full_process()
-            logger.info(f"🎉 Conversion successful! Saved to: {os.path.abspath(output_dir)}\n"
-                        f"- Model Type: V2ProPlus")
-        except Exception:
-            logger.error(f"❌ A critical error occurred during the conversion process")
-            logger.error(traceback.format_exc())
-            remove_folder(output_dir)  # 只在失败时清理输出目录
-        finally:
-            # 无论成功还是失败，都尝试清理缓存目录
-            remove_folder(CACHE_DIR)

+import logging
+import traceback
+import os
+import contextlib
+import importlib.resources
+from ...Utils.Constants import PACKAGE_NAME
+from ..v2.VITSConverter import VITSConverter
+from ..v2.T2SConverter import T2SModelConverter
+from ..v2.EncoderConverter import EncoderConverter
+from ..v2.Converter import (ENCODER_RESOURCE_PATH, STAGE_DECODER_RESOURCE_PATH,
+                            FIRST_STAGE_DECODER_RESOURCE_PATH, T2S_KEYS_RESOURCE_PATH, CACHE_DIR, remove_folder)
+from .PromptEncoderConverter import PromptEncoderConverter
+logger = logging.getLogger()
+# 使用 V2 ProPlus 的文件。
+VITS_RESOURCE_PATH = "Data/v2ProPlus/Models/vits_fp32.onnx"
+PROMPT_ENCODER_RESOURCE_PATH = "Data/v2ProPlus/Models/prompt_encoder_fp32.onnx"
+VITS_KEYS_RESOURCE_PATH = "./Data/v2ProPlus/Keys/vits_weights.txt"
+PROMPT_ENCODER_KEYS_RESOURCE_PATH = "./Data/v2ProPlus/Keys/prompt_encoder_weights.txt"
+def convert(torch_ckpt_path: str, torch_pth_path: str, output_dir: str) -> None:
+    # 确保缓存和输出目录存在
+    os.makedirs(CACHE_DIR, exist_ok=True)
+    os.makedirs(output_dir, exist_ok=True)
+    if len(os.listdir(output_dir)) > 0:
+        logger.warning(f"The output directory {output_dir} is not empty!")
+    with contextlib.ExitStack() as stack:
+        files = importlib.resources.files(PACKAGE_NAME)
+        def enter(p: str) -> str:
+            return str(stack.enter_context(importlib.resources.as_file(files.joinpath(p))))
+        encoder_onnx_path = enter(ENCODER_RESOURCE_PATH)
+        stage_decoder_path = enter(STAGE_DECODER_RESOURCE_PATH)
+        first_stage_decoder_path = enter(FIRST_STAGE_DECODER_RESOURCE_PATH)
+        vits_onnx_path = enter(VITS_RESOURCE_PATH)
+        t2s_keys_path = enter(T2S_KEYS_RESOURCE_PATH)
+        vits_keys_path = enter(VITS_KEYS_RESOURCE_PATH)
+        prompt_encoder_path = enter(PROMPT_ENCODER_RESOURCE_PATH)
+        prompt_encoder_keys_path = enter(PROMPT_ENCODER_KEYS_RESOURCE_PATH)
+        converter_1 = T2SModelConverter(
+            torch_ckpt_path=torch_ckpt_path,
+            stage_decoder_onnx_path=stage_decoder_path,
+            first_stage_decoder_onnx_path=first_stage_decoder_path,
+            key_list_file=t2s_keys_path,
+            output_dir=output_dir,
+            cache_dir=CACHE_DIR,
+        )
+        converter_2 = VITSConverter(
+            torch_pth_path=torch_pth_path,
+            vits_onnx_path=vits_onnx_path,
+            key_list_file=vits_keys_path,
+            output_dir=output_dir,
+            cache_dir=CACHE_DIR,
+        )
+        converter_3 = EncoderConverter(
+            ckpt_path=torch_ckpt_path,
+            pth_path=torch_pth_path,
+            onnx_input_path=encoder_onnx_path,
+            output_dir=output_dir,
+        )
+        converter_4 = PromptEncoderConverter(
+            torch_pth_path=torch_pth_path,
+            prompt_encoder_onnx_path=prompt_encoder_path,
+            key_list_file=prompt_encoder_keys_path,
+            output_dir=output_dir,
+            cache_dir=CACHE_DIR,
+        )
+        try:
+            converter_1.run_full_process()
+            converter_2.run_full_process()
+            converter_3.run_full_process()
+            converter_4.run_full_process()
+            logger.info(f"🎉 Conversion successful! Saved to: {os.path.abspath(output_dir)}\n"
+                        f"- Model Type: V2ProPlus")
+        except Exception:
+            logger.error(f"❌ A critical error occurred during the conversion process")
+            logger.error(traceback.format_exc())
+            remove_folder(output_dir)  # 只在失败时清理输出目录
+        finally:
+            # 无论成功还是失败，都尝试清理缓存目录
+            remove_folder(CACHE_DIR)

genie_tts/Converter/v2ProPlus/PromptEncoderConverter.py CHANGED Viewed

@@ -1,128 +1,128 @@
-import torch
-import onnx
-import json
-import os
-from collections import OrderedDict
-from ..load_state_dict import load_sovits_model
-class PromptEncoderConverter:
-    """
-    一个转换器，用于从 PyTorch 模型创建：
-    1. 一个用于分发的半精度 (fp16) .bin 权重文件。
-    2. 一个与全精度 (fp32) 布局兼容的 ONNX 模型。
-    3. 一个可以将 fp16 .bin 文件还原为 fp32 .bin 的工具函数。
-    """
-    def __init__(self,
-                 torch_pth_path: str,
-                 prompt_encoder_onnx_path: str,
-                 key_list_file: str,
-                 output_dir: str,
-                 cache_dir: str,
-                 ):
-        self.torch_pth_path: str = torch_pth_path
-        self.vits_onnx_path: str = prompt_encoder_onnx_path
-        self.key_list_file: str = key_list_file
-        self.output_dir: str = output_dir
-        self.cache_dir: str = cache_dir
-        # 定义输出文件路径
-        self.fp16_bin_path: str = os.path.join(self.output_dir, "prompt_encoder_fp16.bin")
-        self.index_table_path: str = os.path.join(self.cache_dir, "prompt_encoder_weights_index_fp32.json")
-        self.relinked_fp32_onnx_path: str = os.path.join(self.output_dir, "prompt_encoder_fp32.onnx")
-        self.reconstructed_fp32_bin_path: str = os.path.join(self.output_dir, "prompt_encoder_fp32.bin")
-        # 确保输出目录存在
-        os.makedirs(self.cache_dir, exist_ok=True)
-        os.makedirs(self.output_dir, exist_ok=True)
-        if not os.path.exists(self.key_list_file):
-            raise FileNotFoundError(f"错误: Key 列表文件未找到! 路径: {self.key_list_file}")
-    def step1_create_fp16_bin_and_fp32_index(self):
-        """
-        (1) 创建一个半精度 (fp16) 的 .bin 文件，但生成一个
-            描述全精度 (fp32) 布局的索引表。
-        """
-        # 加载 key 列表
-        with open(self.key_list_file, 'r') as f:
-            onnx_keys = [line.strip() for line in f.readlines()]
-        # 加载 PyTorch 模型权重
-        torch_state_dict = load_sovits_model(self.torch_pth_path)['weight']
-        index_table = OrderedDict()
-        # 这个偏移量将按照 fp32 的大小进行累加
-        current_fp32_offset = 0
-        with open(self.fp16_bin_path, 'wb') as f_bin:
-            for onnx_key in onnx_keys:
-                torch_key = onnx_key[len("vq_model."):] if onnx_key.startswith("vq_model.") else onnx_key
-                torch_tensor = torch_state_dict.get(torch_key)
-                if torch_tensor is None:
-                    raise ValueError(f"❌ 严重错误: 在 PyTorch 权重中找不到 Key '{torch_key}'")
-                # 转换为 fp16 并写入文件
-                torch_tensor_fp16 = torch_tensor.to(torch.float16)
-                numpy_array_fp16 = torch_tensor_fp16.cpu().numpy()
-                tensor_bytes_fp16 = numpy_array_fp16.tobytes()
-                f_bin.write(tensor_bytes_fp16)
-                # 关键步骤：计算并记录 fp32 的长度和偏移量
-                # 一个 fp32 = 4 字节, 一个 fp16 = 2 字节。所以 fp32 长度是 fp16 的两倍。
-                tensor_length_fp32 = len(tensor_bytes_fp16) * 2
-                index_table[onnx_key] = {
-                    'offset': current_fp32_offset,
-                    'length': tensor_length_fp32
-                }
-                # 偏移量也按照 fp32 的长度进行累加
-                current_fp32_offset += tensor_length_fp32
-        # 保存描述 fp32 布局的索引表
-        with open(self.index_table_path, 'w') as f_json:
-            json.dump(index_table, f_json, indent=4)  # type: ignore
-    def step2_relink_onnx_for_fp32(self):
-        """
-        (2) 根据 fp32 索引表，修改 ONNX 模型，使其链接到一个
-            未来的、全精度的 .bin 文件。
-        """
-        # 加载描述 fp32 布局的索引表
-        with open(self.index_table_path, 'r') as f:
-            index_table = json.load(f)
-        # 加载 ONNX 模型结构
-        model = onnx.load_model(self.vits_onnx_path, load_external_data=False)
-        # 这个 ONNX 模型将要链接的 .bin 文件名
-        reconstructed_bin_filename = os.path.basename(self.reconstructed_fp32_bin_path)
-        for tensor in model.graph.initializer:
-            if tensor.name in index_table:
-                tensor.ClearField('raw_data')
-                tensor.data_location = onnx.TensorProto.EXTERNAL
-                info = index_table[tensor.name]
-                del tensor.external_data[:]
-                keys = ["location", "offset", "length"]
-                values = [reconstructed_bin_filename, str(info['offset']), str(info['length'])]
-                for k, v in zip(keys, values):
-                    entry = tensor.external_data.add()
-                    entry.key = k
-                    entry.value = v
-        # 保存修改后的、链接到 fp32 权重的 ONNX 模型
-        onnx.save(model, self.relinked_fp32_onnx_path)
-    def run_full_process(self):
-        """
-        按顺序执行核心的转换步骤 (1 和 2)。
-        """
-        self.step1_create_fp16_bin_and_fp32_index()
-        self.step2_relink_onnx_for_fp32()

+import torch
+import onnx
+import json
+import os
+from collections import OrderedDict
+from ..load_state_dict import load_sovits_model
+class PromptEncoderConverter:
+    """
+    一个转换器，用于从 PyTorch 模型创建：
+    1. 一个用于分发的半精度 (fp16) .bin 权重文件。
+    2. 一个与全精度 (fp32) 布局兼容的 ONNX 模型。
+    3. 一个可以将 fp16 .bin 文件还原为 fp32 .bin 的工具函数。
+    """
+    def __init__(self,
+                 torch_pth_path: str,
+                 prompt_encoder_onnx_path: str,
+                 key_list_file: str,
+                 output_dir: str,
+                 cache_dir: str,
+                 ):
+        self.torch_pth_path: str = torch_pth_path
+        self.vits_onnx_path: str = prompt_encoder_onnx_path
+        self.key_list_file: str = key_list_file
+        self.output_dir: str = output_dir
+        self.cache_dir: str = cache_dir
+        # 定义输出文件路径
+        self.fp16_bin_path: str = os.path.join(self.output_dir, "prompt_encoder_fp16.bin")
+        self.index_table_path: str = os.path.join(self.cache_dir, "prompt_encoder_weights_index_fp32.json")
+        self.relinked_fp32_onnx_path: str = os.path.join(self.output_dir, "prompt_encoder_fp32.onnx")
+        self.reconstructed_fp32_bin_path: str = os.path.join(self.output_dir, "prompt_encoder_fp32.bin")
+        # 确保输出目录存在
+        os.makedirs(self.cache_dir, exist_ok=True)
+        os.makedirs(self.output_dir, exist_ok=True)
+        if not os.path.exists(self.key_list_file):
+            raise FileNotFoundError(f"错误: Key 列表文件未找到! 路径: {self.key_list_file}")
+    def step1_create_fp16_bin_and_fp32_index(self):
+        """
+        (1) 创建一个半精度 (fp16) 的 .bin 文件，但生成一个
+            描述全精度 (fp32) 布局的索引表。
+        """
+        # 加载 key 列表
+        with open(self.key_list_file, 'r') as f:
+            onnx_keys = [line.strip() for line in f.readlines()]
+        # 加载 PyTorch 模型权重
+        torch_state_dict = load_sovits_model(self.torch_pth_path)['weight']
+        index_table = OrderedDict()
+        # 这个偏移量将按照 fp32 的大小进行累加
+        current_fp32_offset = 0
+        with open(self.fp16_bin_path, 'wb') as f_bin:
+            for onnx_key in onnx_keys:
+                torch_key = onnx_key[len("vq_model."):] if onnx_key.startswith("vq_model.") else onnx_key
+                torch_tensor = torch_state_dict.get(torch_key)
+                if torch_tensor is None:
+                    raise ValueError(f"❌ 严重错误: 在 PyTorch 权重中找不到 Key '{torch_key}'")
+                # 转换为 fp16 并写入文件
+                torch_tensor_fp16 = torch_tensor.to(torch.float16)
+                numpy_array_fp16 = torch_tensor_fp16.cpu().numpy()
+                tensor_bytes_fp16 = numpy_array_fp16.tobytes()
+                f_bin.write(tensor_bytes_fp16)
+                # 关键步骤：计算并记录 fp32 的长度和偏移量
+                # 一个 fp32 = 4 字节, 一个 fp16 = 2 字节。所以 fp32 长度是 fp16 的两倍。
+                tensor_length_fp32 = len(tensor_bytes_fp16) * 2
+                index_table[onnx_key] = {
+                    'offset': current_fp32_offset,
+                    'length': tensor_length_fp32
+                }
+                # 偏移量也按照 fp32 的长度进行累加
+                current_fp32_offset += tensor_length_fp32
+        # 保存描述 fp32 布局的索引表
+        with open(self.index_table_path, 'w') as f_json:
+            json.dump(index_table, f_json, indent=4)  # type: ignore
+    def step2_relink_onnx_for_fp32(self):
+        """
+        (2) 根据 fp32 索引表，修改 ONNX 模型，使其链接到一个
+            未来的、全精度的 .bin 文件。
+        """
+        # 加载描述 fp32 布局的索引表
+        with open(self.index_table_path, 'r') as f:
+            index_table = json.load(f)
+        # 加载 ONNX 模型结构
+        model = onnx.load_model(self.vits_onnx_path, load_external_data=False)
+        # 这个 ONNX 模型将要链接的 .bin 文件名
+        reconstructed_bin_filename = os.path.basename(self.reconstructed_fp32_bin_path)
+        for tensor in model.graph.initializer:
+            if tensor.name in index_table:
+                tensor.ClearField('raw_data')
+                tensor.data_location = onnx.TensorProto.EXTERNAL
+                info = index_table[tensor.name]
+                del tensor.external_data[:]
+                keys = ["location", "offset", "length"]
+                values = [reconstructed_bin_filename, str(info['offset']), str(info['length'])]
+                for k, v in zip(keys, values):
+                    entry = tensor.external_data.add()
+                    entry.key = k
+                    entry.value = v
+        # 保存修改后的、链接到 fp32 权重的 ONNX 模型
+        onnx.save(model, self.relinked_fp32_onnx_path)
+    def run_full_process(self):
+        """
+        按顺序执行核心的转换步骤 (1 和 2)。
+        """
+        self.step1_create_fp16_bin_and_fp32_index()
+        self.step2_relink_onnx_for_fp32()

genie_tts/Converter/v2ProPlus/__pycache__/Converter.cpython-311.pyc ADDED Viewed

Binary file (5.34 kB). View file

genie_tts/Converter/v2ProPlus/__pycache__/PromptEncoderConverter.cpython-311.pyc ADDED Viewed

Binary file (7.51 kB). View file

genie_tts/Core/Resources.py CHANGED Viewed

@@ -1,76 +1,76 @@
-import os
-from huggingface_hub import snapshot_download
-def download_genie_data() -> None:
-    print(f"🚀 Starting download Genie-TTS resources… This may take a few moments. ⏳")
-    snapshot_download(
-        repo_id="High-Logic/Genie",
-        repo_type="model",
-        allow_patterns="GenieData/*",
-        local_dir=".",
-        local_dir_use_symlinks=True,  # 软链接
-    )
-    print("✅ Genie-TTS resources downloaded successfully.")
-def ensure_exists(path: str, name: str):
-    if not os.path.exists(path):
-        raise FileNotFoundError(
-            f"Required directory or file '{name}' was not found at: {path}\n"
-            f"Please download the pretrained models and place them under './GenieData', "
-            f"or set the environment variable GENIE_DATA_DIR to the correct directory."
-        )
-"""
-文件结构与项目 Midori 同步。
-"""
-GENIE_DATA_DIR: str = os.getenv(
-    "GENIE_DATA_DIR",
-    "./GenieData"
-)
-"""
-Japanese_G2P_DIR: str = os.getenv(
-    "Japanese_G2P_DIR",
-    f"{GENIE_DATA_DIR}/G2P/JapaneseG2P"
-)
-"""
-English_G2P_DIR: str = os.getenv(
-    "English_G2P_DIR",
-    f"{GENIE_DATA_DIR}/G2P/EnglishG2P"
-)
-Chinese_G2P_DIR: str = os.getenv(
-    "Chinese_G2P_DIR",
-    f"{GENIE_DATA_DIR}/G2P/ChineseG2P"
-)
-HUBERT_MODEL_DIR: str = os.getenv(
-    "HUBERT_MODEL_DIR",
-    f"{GENIE_DATA_DIR}/chinese-hubert-base"
-)
-SV_MODEL: str = os.getenv(
-    "SV_MODEL",
-    f"{GENIE_DATA_DIR}/speaker_encoder.onnx"
-)
-ROBERTA_MODEL_DIR: str = os.getenv(
-    "ROBERTA_MODEL_DIR",
-    f"{GENIE_DATA_DIR}/RoBERTa"
-)
-if not os.path.exists(GENIE_DATA_DIR):
-    print("⚠️ GenieData folder not found.")
-    choice = input("Would you like to download it automatically from HuggingFace? (y/N): ").strip().lower()
-    if choice == "y":
-        download_genie_data()
-# ---- Run directory checks ----
-ensure_exists(HUBERT_MODEL_DIR, "HUBERT_MODEL_DIR")
-ensure_exists(SV_MODEL, "SV_MODEL")
-# ensure_exists(ROBERTA_MODEL_DIR, "ROBERTA_MODEL_DIR")

+import os
+from huggingface_hub import snapshot_download
+def download_genie_data() -> None:
+    print(f"🚀 Starting download Genie-TTS resources… This may take a few moments. ⏳")
+    snapshot_download(
+        repo_id="High-Logic/Genie",
+        repo_type="model",
+        allow_patterns="GenieData/*",
+        local_dir=".",
+        local_dir_use_symlinks=True,  # 软链接
+    )
+    print("✅ Genie-TTS resources downloaded successfully.")
+def ensure_exists(path: str, name: str):
+    if not os.path.exists(path):
+        raise FileNotFoundError(
+            f"Required directory or file '{name}' was not found at: {path}\n"
+            f"Please download the pretrained models and place them under './GenieData', "
+            f"or set the environment variable GENIE_DATA_DIR to the correct directory."
+        )
+"""
+文件结构与项目 Midori 同步。
+"""
+GENIE_DATA_DIR: str = os.getenv(
+    "GENIE_DATA_DIR",
+    "./GenieData"
+)
+"""
+Japanese_G2P_DIR: str = os.getenv(
+    "Japanese_G2P_DIR",
+    f"{GENIE_DATA_DIR}/G2P/JapaneseG2P"
+)
+"""
+English_G2P_DIR: str = os.getenv(
+    "English_G2P_DIR",
+    f"{GENIE_DATA_DIR}/G2P/EnglishG2P"
+)
+Chinese_G2P_DIR: str = os.getenv(
+    "Chinese_G2P_DIR",
+    f"{GENIE_DATA_DIR}/G2P/ChineseG2P"
+)
+HUBERT_MODEL_DIR: str = os.getenv(
+    "HUBERT_MODEL_DIR",
+    f"{GENIE_DATA_DIR}/chinese-hubert-base"
+)
+SV_MODEL: str = os.getenv(
+    "SV_MODEL",
+    f"{GENIE_DATA_DIR}/speaker_encoder.onnx"
+)
+ROBERTA_MODEL_DIR: str = os.getenv(
+    "ROBERTA_MODEL_DIR",
+    f"{GENIE_DATA_DIR}/RoBERTa"
+)
+if not os.path.exists(GENIE_DATA_DIR):
+    print("⚠️ GenieData folder not found.")
+    choice = input("Would you like to download it automatically from HuggingFace? (y/N): ").strip().lower()
+    if choice == "y":
+        download_genie_data()
+# ---- Run directory checks ----
+ensure_exists(HUBERT_MODEL_DIR, "HUBERT_MODEL_DIR")
+ensure_exists(SV_MODEL, "SV_MODEL")
+# ensure_exists(ROBERTA_MODEL_DIR, "ROBERTA_MODEL_DIR")

genie_tts/Core/__pycache__/Inference.cpython-311.pyc ADDED Viewed

Binary file (4.79 kB). View file

genie_tts/Core/__pycache__/Resources.cpython-311.pyc ADDED Viewed

Binary file (2.89 kB). View file

genie_tts/Core/__pycache__/TTSPlayer.cpython-311.pyc ADDED Viewed

Binary file (15 kB). View file

genie_tts/Core/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (183 Bytes). View file

genie_tts/Data/v2/Keys/t2s_onnx_keys.txt CHANGED Viewed

@@ -1,291 +1,291 @@
-ar_audio_embedding.word_embeddings.weight
-ar_audio_position.alpha
-transformer_encoder.layers.0.self_attn.in_proj_weight
-transformer_encoder.layers.0.self_attn.in_proj_bias
-transformer_encoder.layers.0.self_attn.out_proj.weight
-transformer_encoder.layers.0.self_attn.out_proj.bias
-transformer_encoder.layers.0.linear1.weight
-transformer_encoder.layers.0.linear1.bias
-transformer_encoder.layers.0.linear2.weight
-transformer_encoder.layers.0.linear2.bias
-transformer_encoder.layers.0.norm1.weight
-transformer_encoder.layers.0.norm1.bias
-transformer_encoder.layers.0.norm2.weight
-transformer_encoder.layers.0.norm2.bias
-transformer_encoder.layers.1.self_attn.in_proj_weight
-transformer_encoder.layers.1.self_attn.in_proj_bias
-transformer_encoder.layers.1.self_attn.out_proj.weight
-transformer_encoder.layers.1.self_attn.out_proj.bias
-transformer_encoder.layers.1.linear1.weight
-transformer_encoder.layers.1.linear1.bias
-transformer_encoder.layers.1.linear2.weight
-transformer_encoder.layers.1.linear2.bias
-transformer_encoder.layers.1.norm1.weight
-transformer_encoder.layers.1.norm1.bias
-transformer_encoder.layers.1.norm2.weight
-transformer_encoder.layers.1.norm2.bias
-transformer_encoder.layers.2.self_attn.in_proj_weight
-transformer_encoder.layers.2.self_attn.in_proj_bias
-transformer_encoder.layers.2.self_attn.out_proj.weight
-transformer_encoder.layers.2.self_attn.out_proj.bias
-transformer_encoder.layers.2.linear1.weight
-transformer_encoder.layers.2.linear1.bias
-transformer_encoder.layers.2.linear2.weight
-transformer_encoder.layers.2.linear2.bias
-transformer_encoder.layers.2.norm1.weight
-transformer_encoder.layers.2.norm1.bias
-transformer_encoder.layers.2.norm2.weight
-transformer_encoder.layers.2.norm2.bias
-transformer_encoder.layers.3.self_attn.in_proj_weight
-transformer_encoder.layers.3.self_attn.in_proj_bias
-transformer_encoder.layers.3.self_attn.out_proj.weight
-transformer_encoder.layers.3.self_attn.out_proj.bias
-transformer_encoder.layers.3.linear1.weight
-transformer_encoder.layers.3.linear1.bias
-transformer_encoder.layers.3.linear2.weight
-transformer_encoder.layers.3.linear2.bias
-transformer_encoder.layers.3.norm1.weight
-transformer_encoder.layers.3.norm1.bias
-transformer_encoder.layers.3.norm2.weight
-transformer_encoder.layers.3.norm2.bias
-transformer_encoder.layers.4.self_attn.in_proj_weight
-transformer_encoder.layers.4.self_attn.in_proj_bias
-transformer_encoder.layers.4.self_attn.out_proj.weight
-transformer_encoder.layers.4.self_attn.out_proj.bias
-transformer_encoder.layers.4.linear1.weight
-transformer_encoder.layers.4.linear1.bias
-transformer_encoder.layers.4.linear2.weight
-transformer_encoder.layers.4.linear2.bias
-transformer_encoder.layers.4.norm1.weight
-transformer_encoder.layers.4.norm1.bias
-transformer_encoder.layers.4.norm2.weight
-transformer_encoder.layers.4.norm2.bias
-transformer_encoder.layers.5.self_attn.in_proj_weight
-transformer_encoder.layers.5.self_attn.in_proj_bias
-transformer_encoder.layers.5.self_attn.out_proj.weight
-transformer_encoder.layers.5.self_attn.out_proj.bias
-transformer_encoder.layers.5.linear1.weight
-transformer_encoder.layers.5.linear1.bias
-transformer_encoder.layers.5.linear2.weight
-transformer_encoder.layers.5.linear2.bias
-transformer_encoder.layers.5.norm1.weight
-transformer_encoder.layers.5.norm1.bias
-transformer_encoder.layers.5.norm2.weight
-transformer_encoder.layers.5.norm2.bias
-transformer_encoder.layers.6.self_attn.in_proj_weight
-transformer_encoder.layers.6.self_attn.in_proj_bias
-transformer_encoder.layers.6.self_attn.out_proj.weight
-transformer_encoder.layers.6.self_attn.out_proj.bias
-transformer_encoder.layers.6.linear1.weight
-transformer_encoder.layers.6.linear1.bias
-transformer_encoder.layers.6.linear2.weight
-transformer_encoder.layers.6.linear2.bias
-transformer_encoder.layers.6.norm1.weight
-transformer_encoder.layers.6.norm1.bias
-transformer_encoder.layers.6.norm2.weight
-transformer_encoder.layers.6.norm2.bias
-transformer_encoder.layers.7.self_attn.in_proj_weight
-transformer_encoder.layers.7.self_attn.in_proj_bias
-transformer_encoder.layers.7.self_attn.out_proj.weight
-transformer_encoder.layers.7.self_attn.out_proj.bias
-transformer_encoder.layers.7.linear1.weight
-transformer_encoder.layers.7.linear1.bias
-transformer_encoder.layers.7.linear2.weight
-transformer_encoder.layers.7.linear2.bias
-transformer_encoder.layers.7.norm1.weight
-transformer_encoder.layers.7.norm1.bias
-transformer_encoder.layers.7.norm2.weight
-transformer_encoder.layers.7.norm2.bias
-transformer_encoder.layers.8.self_attn.in_proj_weight
-transformer_encoder.layers.8.self_attn.in_proj_bias
-transformer_encoder.layers.8.self_attn.out_proj.weight
-transformer_encoder.layers.8.self_attn.out_proj.bias
-transformer_encoder.layers.8.linear1.weight
-transformer_encoder.layers.8.linear1.bias
-transformer_encoder.layers.8.linear2.weight
-transformer_encoder.layers.8.linear2.bias
-transformer_encoder.layers.8.norm1.weight
-transformer_encoder.layers.8.norm1.bias
-transformer_encoder.layers.8.norm2.weight
-transformer_encoder.layers.8.norm2.bias
-transformer_encoder.layers.9.self_attn.in_proj_weight
-transformer_encoder.layers.9.self_attn.in_proj_bias
-transformer_encoder.layers.9.self_attn.out_proj.weight
-transformer_encoder.layers.9.self_attn.out_proj.bias
-transformer_encoder.layers.9.linear1.weight
-transformer_encoder.layers.9.linear1.bias
-transformer_encoder.layers.9.linear2.weight
-transformer_encoder.layers.9.linear2.bias
-transformer_encoder.layers.9.norm1.weight
-transformer_encoder.layers.9.norm1.bias
-transformer_encoder.layers.9.norm2.weight
-transformer_encoder.layers.9.norm2.bias
-transformer_encoder.layers.10.self_attn.in_proj_weight
-transformer_encoder.layers.10.self_attn.in_proj_bias
-transformer_encoder.layers.10.self_attn.out_proj.weight
-transformer_encoder.layers.10.self_attn.out_proj.bias
-transformer_encoder.layers.10.linear1.weight
-transformer_encoder.layers.10.linear1.bias
-transformer_encoder.layers.10.linear2.weight
-transformer_encoder.layers.10.linear2.bias
-transformer_encoder.layers.10.norm1.weight
-transformer_encoder.layers.10.norm1.bias
-transformer_encoder.layers.10.norm2.weight
-transformer_encoder.layers.10.norm2.bias
-transformer_encoder.layers.11.self_attn.in_proj_weight
-transformer_encoder.layers.11.self_attn.in_proj_bias
-transformer_encoder.layers.11.self_attn.out_proj.weight
-transformer_encoder.layers.11.self_attn.out_proj.bias
-transformer_encoder.layers.11.linear1.weight
-transformer_encoder.layers.11.linear1.bias
-transformer_encoder.layers.11.linear2.weight
-transformer_encoder.layers.11.linear2.bias
-transformer_encoder.layers.11.norm1.weight
-transformer_encoder.layers.11.norm1.bias
-transformer_encoder.layers.11.norm2.weight
-transformer_encoder.layers.11.norm2.bias
-transformer_encoder.layers.12.self_attn.in_proj_weight
-transformer_encoder.layers.12.self_attn.in_proj_bias
-transformer_encoder.layers.12.self_attn.out_proj.weight
-transformer_encoder.layers.12.self_attn.out_proj.bias
-transformer_encoder.layers.12.linear1.weight
-transformer_encoder.layers.12.linear1.bias
-transformer_encoder.layers.12.linear2.weight
-transformer_encoder.layers.12.linear2.bias
-transformer_encoder.layers.12.norm1.weight
-transformer_encoder.layers.12.norm1.bias
-transformer_encoder.layers.12.norm2.weight
-transformer_encoder.layers.12.norm2.bias
-transformer_encoder.layers.13.self_attn.in_proj_weight
-transformer_encoder.layers.13.self_attn.in_proj_bias
-transformer_encoder.layers.13.self_attn.out_proj.weight
-transformer_encoder.layers.13.self_attn.out_proj.bias
-transformer_encoder.layers.13.linear1.weight
-transformer_encoder.layers.13.linear1.bias
-transformer_encoder.layers.13.linear2.weight
-transformer_encoder.layers.13.linear2.bias
-transformer_encoder.layers.13.norm1.weight
-transformer_encoder.layers.13.norm1.bias
-transformer_encoder.layers.13.norm2.weight
-transformer_encoder.layers.13.norm2.bias
-transformer_encoder.layers.14.self_attn.in_proj_weight
-transformer_encoder.layers.14.self_attn.in_proj_bias
-transformer_encoder.layers.14.self_attn.out_proj.weight
-transformer_encoder.layers.14.self_attn.out_proj.bias
-transformer_encoder.layers.14.linear1.weight
-transformer_encoder.layers.14.linear1.bias
-transformer_encoder.layers.14.linear2.weight
-transformer_encoder.layers.14.linear2.bias
-transformer_encoder.layers.14.norm1.weight
-transformer_encoder.layers.14.norm1.bias
-transformer_encoder.layers.14.norm2.weight
-transformer_encoder.layers.14.norm2.bias
-transformer_encoder.layers.15.self_attn.in_proj_weight
-transformer_encoder.layers.15.self_attn.in_proj_bias
-transformer_encoder.layers.15.self_attn.out_proj.weight
-transformer_encoder.layers.15.self_attn.out_proj.bias
-transformer_encoder.layers.15.linear1.weight
-transformer_encoder.layers.15.linear1.bias
-transformer_encoder.layers.15.linear2.weight
-transformer_encoder.layers.15.linear2.bias
-transformer_encoder.layers.15.norm1.weight
-transformer_encoder.layers.15.norm1.bias
-transformer_encoder.layers.15.norm2.weight
-transformer_encoder.layers.15.norm2.bias
-transformer_encoder.layers.16.self_attn.in_proj_weight
-transformer_encoder.layers.16.self_attn.in_proj_bias
-transformer_encoder.layers.16.self_attn.out_proj.weight
-transformer_encoder.layers.16.self_attn.out_proj.bias
-transformer_encoder.layers.16.linear1.weight
-transformer_encoder.layers.16.linear1.bias
-transformer_encoder.layers.16.linear2.weight
-transformer_encoder.layers.16.linear2.bias
-transformer_encoder.layers.16.norm1.weight
-transformer_encoder.layers.16.norm1.bias
-transformer_encoder.layers.16.norm2.weight
-transformer_encoder.layers.16.norm2.bias
-transformer_encoder.layers.17.self_attn.in_proj_weight
-transformer_encoder.layers.17.self_attn.in_proj_bias
-transformer_encoder.layers.17.self_attn.out_proj.weight
-transformer_encoder.layers.17.self_attn.out_proj.bias
-transformer_encoder.layers.17.linear1.weight
-transformer_encoder.layers.17.linear1.bias
-transformer_encoder.layers.17.linear2.weight
-transformer_encoder.layers.17.linear2.bias
-transformer_encoder.layers.17.norm1.weight
-transformer_encoder.layers.17.norm1.bias
-transformer_encoder.layers.17.norm2.weight
-transformer_encoder.layers.17.norm2.bias
-transformer_encoder.layers.18.self_attn.in_proj_weight
-transformer_encoder.layers.18.self_attn.in_proj_bias
-transformer_encoder.layers.18.self_attn.out_proj.weight
-transformer_encoder.layers.18.self_attn.out_proj.bias
-transformer_encoder.layers.18.linear1.weight
-transformer_encoder.layers.18.linear1.bias
-transformer_encoder.layers.18.linear2.weight
-transformer_encoder.layers.18.linear2.bias
-transformer_encoder.layers.18.norm1.weight
-transformer_encoder.layers.18.norm1.bias
-transformer_encoder.layers.18.norm2.weight
-transformer_encoder.layers.18.norm2.bias
-transformer_encoder.layers.19.self_attn.in_proj_weight
-transformer_encoder.layers.19.self_attn.in_proj_bias
-transformer_encoder.layers.19.self_attn.out_proj.weight
-transformer_encoder.layers.19.self_attn.out_proj.bias
-transformer_encoder.layers.19.linear1.weight
-transformer_encoder.layers.19.linear1.bias
-transformer_encoder.layers.19.linear2.weight
-transformer_encoder.layers.19.linear2.bias
-transformer_encoder.layers.19.norm1.weight
-transformer_encoder.layers.19.norm1.bias
-transformer_encoder.layers.19.norm2.weight
-transformer_encoder.layers.19.norm2.bias
-transformer_encoder.layers.20.self_attn.in_proj_weight
-transformer_encoder.layers.20.self_attn.in_proj_bias
-transformer_encoder.layers.20.self_attn.out_proj.weight
-transformer_encoder.layers.20.self_attn.out_proj.bias
-transformer_encoder.layers.20.linear1.weight
-transformer_encoder.layers.20.linear1.bias
-transformer_encoder.layers.20.linear2.weight
-transformer_encoder.layers.20.linear2.bias
-transformer_encoder.layers.20.norm1.weight
-transformer_encoder.layers.20.norm1.bias
-transformer_encoder.layers.20.norm2.weight
-transformer_encoder.layers.20.norm2.bias
-transformer_encoder.layers.21.self_attn.in_proj_weight
-transformer_encoder.layers.21.self_attn.in_proj_bias
-transformer_encoder.layers.21.self_attn.out_proj.weight
-transformer_encoder.layers.21.self_attn.out_proj.bias
-transformer_encoder.layers.21.linear1.weight
-transformer_encoder.layers.21.linear1.bias
-transformer_encoder.layers.21.linear2.weight
-transformer_encoder.layers.21.linear2.bias
-transformer_encoder.layers.21.norm1.weight
-transformer_encoder.layers.21.norm1.bias
-transformer_encoder.layers.21.norm2.weight
-transformer_encoder.layers.21.norm2.bias
-transformer_encoder.layers.22.self_attn.in_proj_weight
-transformer_encoder.layers.22.self_attn.in_proj_bias
-transformer_encoder.layers.22.self_attn.out_proj.weight
-transformer_encoder.layers.22.self_attn.out_proj.bias
-transformer_encoder.layers.22.linear1.weight
-transformer_encoder.layers.22.linear1.bias
-transformer_encoder.layers.22.linear2.weight
-transformer_encoder.layers.22.linear2.bias
-transformer_encoder.layers.22.norm1.weight
-transformer_encoder.layers.22.norm1.bias
-transformer_encoder.layers.22.norm2.weight
-transformer_encoder.layers.22.norm2.bias
-transformer_encoder.layers.23.self_attn.in_proj_weight
-transformer_encoder.layers.23.self_attn.in_proj_bias
-transformer_encoder.layers.23.self_attn.out_proj.weight
-transformer_encoder.layers.23.self_attn.out_proj.bias
-transformer_encoder.layers.23.linear1.weight
-transformer_encoder.layers.23.linear1.bias
-transformer_encoder.layers.23.linear2.weight
-transformer_encoder.layers.23.linear2.bias
-transformer_encoder.layers.23.norm1.weight
-transformer_encoder.layers.23.norm1.bias
-transformer_encoder.layers.23.norm2.weight
-transformer_encoder.layers.23.norm2.bias
-ar_predict_layer.weight

+ar_audio_embedding.word_embeddings.weight
+ar_audio_position.alpha
+transformer_encoder.layers.0.self_attn.in_proj_weight
+transformer_encoder.layers.0.self_attn.in_proj_bias
+transformer_encoder.layers.0.self_attn.out_proj.weight
+transformer_encoder.layers.0.self_attn.out_proj.bias
+transformer_encoder.layers.0.linear1.weight
+transformer_encoder.layers.0.linear1.bias
+transformer_encoder.layers.0.linear2.weight
+transformer_encoder.layers.0.linear2.bias
+transformer_encoder.layers.0.norm1.weight
+transformer_encoder.layers.0.norm1.bias
+transformer_encoder.layers.0.norm2.weight
+transformer_encoder.layers.0.norm2.bias
+transformer_encoder.layers.1.self_attn.in_proj_weight
+transformer_encoder.layers.1.self_attn.in_proj_bias
+transformer_encoder.layers.1.self_attn.out_proj.weight
+transformer_encoder.layers.1.self_attn.out_proj.bias
+transformer_encoder.layers.1.linear1.weight
+transformer_encoder.layers.1.linear1.bias
+transformer_encoder.layers.1.linear2.weight
+transformer_encoder.layers.1.linear2.bias
+transformer_encoder.layers.1.norm1.weight
+transformer_encoder.layers.1.norm1.bias
+transformer_encoder.layers.1.norm2.weight
+transformer_encoder.layers.1.norm2.bias
+transformer_encoder.layers.2.self_attn.in_proj_weight
+transformer_encoder.layers.2.self_attn.in_proj_bias
+transformer_encoder.layers.2.self_attn.out_proj.weight
+transformer_encoder.layers.2.self_attn.out_proj.bias
+transformer_encoder.layers.2.linear1.weight
+transformer_encoder.layers.2.linear1.bias
+transformer_encoder.layers.2.linear2.weight
+transformer_encoder.layers.2.linear2.bias
+transformer_encoder.layers.2.norm1.weight
+transformer_encoder.layers.2.norm1.bias
+transformer_encoder.layers.2.norm2.weight
+transformer_encoder.layers.2.norm2.bias
+transformer_encoder.layers.3.self_attn.in_proj_weight
+transformer_encoder.layers.3.self_attn.in_proj_bias
+transformer_encoder.layers.3.self_attn.out_proj.weight
+transformer_encoder.layers.3.self_attn.out_proj.bias
+transformer_encoder.layers.3.linear1.weight
+transformer_encoder.layers.3.linear1.bias
+transformer_encoder.layers.3.linear2.weight
+transformer_encoder.layers.3.linear2.bias
+transformer_encoder.layers.3.norm1.weight
+transformer_encoder.layers.3.norm1.bias
+transformer_encoder.layers.3.norm2.weight
+transformer_encoder.layers.3.norm2.bias
+transformer_encoder.layers.4.self_attn.in_proj_weight
+transformer_encoder.layers.4.self_attn.in_proj_bias
+transformer_encoder.layers.4.self_attn.out_proj.weight
+transformer_encoder.layers.4.self_attn.out_proj.bias
+transformer_encoder.layers.4.linear1.weight
+transformer_encoder.layers.4.linear1.bias
+transformer_encoder.layers.4.linear2.weight
+transformer_encoder.layers.4.linear2.bias
+transformer_encoder.layers.4.norm1.weight
+transformer_encoder.layers.4.norm1.bias
+transformer_encoder.layers.4.norm2.weight
+transformer_encoder.layers.4.norm2.bias
+transformer_encoder.layers.5.self_attn.in_proj_weight
+transformer_encoder.layers.5.self_attn.in_proj_bias
+transformer_encoder.layers.5.self_attn.out_proj.weight
+transformer_encoder.layers.5.self_attn.out_proj.bias
+transformer_encoder.layers.5.linear1.weight
+transformer_encoder.layers.5.linear1.bias
+transformer_encoder.layers.5.linear2.weight
+transformer_encoder.layers.5.linear2.bias
+transformer_encoder.layers.5.norm1.weight
+transformer_encoder.layers.5.norm1.bias
+transformer_encoder.layers.5.norm2.weight
+transformer_encoder.layers.5.norm2.bias
+transformer_encoder.layers.6.self_attn.in_proj_weight
+transformer_encoder.layers.6.self_attn.in_proj_bias
+transformer_encoder.layers.6.self_attn.out_proj.weight
+transformer_encoder.layers.6.self_attn.out_proj.bias
+transformer_encoder.layers.6.linear1.weight
+transformer_encoder.layers.6.linear1.bias
+transformer_encoder.layers.6.linear2.weight
+transformer_encoder.layers.6.linear2.bias
+transformer_encoder.layers.6.norm1.weight
+transformer_encoder.layers.6.norm1.bias
+transformer_encoder.layers.6.norm2.weight
+transformer_encoder.layers.6.norm2.bias
+transformer_encoder.layers.7.self_attn.in_proj_weight
+transformer_encoder.layers.7.self_attn.in_proj_bias
+transformer_encoder.layers.7.self_attn.out_proj.weight
+transformer_encoder.layers.7.self_attn.out_proj.bias
+transformer_encoder.layers.7.linear1.weight
+transformer_encoder.layers.7.linear1.bias
+transformer_encoder.layers.7.linear2.weight
+transformer_encoder.layers.7.linear2.bias
+transformer_encoder.layers.7.norm1.weight
+transformer_encoder.layers.7.norm1.bias
+transformer_encoder.layers.7.norm2.weight
+transformer_encoder.layers.7.norm2.bias
+transformer_encoder.layers.8.self_attn.in_proj_weight
+transformer_encoder.layers.8.self_attn.in_proj_bias
+transformer_encoder.layers.8.self_attn.out_proj.weight
+transformer_encoder.layers.8.self_attn.out_proj.bias
+transformer_encoder.layers.8.linear1.weight
+transformer_encoder.layers.8.linear1.bias
+transformer_encoder.layers.8.linear2.weight
+transformer_encoder.layers.8.linear2.bias
+transformer_encoder.layers.8.norm1.weight
+transformer_encoder.layers.8.norm1.bias
+transformer_encoder.layers.8.norm2.weight
+transformer_encoder.layers.8.norm2.bias
+transformer_encoder.layers.9.self_attn.in_proj_weight
+transformer_encoder.layers.9.self_attn.in_proj_bias
+transformer_encoder.layers.9.self_attn.out_proj.weight
+transformer_encoder.layers.9.self_attn.out_proj.bias
+transformer_encoder.layers.9.linear1.weight
+transformer_encoder.layers.9.linear1.bias
+transformer_encoder.layers.9.linear2.weight
+transformer_encoder.layers.9.linear2.bias
+transformer_encoder.layers.9.norm1.weight
+transformer_encoder.layers.9.norm1.bias
+transformer_encoder.layers.9.norm2.weight
+transformer_encoder.layers.9.norm2.bias
+transformer_encoder.layers.10.self_attn.in_proj_weight
+transformer_encoder.layers.10.self_attn.in_proj_bias
+transformer_encoder.layers.10.self_attn.out_proj.weight
+transformer_encoder.layers.10.self_attn.out_proj.bias
+transformer_encoder.layers.10.linear1.weight
+transformer_encoder.layers.10.linear1.bias
+transformer_encoder.layers.10.linear2.weight
+transformer_encoder.layers.10.linear2.bias
+transformer_encoder.layers.10.norm1.weight
+transformer_encoder.layers.10.norm1.bias
+transformer_encoder.layers.10.norm2.weight
+transformer_encoder.layers.10.norm2.bias
+transformer_encoder.layers.11.self_attn.in_proj_weight
+transformer_encoder.layers.11.self_attn.in_proj_bias
+transformer_encoder.layers.11.self_attn.out_proj.weight
+transformer_encoder.layers.11.self_attn.out_proj.bias
+transformer_encoder.layers.11.linear1.weight
+transformer_encoder.layers.11.linear1.bias
+transformer_encoder.layers.11.linear2.weight
+transformer_encoder.layers.11.linear2.bias
+transformer_encoder.layers.11.norm1.weight
+transformer_encoder.layers.11.norm1.bias
+transformer_encoder.layers.11.norm2.weight
+transformer_encoder.layers.11.norm2.bias
+transformer_encoder.layers.12.self_attn.in_proj_weight
+transformer_encoder.layers.12.self_attn.in_proj_bias
+transformer_encoder.layers.12.self_attn.out_proj.weight
+transformer_encoder.layers.12.self_attn.out_proj.bias
+transformer_encoder.layers.12.linear1.weight
+transformer_encoder.layers.12.linear1.bias
+transformer_encoder.layers.12.linear2.weight
+transformer_encoder.layers.12.linear2.bias
+transformer_encoder.layers.12.norm1.weight
+transformer_encoder.layers.12.norm1.bias
+transformer_encoder.layers.12.norm2.weight
+transformer_encoder.layers.12.norm2.bias
+transformer_encoder.layers.13.self_attn.in_proj_weight
+transformer_encoder.layers.13.self_attn.in_proj_bias
+transformer_encoder.layers.13.self_attn.out_proj.weight
+transformer_encoder.layers.13.self_attn.out_proj.bias
+transformer_encoder.layers.13.linear1.weight
+transformer_encoder.layers.13.linear1.bias
+transformer_encoder.layers.13.linear2.weight
+transformer_encoder.layers.13.linear2.bias
+transformer_encoder.layers.13.norm1.weight
+transformer_encoder.layers.13.norm1.bias
+transformer_encoder.layers.13.norm2.weight
+transformer_encoder.layers.13.norm2.bias
+transformer_encoder.layers.14.self_attn.in_proj_weight
+transformer_encoder.layers.14.self_attn.in_proj_bias
+transformer_encoder.layers.14.self_attn.out_proj.weight
+transformer_encoder.layers.14.self_attn.out_proj.bias
+transformer_encoder.layers.14.linear1.weight
+transformer_encoder.layers.14.linear1.bias
+transformer_encoder.layers.14.linear2.weight
+transformer_encoder.layers.14.linear2.bias
+transformer_encoder.layers.14.norm1.weight
+transformer_encoder.layers.14.norm1.bias
+transformer_encoder.layers.14.norm2.weight
+transformer_encoder.layers.14.norm2.bias
+transformer_encoder.layers.15.self_attn.in_proj_weight
+transformer_encoder.layers.15.self_attn.in_proj_bias
+transformer_encoder.layers.15.self_attn.out_proj.weight
+transformer_encoder.layers.15.self_attn.out_proj.bias
+transformer_encoder.layers.15.linear1.weight
+transformer_encoder.layers.15.linear1.bias
+transformer_encoder.layers.15.linear2.weight
+transformer_encoder.layers.15.linear2.bias
+transformer_encoder.layers.15.norm1.weight
+transformer_encoder.layers.15.norm1.bias
+transformer_encoder.layers.15.norm2.weight
+transformer_encoder.layers.15.norm2.bias
+transformer_encoder.layers.16.self_attn.in_proj_weight
+transformer_encoder.layers.16.self_attn.in_proj_bias
+transformer_encoder.layers.16.self_attn.out_proj.weight
+transformer_encoder.layers.16.self_attn.out_proj.bias
+transformer_encoder.layers.16.linear1.weight
+transformer_encoder.layers.16.linear1.bias
+transformer_encoder.layers.16.linear2.weight
+transformer_encoder.layers.16.linear2.bias
+transformer_encoder.layers.16.norm1.weight
+transformer_encoder.layers.16.norm1.bias
+transformer_encoder.layers.16.norm2.weight
+transformer_encoder.layers.16.norm2.bias
+transformer_encoder.layers.17.self_attn.in_proj_weight
+transformer_encoder.layers.17.self_attn.in_proj_bias
+transformer_encoder.layers.17.self_attn.out_proj.weight
+transformer_encoder.layers.17.self_attn.out_proj.bias
+transformer_encoder.layers.17.linear1.weight
+transformer_encoder.layers.17.linear1.bias
+transformer_encoder.layers.17.linear2.weight
+transformer_encoder.layers.17.linear2.bias
+transformer_encoder.layers.17.norm1.weight
+transformer_encoder.layers.17.norm1.bias
+transformer_encoder.layers.17.norm2.weight
+transformer_encoder.layers.17.norm2.bias
+transformer_encoder.layers.18.self_attn.in_proj_weight
+transformer_encoder.layers.18.self_attn.in_proj_bias
+transformer_encoder.layers.18.self_attn.out_proj.weight
+transformer_encoder.layers.18.self_attn.out_proj.bias
+transformer_encoder.layers.18.linear1.weight
+transformer_encoder.layers.18.linear1.bias
+transformer_encoder.layers.18.linear2.weight
+transformer_encoder.layers.18.linear2.bias
+transformer_encoder.layers.18.norm1.weight
+transformer_encoder.layers.18.norm1.bias
+transformer_encoder.layers.18.norm2.weight
+transformer_encoder.layers.18.norm2.bias
+transformer_encoder.layers.19.self_attn.in_proj_weight
+transformer_encoder.layers.19.self_attn.in_proj_bias
+transformer_encoder.layers.19.self_attn.out_proj.weight
+transformer_encoder.layers.19.self_attn.out_proj.bias
+transformer_encoder.layers.19.linear1.weight
+transformer_encoder.layers.19.linear1.bias
+transformer_encoder.layers.19.linear2.weight
+transformer_encoder.layers.19.linear2.bias
+transformer_encoder.layers.19.norm1.weight
+transformer_encoder.layers.19.norm1.bias
+transformer_encoder.layers.19.norm2.weight
+transformer_encoder.layers.19.norm2.bias
+transformer_encoder.layers.20.self_attn.in_proj_weight
+transformer_encoder.layers.20.self_attn.in_proj_bias
+transformer_encoder.layers.20.self_attn.out_proj.weight
+transformer_encoder.layers.20.self_attn.out_proj.bias
+transformer_encoder.layers.20.linear1.weight
+transformer_encoder.layers.20.linear1.bias
+transformer_encoder.layers.20.linear2.weight
+transformer_encoder.layers.20.linear2.bias
+transformer_encoder.layers.20.norm1.weight
+transformer_encoder.layers.20.norm1.bias
+transformer_encoder.layers.20.norm2.weight
+transformer_encoder.layers.20.norm2.bias
+transformer_encoder.layers.21.self_attn.in_proj_weight
+transformer_encoder.layers.21.self_attn.in_proj_bias
+transformer_encoder.layers.21.self_attn.out_proj.weight
+transformer_encoder.layers.21.self_attn.out_proj.bias
+transformer_encoder.layers.21.linear1.weight
+transformer_encoder.layers.21.linear1.bias
+transformer_encoder.layers.21.linear2.weight
+transformer_encoder.layers.21.linear2.bias
+transformer_encoder.layers.21.norm1.weight
+transformer_encoder.layers.21.norm1.bias
+transformer_encoder.layers.21.norm2.weight
+transformer_encoder.layers.21.norm2.bias
+transformer_encoder.layers.22.self_attn.in_proj_weight
+transformer_encoder.layers.22.self_attn.in_proj_bias
+transformer_encoder.layers.22.self_attn.out_proj.weight
+transformer_encoder.layers.22.self_attn.out_proj.bias
+transformer_encoder.layers.22.linear1.weight
+transformer_encoder.layers.22.linear1.bias
+transformer_encoder.layers.22.linear2.weight
+transformer_encoder.layers.22.linear2.bias
+transformer_encoder.layers.22.norm1.weight
+transformer_encoder.layers.22.norm1.bias
+transformer_encoder.layers.22.norm2.weight
+transformer_encoder.layers.22.norm2.bias
+transformer_encoder.layers.23.self_attn.in_proj_weight
+transformer_encoder.layers.23.self_attn.in_proj_bias
+transformer_encoder.layers.23.self_attn.out_proj.weight
+transformer_encoder.layers.23.self_attn.out_proj.bias
+transformer_encoder.layers.23.linear1.weight
+transformer_encoder.layers.23.linear1.bias
+transformer_encoder.layers.23.linear2.weight
+transformer_encoder.layers.23.linear2.bias
+transformer_encoder.layers.23.norm1.weight
+transformer_encoder.layers.23.norm1.bias
+transformer_encoder.layers.23.norm2.weight
+transformer_encoder.layers.23.norm2.bias
+ar_predict_layer.weight

genie_tts/Data/v2/Keys/vits_onnx_keys.txt CHANGED Viewed

@@ -1,668 +1,668 @@
-vq_model.dec.cond.bias
-vq_model.dec.cond.weight
-vq_model.dec.conv_post.weight
-vq_model.dec.conv_pre.bias
-vq_model.dec.conv_pre.weight
-vq_model.dec.resblocks.0.convs1.0.bias
-vq_model.dec.resblocks.0.convs1.0.weight_g
-vq_model.dec.resblocks.0.convs1.0.weight_v
-vq_model.dec.resblocks.0.convs1.1.bias
-vq_model.dec.resblocks.0.convs1.1.weight_g
-vq_model.dec.resblocks.0.convs1.1.weight_v
-vq_model.dec.resblocks.0.convs1.2.bias
-vq_model.dec.resblocks.0.convs1.2.weight_g
-vq_model.dec.resblocks.0.convs1.2.weight_v
-vq_model.dec.resblocks.0.convs2.0.bias
-vq_model.dec.resblocks.0.convs2.0.weight_g
-vq_model.dec.resblocks.0.convs2.0.weight_v
-vq_model.dec.resblocks.0.convs2.1.bias
-vq_model.dec.resblocks.0.convs2.1.weight_g
-vq_model.dec.resblocks.0.convs2.1.weight_v
-vq_model.dec.resblocks.0.convs2.2.bias
-vq_model.dec.resblocks.0.convs2.2.weight_g
-vq_model.dec.resblocks.0.convs2.2.weight_v
-vq_model.dec.resblocks.1.convs1.0.bias
-vq_model.dec.resblocks.1.convs1.0.weight_g
-vq_model.dec.resblocks.1.convs1.0.weight_v
-vq_model.dec.resblocks.1.convs1.1.bias
-vq_model.dec.resblocks.1.convs1.1.weight_g
-vq_model.dec.resblocks.1.convs1.1.weight_v
-vq_model.dec.resblocks.1.convs1.2.bias
-vq_model.dec.resblocks.1.convs1.2.weight_g
-vq_model.dec.resblocks.1.convs1.2.weight_v
-vq_model.dec.resblocks.1.convs2.0.bias
-vq_model.dec.resblocks.1.convs2.0.weight_g
-vq_model.dec.resblocks.1.convs2.0.weight_v
-vq_model.dec.resblocks.1.convs2.1.bias
-vq_model.dec.resblocks.1.convs2.1.weight_g
-vq_model.dec.resblocks.1.convs2.1.weight_v
-vq_model.dec.resblocks.1.convs2.2.bias
-vq_model.dec.resblocks.1.convs2.2.weight_g
-vq_model.dec.resblocks.1.convs2.2.weight_v
-vq_model.dec.resblocks.10.convs1.0.bias
-vq_model.dec.resblocks.10.convs1.0.weight_g
-vq_model.dec.resblocks.10.convs1.0.weight_v
-vq_model.dec.resblocks.10.convs1.1.bias
-vq_model.dec.resblocks.10.convs1.1.weight_g
-vq_model.dec.resblocks.10.convs1.1.weight_v
-vq_model.dec.resblocks.10.convs1.2.bias
-vq_model.dec.resblocks.10.convs1.2.weight_g
-vq_model.dec.resblocks.10.convs1.2.weight_v
-vq_model.dec.resblocks.10.convs2.0.bias
-vq_model.dec.resblocks.10.convs2.0.weight_g
-vq_model.dec.resblocks.10.convs2.0.weight_v
-vq_model.dec.resblocks.10.convs2.1.bias
-vq_model.dec.resblocks.10.convs2.1.weight_g
-vq_model.dec.resblocks.10.convs2.1.weight_v
-vq_model.dec.resblocks.10.convs2.2.bias
-vq_model.dec.resblocks.10.convs2.2.weight_g
-vq_model.dec.resblocks.10.convs2.2.weight_v
-vq_model.dec.resblocks.11.convs1.0.bias
-vq_model.dec.resblocks.11.convs1.0.weight_g
-vq_model.dec.resblocks.11.convs1.0.weight_v
-vq_model.dec.resblocks.11.convs1.1.bias
-vq_model.dec.resblocks.11.convs1.1.weight_g
-vq_model.dec.resblocks.11.convs1.1.weight_v
-vq_model.dec.resblocks.11.convs1.2.bias
-vq_model.dec.resblocks.11.convs1.2.weight_g
-vq_model.dec.resblocks.11.convs1.2.weight_v
-vq_model.dec.resblocks.11.convs2.0.bias
-vq_model.dec.resblocks.11.convs2.0.weight_g
-vq_model.dec.resblocks.11.convs2.0.weight_v
-vq_model.dec.resblocks.11.convs2.1.bias
-vq_model.dec.resblocks.11.convs2.1.weight_g
-vq_model.dec.resblocks.11.convs2.1.weight_v
-vq_model.dec.resblocks.11.convs2.2.bias
-vq_model.dec.resblocks.11.convs2.2.weight_g
-vq_model.dec.resblocks.11.convs2.2.weight_v
-vq_model.dec.resblocks.12.convs1.0.bias
-vq_model.dec.resblocks.12.convs1.0.weight_g
-vq_model.dec.resblocks.12.convs1.0.weight_v
-vq_model.dec.resblocks.12.convs1.1.bias
-vq_model.dec.resblocks.12.convs1.1.weight_g
-vq_model.dec.resblocks.12.convs1.1.weight_v
-vq_model.dec.resblocks.12.convs1.2.bias
-vq_model.dec.resblocks.12.convs1.2.weight_g
-vq_model.dec.resblocks.12.convs1.2.weight_v
-vq_model.dec.resblocks.12.convs2.0.bias
-vq_model.dec.resblocks.12.convs2.0.weight_g
-vq_model.dec.resblocks.12.convs2.0.weight_v
-vq_model.dec.resblocks.12.convs2.1.bias
-vq_model.dec.resblocks.12.convs2.1.weight_g
-vq_model.dec.resblocks.12.convs2.1.weight_v
-vq_model.dec.resblocks.12.convs2.2.bias
-vq_model.dec.resblocks.12.convs2.2.weight_g
-vq_model.dec.resblocks.12.convs2.2.weight_v
-vq_model.dec.resblocks.13.convs1.0.bias
-vq_model.dec.resblocks.13.convs1.0.weight_g
-vq_model.dec.resblocks.13.convs1.0.weight_v
-vq_model.dec.resblocks.13.convs1.1.bias
-vq_model.dec.resblocks.13.convs1.1.weight_g
-vq_model.dec.resblocks.13.convs1.1.weight_v
-vq_model.dec.resblocks.13.convs1.2.bias
-vq_model.dec.resblocks.13.convs1.2.weight_g
-vq_model.dec.resblocks.13.convs1.2.weight_v
-vq_model.dec.resblocks.13.convs2.0.bias
-vq_model.dec.resblocks.13.convs2.0.weight_g
-vq_model.dec.resblocks.13.convs2.0.weight_v
-vq_model.dec.resblocks.13.convs2.1.bias
-vq_model.dec.resblocks.13.convs2.1.weight_g
-vq_model.dec.resblocks.13.convs2.1.weight_v
-vq_model.dec.resblocks.13.convs2.2.bias
-vq_model.dec.resblocks.13.convs2.2.weight_g
-vq_model.dec.resblocks.13.convs2.2.weight_v
-vq_model.dec.resblocks.14.convs1.0.bias
-vq_model.dec.resblocks.14.convs1.0.weight_g
-vq_model.dec.resblocks.14.convs1.0.weight_v
-vq_model.dec.resblocks.14.convs1.1.bias
-vq_model.dec.resblocks.14.convs1.1.weight_g
-vq_model.dec.resblocks.14.convs1.1.weight_v
-vq_model.dec.resblocks.14.convs1.2.bias
-vq_model.dec.resblocks.14.convs1.2.weight_g
-vq_model.dec.resblocks.14.convs1.2.weight_v
-vq_model.dec.resblocks.14.convs2.0.bias
-vq_model.dec.resblocks.14.convs2.0.weight_g
-vq_model.dec.resblocks.14.convs2.0.weight_v
-vq_model.dec.resblocks.14.convs2.1.bias
-vq_model.dec.resblocks.14.convs2.1.weight_g
-vq_model.dec.resblocks.14.convs2.1.weight_v
-vq_model.dec.resblocks.14.convs2.2.bias
-vq_model.dec.resblocks.14.convs2.2.weight_g
-vq_model.dec.resblocks.14.convs2.2.weight_v
-vq_model.dec.resblocks.2.convs1.0.bias
-vq_model.dec.resblocks.2.convs1.0.weight_g
-vq_model.dec.resblocks.2.convs1.0.weight_v
-vq_model.dec.resblocks.2.convs1.1.bias
-vq_model.dec.resblocks.2.convs1.1.weight_g
-vq_model.dec.resblocks.2.convs1.1.weight_v
-vq_model.dec.resblocks.2.convs1.2.bias
-vq_model.dec.resblocks.2.convs1.2.weight_g
-vq_model.dec.resblocks.2.convs1.2.weight_v
-vq_model.dec.resblocks.2.convs2.0.bias
-vq_model.dec.resblocks.2.convs2.0.weight_g
-vq_model.dec.resblocks.2.convs2.0.weight_v
-vq_model.dec.resblocks.2.convs2.1.bias
-vq_model.dec.resblocks.2.convs2.1.weight_g
-vq_model.dec.resblocks.2.convs2.1.weight_v
-vq_model.dec.resblocks.2.convs2.2.bias
-vq_model.dec.resblocks.2.convs2.2.weight_g
-vq_model.dec.resblocks.2.convs2.2.weight_v
-vq_model.dec.resblocks.3.convs1.0.bias
-vq_model.dec.resblocks.3.convs1.0.weight_g
-vq_model.dec.resblocks.3.convs1.0.weight_v
-vq_model.dec.resblocks.3.convs1.1.bias
-vq_model.dec.resblocks.3.convs1.1.weight_g
-vq_model.dec.resblocks.3.convs1.1.weight_v
-vq_model.dec.resblocks.3.convs1.2.bias
-vq_model.dec.resblocks.3.convs1.2.weight_g
-vq_model.dec.resblocks.3.convs1.2.weight_v
-vq_model.dec.resblocks.3.convs2.0.bias
-vq_model.dec.resblocks.3.convs2.0.weight_g
-vq_model.dec.resblocks.3.convs2.0.weight_v
-vq_model.dec.resblocks.3.convs2.1.bias
-vq_model.dec.resblocks.3.convs2.1.weight_g
-vq_model.dec.resblocks.3.convs2.1.weight_v
-vq_model.dec.resblocks.3.convs2.2.bias
-vq_model.dec.resblocks.3.convs2.2.weight_g
-vq_model.dec.resblocks.3.convs2.2.weight_v
-vq_model.dec.resblocks.4.convs1.0.bias
-vq_model.dec.resblocks.4.convs1.0.weight_g
-vq_model.dec.resblocks.4.convs1.0.weight_v
-vq_model.dec.resblocks.4.convs1.1.bias
-vq_model.dec.resblocks.4.convs1.1.weight_g
-vq_model.dec.resblocks.4.convs1.1.weight_v
-vq_model.dec.resblocks.4.convs1.2.bias
-vq_model.dec.resblocks.4.convs1.2.weight_g
-vq_model.dec.resblocks.4.convs1.2.weight_v
-vq_model.dec.resblocks.4.convs2.0.bias
-vq_model.dec.resblocks.4.convs2.0.weight_g
-vq_model.dec.resblocks.4.convs2.0.weight_v
-vq_model.dec.resblocks.4.convs2.1.bias
-vq_model.dec.resblocks.4.convs2.1.weight_g
-vq_model.dec.resblocks.4.convs2.1.weight_v
-vq_model.dec.resblocks.4.convs2.2.bias
-vq_model.dec.resblocks.4.convs2.2.weight_g
-vq_model.dec.resblocks.4.convs2.2.weight_v
-vq_model.dec.resblocks.5.convs1.0.bias
-vq_model.dec.resblocks.5.convs1.0.weight_g
-vq_model.dec.resblocks.5.convs1.0.weight_v
-vq_model.dec.resblocks.5.convs1.1.bias
-vq_model.dec.resblocks.5.convs1.1.weight_g
-vq_model.dec.resblocks.5.convs1.1.weight_v
-vq_model.dec.resblocks.5.convs1.2.bias
-vq_model.dec.resblocks.5.convs1.2.weight_g
-vq_model.dec.resblocks.5.convs1.2.weight_v
-vq_model.dec.resblocks.5.convs2.0.bias
-vq_model.dec.resblocks.5.convs2.0.weight_g
-vq_model.dec.resblocks.5.convs2.0.weight_v
-vq_model.dec.resblocks.5.convs2.1.bias
-vq_model.dec.resblocks.5.convs2.1.weight_g
-vq_model.dec.resblocks.5.convs2.1.weight_v
-vq_model.dec.resblocks.5.convs2.2.bias
-vq_model.dec.resblocks.5.convs2.2.weight_g
-vq_model.dec.resblocks.5.convs2.2.weight_v
-vq_model.dec.resblocks.6.convs1.0.bias
-vq_model.dec.resblocks.6.convs1.0.weight_g
-vq_model.dec.resblocks.6.convs1.0.weight_v
-vq_model.dec.resblocks.6.convs1.1.bias
-vq_model.dec.resblocks.6.convs1.1.weight_g
-vq_model.dec.resblocks.6.convs1.1.weight_v
-vq_model.dec.resblocks.6.convs1.2.bias
-vq_model.dec.resblocks.6.convs1.2.weight_g
-vq_model.dec.resblocks.6.convs1.2.weight_v
-vq_model.dec.resblocks.6.convs2.0.bias
-vq_model.dec.resblocks.6.convs2.0.weight_g
-vq_model.dec.resblocks.6.convs2.0.weight_v
-vq_model.dec.resblocks.6.convs2.1.bias
-vq_model.dec.resblocks.6.convs2.1.weight_g
-vq_model.dec.resblocks.6.convs2.1.weight_v
-vq_model.dec.resblocks.6.convs2.2.bias
-vq_model.dec.resblocks.6.convs2.2.weight_g
-vq_model.dec.resblocks.6.convs2.2.weight_v
-vq_model.dec.resblocks.7.convs1.0.bias
-vq_model.dec.resblocks.7.convs1.0.weight_g
-vq_model.dec.resblocks.7.convs1.0.weight_v
-vq_model.dec.resblocks.7.convs1.1.bias
-vq_model.dec.resblocks.7.convs1.1.weight_g
-vq_model.dec.resblocks.7.convs1.1.weight_v
-vq_model.dec.resblocks.7.convs1.2.bias
-vq_model.dec.resblocks.7.convs1.2.weight_g
-vq_model.dec.resblocks.7.convs1.2.weight_v
-vq_model.dec.resblocks.7.convs2.0.bias
-vq_model.dec.resblocks.7.convs2.0.weight_g
-vq_model.dec.resblocks.7.convs2.0.weight_v
-vq_model.dec.resblocks.7.convs2.1.bias
-vq_model.dec.resblocks.7.convs2.1.weight_g
-vq_model.dec.resblocks.7.convs2.1.weight_v
-vq_model.dec.resblocks.7.convs2.2.bias
-vq_model.dec.resblocks.7.convs2.2.weight_g
-vq_model.dec.resblocks.7.convs2.2.weight_v
-vq_model.dec.resblocks.8.convs1.0.bias
-vq_model.dec.resblocks.8.convs1.0.weight_g
-vq_model.dec.resblocks.8.convs1.0.weight_v
-vq_model.dec.resblocks.8.convs1.1.bias
-vq_model.dec.resblocks.8.convs1.1.weight_g
-vq_model.dec.resblocks.8.convs1.1.weight_v
-vq_model.dec.resblocks.8.convs1.2.bias
-vq_model.dec.resblocks.8.convs1.2.weight_g
-vq_model.dec.resblocks.8.convs1.2.weight_v
-vq_model.dec.resblocks.8.convs2.0.bias
-vq_model.dec.resblocks.8.convs2.0.weight_g
-vq_model.dec.resblocks.8.convs2.0.weight_v
-vq_model.dec.resblocks.8.convs2.1.bias
-vq_model.dec.resblocks.8.convs2.1.weight_g
-vq_model.dec.resblocks.8.convs2.1.weight_v
-vq_model.dec.resblocks.8.convs2.2.bias
-vq_model.dec.resblocks.8.convs2.2.weight_g
-vq_model.dec.resblocks.8.convs2.2.weight_v
-vq_model.dec.resblocks.9.convs1.0.bias
-vq_model.dec.resblocks.9.convs1.0.weight_g
-vq_model.dec.resblocks.9.convs1.0.weight_v
-vq_model.dec.resblocks.9.convs1.1.bias
-vq_model.dec.resblocks.9.convs1.1.weight_g
-vq_model.dec.resblocks.9.convs1.1.weight_v
-vq_model.dec.resblocks.9.convs1.2.bias
-vq_model.dec.resblocks.9.convs1.2.weight_g
-vq_model.dec.resblocks.9.convs1.2.weight_v
-vq_model.dec.resblocks.9.convs2.0.bias
-vq_model.dec.resblocks.9.convs2.0.weight_g
-vq_model.dec.resblocks.9.convs2.0.weight_v
-vq_model.dec.resblocks.9.convs2.1.bias
-vq_model.dec.resblocks.9.convs2.1.weight_g
-vq_model.dec.resblocks.9.convs2.1.weight_v
-vq_model.dec.resblocks.9.convs2.2.bias
-vq_model.dec.resblocks.9.convs2.2.weight_g
-vq_model.dec.resblocks.9.convs2.2.weight_v
-vq_model.dec.ups.0.bias
-vq_model.dec.ups.0.weight_g
-vq_model.dec.ups.0.weight_v
-vq_model.dec.ups.1.bias
-vq_model.dec.ups.1.weight_g
-vq_model.dec.ups.1.weight_v
-vq_model.dec.ups.2.bias
-vq_model.dec.ups.2.weight_g
-vq_model.dec.ups.2.weight_v
-vq_model.dec.ups.3.bias
-vq_model.dec.ups.3.weight_g
-vq_model.dec.ups.3.weight_v
-vq_model.dec.ups.4.bias
-vq_model.dec.ups.4.weight_g
-vq_model.dec.ups.4.weight_v
-vq_model.enc_p.encoder2.attn_layers.0.conv_k.bias
-vq_model.enc_p.encoder2.attn_layers.0.conv_k.weight
-vq_model.enc_p.encoder2.attn_layers.0.conv_o.bias
-vq_model.enc_p.encoder2.attn_layers.0.conv_o.weight
-vq_model.enc_p.encoder2.attn_layers.0.conv_q.bias
-vq_model.enc_p.encoder2.attn_layers.0.conv_q.weight
-vq_model.enc_p.encoder2.attn_layers.0.conv_v.bias
-vq_model.enc_p.encoder2.attn_layers.0.conv_v.weight
-vq_model.enc_p.encoder2.attn_layers.0.emb_rel_k
-vq_model.enc_p.encoder2.attn_layers.0.emb_rel_v
-vq_model.enc_p.encoder2.attn_layers.1.conv_k.bias
-vq_model.enc_p.encoder2.attn_layers.1.conv_k.weight
-vq_model.enc_p.encoder2.attn_layers.1.conv_o.bias
-vq_model.enc_p.encoder2.attn_layers.1.conv_o.weight
-vq_model.enc_p.encoder2.attn_layers.1.conv_q.bias
-vq_model.enc_p.encoder2.attn_layers.1.conv_q.weight
-vq_model.enc_p.encoder2.attn_layers.1.conv_v.bias
-vq_model.enc_p.encoder2.attn_layers.1.conv_v.weight
-vq_model.enc_p.encoder2.attn_layers.1.emb_rel_k
-vq_model.enc_p.encoder2.attn_layers.1.emb_rel_v
-vq_model.enc_p.encoder2.attn_layers.2.conv_k.bias
-vq_model.enc_p.encoder2.attn_layers.2.conv_k.weight
-vq_model.enc_p.encoder2.attn_layers.2.conv_o.bias
-vq_model.enc_p.encoder2.attn_layers.2.conv_o.weight
-vq_model.enc_p.encoder2.attn_layers.2.conv_q.bias
-vq_model.enc_p.encoder2.attn_layers.2.conv_q.weight
-vq_model.enc_p.encoder2.attn_layers.2.conv_v.bias
-vq_model.enc_p.encoder2.attn_layers.2.conv_v.weight
-vq_model.enc_p.encoder2.attn_layers.2.emb_rel_k
-vq_model.enc_p.encoder2.attn_layers.2.emb_rel_v
-vq_model.enc_p.encoder2.ffn_layers.0.conv_1.bias
-vq_model.enc_p.encoder2.ffn_layers.0.conv_1.weight
-vq_model.enc_p.encoder2.ffn_layers.0.conv_2.bias
-vq_model.enc_p.encoder2.ffn_layers.0.conv_2.weight
-vq_model.enc_p.encoder2.ffn_layers.1.conv_1.bias
-vq_model.enc_p.encoder2.ffn_layers.1.conv_1.weight
-vq_model.enc_p.encoder2.ffn_layers.1.conv_2.bias
-vq_model.enc_p.encoder2.ffn_layers.1.conv_2.weight
-vq_model.enc_p.encoder2.ffn_layers.2.conv_1.bias
-vq_model.enc_p.encoder2.ffn_layers.2.conv_1.weight
-vq_model.enc_p.encoder2.ffn_layers.2.conv_2.bias
-vq_model.enc_p.encoder2.ffn_layers.2.conv_2.weight
-vq_model.enc_p.encoder2.norm_layers_1.0.beta
-vq_model.enc_p.encoder2.norm_layers_1.0.gamma
-vq_model.enc_p.encoder2.norm_layers_1.1.beta
-vq_model.enc_p.encoder2.norm_layers_1.1.gamma
-vq_model.enc_p.encoder2.norm_layers_1.2.beta
-vq_model.enc_p.encoder2.norm_layers_1.2.gamma
-vq_model.enc_p.encoder2.norm_layers_2.0.beta
-vq_model.enc_p.encoder2.norm_layers_2.0.gamma
-vq_model.enc_p.encoder2.norm_layers_2.1.beta
-vq_model.enc_p.encoder2.norm_layers_2.1.gamma
-vq_model.enc_p.encoder2.norm_layers_2.2.beta
-vq_model.enc_p.encoder2.norm_layers_2.2.gamma
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_k
-vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_v
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_k
-vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_v
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_k
-vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_v
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.weight
-vq_model.enc_p.encoder_ssl.norm_layers_1.0.beta
-vq_model.enc_p.encoder_ssl.norm_layers_1.0.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_1.1.beta
-vq_model.enc_p.encoder_ssl.norm_layers_1.1.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_1.2.beta
-vq_model.enc_p.encoder_ssl.norm_layers_1.2.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_2.0.beta
-vq_model.enc_p.encoder_ssl.norm_layers_2.0.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_2.1.beta
-vq_model.enc_p.encoder_ssl.norm_layers_2.1.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_2.2.beta
-vq_model.enc_p.encoder_ssl.norm_layers_2.2.gamma
-vq_model.enc_p.encoder_text.attn_layers.0.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.0.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.0.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.0.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.0.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.0.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.0.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.0.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.1.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.1.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.1.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.1.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.1.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.1.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.1.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.1.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.2.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.2.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.2.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.2.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.2.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.2.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.2.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.2.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.3.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.3.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.3.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.3.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.3.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.3.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.3.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.3.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.4.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.4.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.4.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.4.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.4.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.4.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.4.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.4.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.5.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.5.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.5.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.5.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.5.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.5.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.5.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.5.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_v
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.weight
-vq_model.enc_p.encoder_text.norm_layers_1.0.beta
-vq_model.enc_p.encoder_text.norm_layers_1.0.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.1.beta
-vq_model.enc_p.encoder_text.norm_layers_1.1.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.2.beta
-vq_model.enc_p.encoder_text.norm_layers_1.2.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.3.beta
-vq_model.enc_p.encoder_text.norm_layers_1.3.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.4.beta
-vq_model.enc_p.encoder_text.norm_layers_1.4.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.5.beta
-vq_model.enc_p.encoder_text.norm_layers_1.5.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.0.beta
-vq_model.enc_p.encoder_text.norm_layers_2.0.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.1.beta
-vq_model.enc_p.encoder_text.norm_layers_2.1.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.2.beta
-vq_model.enc_p.encoder_text.norm_layers_2.2.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.3.beta
-vq_model.enc_p.encoder_text.norm_layers_2.3.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.4.beta
-vq_model.enc_p.encoder_text.norm_layers_2.4.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.5.beta
-vq_model.enc_p.encoder_text.norm_layers_2.5.gamma
-vq_model.enc_p.mrte.c_post.bias
-vq_model.enc_p.mrte.c_post.weight
-vq_model.enc_p.mrte.c_pre.bias
-vq_model.enc_p.mrte.c_pre.weight
-vq_model.enc_p.mrte.cross_attention.conv_k.bias
-vq_model.enc_p.mrte.cross_attention.conv_k.weight
-vq_model.enc_p.mrte.cross_attention.conv_o.bias
-vq_model.enc_p.mrte.cross_attention.conv_o.weight
-vq_model.enc_p.mrte.cross_attention.conv_q.bias
-vq_model.enc_p.mrte.cross_attention.conv_q.weight
-vq_model.enc_p.mrte.cross_attention.conv_v.bias
-vq_model.enc_p.mrte.cross_attention.conv_v.weight
-vq_model.enc_p.mrte.text_pre.bias
-vq_model.enc_p.mrte.text_pre.weight
-vq_model.enc_p.proj.bias
-vq_model.enc_p.proj.weight
-vq_model.enc_p.ssl_proj.bias
-vq_model.enc_p.ssl_proj.weight
-vq_model.enc_p.text_embedding.weight
-vq_model.flow.flows.0.enc.cond_layer.bias
-vq_model.flow.flows.0.enc.cond_layer.weight_g
-vq_model.flow.flows.0.enc.cond_layer.weight_v
-vq_model.flow.flows.0.enc.in_layers.0.bias
-vq_model.flow.flows.0.enc.in_layers.0.weight_g
-vq_model.flow.flows.0.enc.in_layers.0.weight_v
-vq_model.flow.flows.0.enc.in_layers.1.bias
-vq_model.flow.flows.0.enc.in_layers.1.weight_g
-vq_model.flow.flows.0.enc.in_layers.1.weight_v
-vq_model.flow.flows.0.enc.in_layers.2.bias
-vq_model.flow.flows.0.enc.in_layers.2.weight_g
-vq_model.flow.flows.0.enc.in_layers.2.weight_v
-vq_model.flow.flows.0.enc.in_layers.3.bias
-vq_model.flow.flows.0.enc.in_layers.3.weight_g
-vq_model.flow.flows.0.enc.in_layers.3.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.0.bias
-vq_model.flow.flows.0.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.1.bias
-vq_model.flow.flows.0.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.2.bias
-vq_model.flow.flows.0.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.3.bias
-vq_model.flow.flows.0.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.0.post.bias
-vq_model.flow.flows.0.post.weight
-vq_model.flow.flows.0.pre.bias
-vq_model.flow.flows.0.pre.weight
-vq_model.flow.flows.2.enc.cond_layer.bias
-vq_model.flow.flows.2.enc.cond_layer.weight_g
-vq_model.flow.flows.2.enc.cond_layer.weight_v
-vq_model.flow.flows.2.enc.in_layers.0.bias
-vq_model.flow.flows.2.enc.in_layers.0.weight_g
-vq_model.flow.flows.2.enc.in_layers.0.weight_v
-vq_model.flow.flows.2.enc.in_layers.1.bias
-vq_model.flow.flows.2.enc.in_layers.1.weight_g
-vq_model.flow.flows.2.enc.in_layers.1.weight_v
-vq_model.flow.flows.2.enc.in_layers.2.bias
-vq_model.flow.flows.2.enc.in_layers.2.weight_g
-vq_model.flow.flows.2.enc.in_layers.2.weight_v
-vq_model.flow.flows.2.enc.in_layers.3.bias
-vq_model.flow.flows.2.enc.in_layers.3.weight_g
-vq_model.flow.flows.2.enc.in_layers.3.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.0.bias
-vq_model.flow.flows.2.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.1.bias
-vq_model.flow.flows.2.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.2.bias
-vq_model.flow.flows.2.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.3.bias
-vq_model.flow.flows.2.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.2.post.bias
-vq_model.flow.flows.2.post.weight
-vq_model.flow.flows.2.pre.bias
-vq_model.flow.flows.2.pre.weight
-vq_model.flow.flows.4.enc.cond_layer.bias
-vq_model.flow.flows.4.enc.cond_layer.weight_g
-vq_model.flow.flows.4.enc.cond_layer.weight_v
-vq_model.flow.flows.4.enc.in_layers.0.bias
-vq_model.flow.flows.4.enc.in_layers.0.weight_g
-vq_model.flow.flows.4.enc.in_layers.0.weight_v
-vq_model.flow.flows.4.enc.in_layers.1.bias
-vq_model.flow.flows.4.enc.in_layers.1.weight_g
-vq_model.flow.flows.4.enc.in_layers.1.weight_v
-vq_model.flow.flows.4.enc.in_layers.2.bias
-vq_model.flow.flows.4.enc.in_layers.2.weight_g
-vq_model.flow.flows.4.enc.in_layers.2.weight_v
-vq_model.flow.flows.4.enc.in_layers.3.bias
-vq_model.flow.flows.4.enc.in_layers.3.weight_g
-vq_model.flow.flows.4.enc.in_layers.3.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.0.bias
-vq_model.flow.flows.4.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.1.bias
-vq_model.flow.flows.4.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.2.bias
-vq_model.flow.flows.4.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.3.bias
-vq_model.flow.flows.4.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.4.post.bias
-vq_model.flow.flows.4.post.weight
-vq_model.flow.flows.4.pre.bias
-vq_model.flow.flows.4.pre.weight
-vq_model.flow.flows.6.enc.cond_layer.bias
-vq_model.flow.flows.6.enc.cond_layer.weight_g
-vq_model.flow.flows.6.enc.cond_layer.weight_v
-vq_model.flow.flows.6.enc.in_layers.0.bias
-vq_model.flow.flows.6.enc.in_layers.0.weight_g
-vq_model.flow.flows.6.enc.in_layers.0.weight_v
-vq_model.flow.flows.6.enc.in_layers.1.bias
-vq_model.flow.flows.6.enc.in_layers.1.weight_g
-vq_model.flow.flows.6.enc.in_layers.1.weight_v
-vq_model.flow.flows.6.enc.in_layers.2.bias
-vq_model.flow.flows.6.enc.in_layers.2.weight_g
-vq_model.flow.flows.6.enc.in_layers.2.weight_v
-vq_model.flow.flows.6.enc.in_layers.3.bias
-vq_model.flow.flows.6.enc.in_layers.3.weight_g
-vq_model.flow.flows.6.enc.in_layers.3.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.0.bias
-vq_model.flow.flows.6.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.1.bias
-vq_model.flow.flows.6.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.2.bias
-vq_model.flow.flows.6.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.3.bias
-vq_model.flow.flows.6.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.6.post.bias
-vq_model.flow.flows.6.post.weight
-vq_model.flow.flows.6.pre.bias
-vq_model.flow.flows.6.pre.weight
-vq_model.quantizer.vq.layers.0._codebook.embed
-vq_model.ref_enc.fc.fc.bias
-vq_model.ref_enc.fc.fc.weight
-vq_model.ref_enc.slf_attn.fc.bias
-vq_model.ref_enc.slf_attn.fc.weight
-vq_model.ref_enc.slf_attn.w_ks.bias
-vq_model.ref_enc.slf_attn.w_ks.weight
-vq_model.ref_enc.slf_attn.w_qs.bias
-vq_model.ref_enc.slf_attn.w_qs.weight
-vq_model.ref_enc.slf_attn.w_vs.bias
-vq_model.ref_enc.slf_attn.w_vs.weight
-vq_model.ref_enc.spectral.0.fc.bias
-vq_model.ref_enc.spectral.0.fc.weight
-vq_model.ref_enc.spectral.3.fc.bias
-vq_model.ref_enc.spectral.3.fc.weight
-vq_model.ref_enc.temporal.0.conv1.conv.bias
-vq_model.ref_enc.temporal.0.conv1.conv.weight
-vq_model.ref_enc.temporal.1.conv1.conv.bias
-vq_model.ref_enc.temporal.1.conv1.conv.weight

+vq_model.dec.cond.bias
+vq_model.dec.cond.weight
+vq_model.dec.conv_post.weight
+vq_model.dec.conv_pre.bias
+vq_model.dec.conv_pre.weight
+vq_model.dec.resblocks.0.convs1.0.bias
+vq_model.dec.resblocks.0.convs1.0.weight_g
+vq_model.dec.resblocks.0.convs1.0.weight_v
+vq_model.dec.resblocks.0.convs1.1.bias
+vq_model.dec.resblocks.0.convs1.1.weight_g
+vq_model.dec.resblocks.0.convs1.1.weight_v
+vq_model.dec.resblocks.0.convs1.2.bias
+vq_model.dec.resblocks.0.convs1.2.weight_g
+vq_model.dec.resblocks.0.convs1.2.weight_v
+vq_model.dec.resblocks.0.convs2.0.bias
+vq_model.dec.resblocks.0.convs2.0.weight_g
+vq_model.dec.resblocks.0.convs2.0.weight_v
+vq_model.dec.resblocks.0.convs2.1.bias
+vq_model.dec.resblocks.0.convs2.1.weight_g
+vq_model.dec.resblocks.0.convs2.1.weight_v
+vq_model.dec.resblocks.0.convs2.2.bias
+vq_model.dec.resblocks.0.convs2.2.weight_g
+vq_model.dec.resblocks.0.convs2.2.weight_v
+vq_model.dec.resblocks.1.convs1.0.bias
+vq_model.dec.resblocks.1.convs1.0.weight_g
+vq_model.dec.resblocks.1.convs1.0.weight_v
+vq_model.dec.resblocks.1.convs1.1.bias
+vq_model.dec.resblocks.1.convs1.1.weight_g
+vq_model.dec.resblocks.1.convs1.1.weight_v
+vq_model.dec.resblocks.1.convs1.2.bias
+vq_model.dec.resblocks.1.convs1.2.weight_g
+vq_model.dec.resblocks.1.convs1.2.weight_v
+vq_model.dec.resblocks.1.convs2.0.bias
+vq_model.dec.resblocks.1.convs2.0.weight_g
+vq_model.dec.resblocks.1.convs2.0.weight_v
+vq_model.dec.resblocks.1.convs2.1.bias
+vq_model.dec.resblocks.1.convs2.1.weight_g
+vq_model.dec.resblocks.1.convs2.1.weight_v
+vq_model.dec.resblocks.1.convs2.2.bias
+vq_model.dec.resblocks.1.convs2.2.weight_g
+vq_model.dec.resblocks.1.convs2.2.weight_v
+vq_model.dec.resblocks.10.convs1.0.bias
+vq_model.dec.resblocks.10.convs1.0.weight_g
+vq_model.dec.resblocks.10.convs1.0.weight_v
+vq_model.dec.resblocks.10.convs1.1.bias
+vq_model.dec.resblocks.10.convs1.1.weight_g
+vq_model.dec.resblocks.10.convs1.1.weight_v
+vq_model.dec.resblocks.10.convs1.2.bias
+vq_model.dec.resblocks.10.convs1.2.weight_g
+vq_model.dec.resblocks.10.convs1.2.weight_v
+vq_model.dec.resblocks.10.convs2.0.bias
+vq_model.dec.resblocks.10.convs2.0.weight_g
+vq_model.dec.resblocks.10.convs2.0.weight_v
+vq_model.dec.resblocks.10.convs2.1.bias
+vq_model.dec.resblocks.10.convs2.1.weight_g
+vq_model.dec.resblocks.10.convs2.1.weight_v
+vq_model.dec.resblocks.10.convs2.2.bias
+vq_model.dec.resblocks.10.convs2.2.weight_g
+vq_model.dec.resblocks.10.convs2.2.weight_v
+vq_model.dec.resblocks.11.convs1.0.bias
+vq_model.dec.resblocks.11.convs1.0.weight_g
+vq_model.dec.resblocks.11.convs1.0.weight_v
+vq_model.dec.resblocks.11.convs1.1.bias
+vq_model.dec.resblocks.11.convs1.1.weight_g
+vq_model.dec.resblocks.11.convs1.1.weight_v
+vq_model.dec.resblocks.11.convs1.2.bias
+vq_model.dec.resblocks.11.convs1.2.weight_g
+vq_model.dec.resblocks.11.convs1.2.weight_v
+vq_model.dec.resblocks.11.convs2.0.bias
+vq_model.dec.resblocks.11.convs2.0.weight_g
+vq_model.dec.resblocks.11.convs2.0.weight_v
+vq_model.dec.resblocks.11.convs2.1.bias
+vq_model.dec.resblocks.11.convs2.1.weight_g
+vq_model.dec.resblocks.11.convs2.1.weight_v
+vq_model.dec.resblocks.11.convs2.2.bias
+vq_model.dec.resblocks.11.convs2.2.weight_g
+vq_model.dec.resblocks.11.convs2.2.weight_v
+vq_model.dec.resblocks.12.convs1.0.bias
+vq_model.dec.resblocks.12.convs1.0.weight_g
+vq_model.dec.resblocks.12.convs1.0.weight_v
+vq_model.dec.resblocks.12.convs1.1.bias
+vq_model.dec.resblocks.12.convs1.1.weight_g
+vq_model.dec.resblocks.12.convs1.1.weight_v
+vq_model.dec.resblocks.12.convs1.2.bias
+vq_model.dec.resblocks.12.convs1.2.weight_g
+vq_model.dec.resblocks.12.convs1.2.weight_v
+vq_model.dec.resblocks.12.convs2.0.bias
+vq_model.dec.resblocks.12.convs2.0.weight_g
+vq_model.dec.resblocks.12.convs2.0.weight_v
+vq_model.dec.resblocks.12.convs2.1.bias
+vq_model.dec.resblocks.12.convs2.1.weight_g
+vq_model.dec.resblocks.12.convs2.1.weight_v
+vq_model.dec.resblocks.12.convs2.2.bias
+vq_model.dec.resblocks.12.convs2.2.weight_g
+vq_model.dec.resblocks.12.convs2.2.weight_v
+vq_model.dec.resblocks.13.convs1.0.bias
+vq_model.dec.resblocks.13.convs1.0.weight_g
+vq_model.dec.resblocks.13.convs1.0.weight_v
+vq_model.dec.resblocks.13.convs1.1.bias
+vq_model.dec.resblocks.13.convs1.1.weight_g
+vq_model.dec.resblocks.13.convs1.1.weight_v
+vq_model.dec.resblocks.13.convs1.2.bias
+vq_model.dec.resblocks.13.convs1.2.weight_g
+vq_model.dec.resblocks.13.convs1.2.weight_v
+vq_model.dec.resblocks.13.convs2.0.bias
+vq_model.dec.resblocks.13.convs2.0.weight_g
+vq_model.dec.resblocks.13.convs2.0.weight_v
+vq_model.dec.resblocks.13.convs2.1.bias
+vq_model.dec.resblocks.13.convs2.1.weight_g
+vq_model.dec.resblocks.13.convs2.1.weight_v
+vq_model.dec.resblocks.13.convs2.2.bias
+vq_model.dec.resblocks.13.convs2.2.weight_g
+vq_model.dec.resblocks.13.convs2.2.weight_v
+vq_model.dec.resblocks.14.convs1.0.bias
+vq_model.dec.resblocks.14.convs1.0.weight_g
+vq_model.dec.resblocks.14.convs1.0.weight_v
+vq_model.dec.resblocks.14.convs1.1.bias
+vq_model.dec.resblocks.14.convs1.1.weight_g
+vq_model.dec.resblocks.14.convs1.1.weight_v
+vq_model.dec.resblocks.14.convs1.2.bias
+vq_model.dec.resblocks.14.convs1.2.weight_g
+vq_model.dec.resblocks.14.convs1.2.weight_v
+vq_model.dec.resblocks.14.convs2.0.bias
+vq_model.dec.resblocks.14.convs2.0.weight_g
+vq_model.dec.resblocks.14.convs2.0.weight_v
+vq_model.dec.resblocks.14.convs2.1.bias
+vq_model.dec.resblocks.14.convs2.1.weight_g
+vq_model.dec.resblocks.14.convs2.1.weight_v
+vq_model.dec.resblocks.14.convs2.2.bias
+vq_model.dec.resblocks.14.convs2.2.weight_g
+vq_model.dec.resblocks.14.convs2.2.weight_v
+vq_model.dec.resblocks.2.convs1.0.bias
+vq_model.dec.resblocks.2.convs1.0.weight_g
+vq_model.dec.resblocks.2.convs1.0.weight_v
+vq_model.dec.resblocks.2.convs1.1.bias
+vq_model.dec.resblocks.2.convs1.1.weight_g
+vq_model.dec.resblocks.2.convs1.1.weight_v
+vq_model.dec.resblocks.2.convs1.2.bias
+vq_model.dec.resblocks.2.convs1.2.weight_g
+vq_model.dec.resblocks.2.convs1.2.weight_v
+vq_model.dec.resblocks.2.convs2.0.bias
+vq_model.dec.resblocks.2.convs2.0.weight_g
+vq_model.dec.resblocks.2.convs2.0.weight_v
+vq_model.dec.resblocks.2.convs2.1.bias
+vq_model.dec.resblocks.2.convs2.1.weight_g
+vq_model.dec.resblocks.2.convs2.1.weight_v
+vq_model.dec.resblocks.2.convs2.2.bias
+vq_model.dec.resblocks.2.convs2.2.weight_g
+vq_model.dec.resblocks.2.convs2.2.weight_v
+vq_model.dec.resblocks.3.convs1.0.bias
+vq_model.dec.resblocks.3.convs1.0.weight_g
+vq_model.dec.resblocks.3.convs1.0.weight_v
+vq_model.dec.resblocks.3.convs1.1.bias
+vq_model.dec.resblocks.3.convs1.1.weight_g
+vq_model.dec.resblocks.3.convs1.1.weight_v
+vq_model.dec.resblocks.3.convs1.2.bias
+vq_model.dec.resblocks.3.convs1.2.weight_g
+vq_model.dec.resblocks.3.convs1.2.weight_v
+vq_model.dec.resblocks.3.convs2.0.bias
+vq_model.dec.resblocks.3.convs2.0.weight_g
+vq_model.dec.resblocks.3.convs2.0.weight_v
+vq_model.dec.resblocks.3.convs2.1.bias
+vq_model.dec.resblocks.3.convs2.1.weight_g
+vq_model.dec.resblocks.3.convs2.1.weight_v
+vq_model.dec.resblocks.3.convs2.2.bias
+vq_model.dec.resblocks.3.convs2.2.weight_g
+vq_model.dec.resblocks.3.convs2.2.weight_v
+vq_model.dec.resblocks.4.convs1.0.bias
+vq_model.dec.resblocks.4.convs1.0.weight_g
+vq_model.dec.resblocks.4.convs1.0.weight_v
+vq_model.dec.resblocks.4.convs1.1.bias
+vq_model.dec.resblocks.4.convs1.1.weight_g
+vq_model.dec.resblocks.4.convs1.1.weight_v
+vq_model.dec.resblocks.4.convs1.2.bias
+vq_model.dec.resblocks.4.convs1.2.weight_g
+vq_model.dec.resblocks.4.convs1.2.weight_v
+vq_model.dec.resblocks.4.convs2.0.bias
+vq_model.dec.resblocks.4.convs2.0.weight_g
+vq_model.dec.resblocks.4.convs2.0.weight_v
+vq_model.dec.resblocks.4.convs2.1.bias
+vq_model.dec.resblocks.4.convs2.1.weight_g
+vq_model.dec.resblocks.4.convs2.1.weight_v
+vq_model.dec.resblocks.4.convs2.2.bias
+vq_model.dec.resblocks.4.convs2.2.weight_g
+vq_model.dec.resblocks.4.convs2.2.weight_v
+vq_model.dec.resblocks.5.convs1.0.bias
+vq_model.dec.resblocks.5.convs1.0.weight_g
+vq_model.dec.resblocks.5.convs1.0.weight_v
+vq_model.dec.resblocks.5.convs1.1.bias
+vq_model.dec.resblocks.5.convs1.1.weight_g
+vq_model.dec.resblocks.5.convs1.1.weight_v
+vq_model.dec.resblocks.5.convs1.2.bias
+vq_model.dec.resblocks.5.convs1.2.weight_g
+vq_model.dec.resblocks.5.convs1.2.weight_v
+vq_model.dec.resblocks.5.convs2.0.bias
+vq_model.dec.resblocks.5.convs2.0.weight_g
+vq_model.dec.resblocks.5.convs2.0.weight_v
+vq_model.dec.resblocks.5.convs2.1.bias
+vq_model.dec.resblocks.5.convs2.1.weight_g
+vq_model.dec.resblocks.5.convs2.1.weight_v
+vq_model.dec.resblocks.5.convs2.2.bias
+vq_model.dec.resblocks.5.convs2.2.weight_g
+vq_model.dec.resblocks.5.convs2.2.weight_v
+vq_model.dec.resblocks.6.convs1.0.bias
+vq_model.dec.resblocks.6.convs1.0.weight_g
+vq_model.dec.resblocks.6.convs1.0.weight_v
+vq_model.dec.resblocks.6.convs1.1.bias
+vq_model.dec.resblocks.6.convs1.1.weight_g
+vq_model.dec.resblocks.6.convs1.1.weight_v
+vq_model.dec.resblocks.6.convs1.2.bias
+vq_model.dec.resblocks.6.convs1.2.weight_g
+vq_model.dec.resblocks.6.convs1.2.weight_v
+vq_model.dec.resblocks.6.convs2.0.bias
+vq_model.dec.resblocks.6.convs2.0.weight_g
+vq_model.dec.resblocks.6.convs2.0.weight_v
+vq_model.dec.resblocks.6.convs2.1.bias
+vq_model.dec.resblocks.6.convs2.1.weight_g
+vq_model.dec.resblocks.6.convs2.1.weight_v
+vq_model.dec.resblocks.6.convs2.2.bias
+vq_model.dec.resblocks.6.convs2.2.weight_g
+vq_model.dec.resblocks.6.convs2.2.weight_v
+vq_model.dec.resblocks.7.convs1.0.bias
+vq_model.dec.resblocks.7.convs1.0.weight_g
+vq_model.dec.resblocks.7.convs1.0.weight_v
+vq_model.dec.resblocks.7.convs1.1.bias
+vq_model.dec.resblocks.7.convs1.1.weight_g
+vq_model.dec.resblocks.7.convs1.1.weight_v
+vq_model.dec.resblocks.7.convs1.2.bias
+vq_model.dec.resblocks.7.convs1.2.weight_g
+vq_model.dec.resblocks.7.convs1.2.weight_v
+vq_model.dec.resblocks.7.convs2.0.bias
+vq_model.dec.resblocks.7.convs2.0.weight_g
+vq_model.dec.resblocks.7.convs2.0.weight_v
+vq_model.dec.resblocks.7.convs2.1.bias
+vq_model.dec.resblocks.7.convs2.1.weight_g
+vq_model.dec.resblocks.7.convs2.1.weight_v
+vq_model.dec.resblocks.7.convs2.2.bias
+vq_model.dec.resblocks.7.convs2.2.weight_g
+vq_model.dec.resblocks.7.convs2.2.weight_v
+vq_model.dec.resblocks.8.convs1.0.bias
+vq_model.dec.resblocks.8.convs1.0.weight_g
+vq_model.dec.resblocks.8.convs1.0.weight_v
+vq_model.dec.resblocks.8.convs1.1.bias
+vq_model.dec.resblocks.8.convs1.1.weight_g
+vq_model.dec.resblocks.8.convs1.1.weight_v
+vq_model.dec.resblocks.8.convs1.2.bias
+vq_model.dec.resblocks.8.convs1.2.weight_g
+vq_model.dec.resblocks.8.convs1.2.weight_v
+vq_model.dec.resblocks.8.convs2.0.bias
+vq_model.dec.resblocks.8.convs2.0.weight_g
+vq_model.dec.resblocks.8.convs2.0.weight_v
+vq_model.dec.resblocks.8.convs2.1.bias
+vq_model.dec.resblocks.8.convs2.1.weight_g
+vq_model.dec.resblocks.8.convs2.1.weight_v
+vq_model.dec.resblocks.8.convs2.2.bias
+vq_model.dec.resblocks.8.convs2.2.weight_g
+vq_model.dec.resblocks.8.convs2.2.weight_v
+vq_model.dec.resblocks.9.convs1.0.bias
+vq_model.dec.resblocks.9.convs1.0.weight_g
+vq_model.dec.resblocks.9.convs1.0.weight_v
+vq_model.dec.resblocks.9.convs1.1.bias
+vq_model.dec.resblocks.9.convs1.1.weight_g
+vq_model.dec.resblocks.9.convs1.1.weight_v
+vq_model.dec.resblocks.9.convs1.2.bias
+vq_model.dec.resblocks.9.convs1.2.weight_g
+vq_model.dec.resblocks.9.convs1.2.weight_v
+vq_model.dec.resblocks.9.convs2.0.bias
+vq_model.dec.resblocks.9.convs2.0.weight_g
+vq_model.dec.resblocks.9.convs2.0.weight_v
+vq_model.dec.resblocks.9.convs2.1.bias
+vq_model.dec.resblocks.9.convs2.1.weight_g
+vq_model.dec.resblocks.9.convs2.1.weight_v
+vq_model.dec.resblocks.9.convs2.2.bias
+vq_model.dec.resblocks.9.convs2.2.weight_g
+vq_model.dec.resblocks.9.convs2.2.weight_v
+vq_model.dec.ups.0.bias
+vq_model.dec.ups.0.weight_g
+vq_model.dec.ups.0.weight_v
+vq_model.dec.ups.1.bias
+vq_model.dec.ups.1.weight_g
+vq_model.dec.ups.1.weight_v
+vq_model.dec.ups.2.bias
+vq_model.dec.ups.2.weight_g
+vq_model.dec.ups.2.weight_v
+vq_model.dec.ups.3.bias
+vq_model.dec.ups.3.weight_g
+vq_model.dec.ups.3.weight_v
+vq_model.dec.ups.4.bias
+vq_model.dec.ups.4.weight_g
+vq_model.dec.ups.4.weight_v
+vq_model.enc_p.encoder2.attn_layers.0.conv_k.bias
+vq_model.enc_p.encoder2.attn_layers.0.conv_k.weight
+vq_model.enc_p.encoder2.attn_layers.0.conv_o.bias
+vq_model.enc_p.encoder2.attn_layers.0.conv_o.weight
+vq_model.enc_p.encoder2.attn_layers.0.conv_q.bias
+vq_model.enc_p.encoder2.attn_layers.0.conv_q.weight
+vq_model.enc_p.encoder2.attn_layers.0.conv_v.bias
+vq_model.enc_p.encoder2.attn_layers.0.conv_v.weight
+vq_model.enc_p.encoder2.attn_layers.0.emb_rel_k
+vq_model.enc_p.encoder2.attn_layers.0.emb_rel_v
+vq_model.enc_p.encoder2.attn_layers.1.conv_k.bias
+vq_model.enc_p.encoder2.attn_layers.1.conv_k.weight
+vq_model.enc_p.encoder2.attn_layers.1.conv_o.bias
+vq_model.enc_p.encoder2.attn_layers.1.conv_o.weight
+vq_model.enc_p.encoder2.attn_layers.1.conv_q.bias
+vq_model.enc_p.encoder2.attn_layers.1.conv_q.weight
+vq_model.enc_p.encoder2.attn_layers.1.conv_v.bias
+vq_model.enc_p.encoder2.attn_layers.1.conv_v.weight
+vq_model.enc_p.encoder2.attn_layers.1.emb_rel_k
+vq_model.enc_p.encoder2.attn_layers.1.emb_rel_v
+vq_model.enc_p.encoder2.attn_layers.2.conv_k.bias
+vq_model.enc_p.encoder2.attn_layers.2.conv_k.weight
+vq_model.enc_p.encoder2.attn_layers.2.conv_o.bias
+vq_model.enc_p.encoder2.attn_layers.2.conv_o.weight
+vq_model.enc_p.encoder2.attn_layers.2.conv_q.bias
+vq_model.enc_p.encoder2.attn_layers.2.conv_q.weight
+vq_model.enc_p.encoder2.attn_layers.2.conv_v.bias
+vq_model.enc_p.encoder2.attn_layers.2.conv_v.weight
+vq_model.enc_p.encoder2.attn_layers.2.emb_rel_k
+vq_model.enc_p.encoder2.attn_layers.2.emb_rel_v
+vq_model.enc_p.encoder2.ffn_layers.0.conv_1.bias
+vq_model.enc_p.encoder2.ffn_layers.0.conv_1.weight
+vq_model.enc_p.encoder2.ffn_layers.0.conv_2.bias
+vq_model.enc_p.encoder2.ffn_layers.0.conv_2.weight
+vq_model.enc_p.encoder2.ffn_layers.1.conv_1.bias
+vq_model.enc_p.encoder2.ffn_layers.1.conv_1.weight
+vq_model.enc_p.encoder2.ffn_layers.1.conv_2.bias
+vq_model.enc_p.encoder2.ffn_layers.1.conv_2.weight
+vq_model.enc_p.encoder2.ffn_layers.2.conv_1.bias
+vq_model.enc_p.encoder2.ffn_layers.2.conv_1.weight
+vq_model.enc_p.encoder2.ffn_layers.2.conv_2.bias
+vq_model.enc_p.encoder2.ffn_layers.2.conv_2.weight
+vq_model.enc_p.encoder2.norm_layers_1.0.beta
+vq_model.enc_p.encoder2.norm_layers_1.0.gamma
+vq_model.enc_p.encoder2.norm_layers_1.1.beta
+vq_model.enc_p.encoder2.norm_layers_1.1.gamma
+vq_model.enc_p.encoder2.norm_layers_1.2.beta
+vq_model.enc_p.encoder2.norm_layers_1.2.gamma
+vq_model.enc_p.encoder2.norm_layers_2.0.beta
+vq_model.enc_p.encoder2.norm_layers_2.0.gamma
+vq_model.enc_p.encoder2.norm_layers_2.1.beta
+vq_model.enc_p.encoder2.norm_layers_2.1.gamma
+vq_model.enc_p.encoder2.norm_layers_2.2.beta
+vq_model.enc_p.encoder2.norm_layers_2.2.gamma
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_k
+vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_v
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_k
+vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_v
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_k
+vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_v
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.weight
+vq_model.enc_p.encoder_ssl.norm_layers_1.0.beta
+vq_model.enc_p.encoder_ssl.norm_layers_1.0.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_1.1.beta
+vq_model.enc_p.encoder_ssl.norm_layers_1.1.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_1.2.beta
+vq_model.enc_p.encoder_ssl.norm_layers_1.2.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_2.0.beta
+vq_model.enc_p.encoder_ssl.norm_layers_2.0.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_2.1.beta
+vq_model.enc_p.encoder_ssl.norm_layers_2.1.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_2.2.beta
+vq_model.enc_p.encoder_ssl.norm_layers_2.2.gamma
+vq_model.enc_p.encoder_text.attn_layers.0.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.0.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.0.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.0.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.0.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.0.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.0.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.0.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.1.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.1.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.1.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.1.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.1.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.1.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.1.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.1.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.2.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.2.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.2.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.2.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.2.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.2.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.2.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.2.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.3.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.3.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.3.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.3.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.3.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.3.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.3.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.3.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.4.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.4.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.4.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.4.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.4.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.4.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.4.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.4.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.5.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.5.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.5.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.5.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.5.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.5.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.5.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.5.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_v
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.weight
+vq_model.enc_p.encoder_text.norm_layers_1.0.beta
+vq_model.enc_p.encoder_text.norm_layers_1.0.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.1.beta
+vq_model.enc_p.encoder_text.norm_layers_1.1.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.2.beta
+vq_model.enc_p.encoder_text.norm_layers_1.2.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.3.beta
+vq_model.enc_p.encoder_text.norm_layers_1.3.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.4.beta
+vq_model.enc_p.encoder_text.norm_layers_1.4.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.5.beta
+vq_model.enc_p.encoder_text.norm_layers_1.5.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.0.beta
+vq_model.enc_p.encoder_text.norm_layers_2.0.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.1.beta
+vq_model.enc_p.encoder_text.norm_layers_2.1.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.2.beta
+vq_model.enc_p.encoder_text.norm_layers_2.2.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.3.beta
+vq_model.enc_p.encoder_text.norm_layers_2.3.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.4.beta
+vq_model.enc_p.encoder_text.norm_layers_2.4.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.5.beta
+vq_model.enc_p.encoder_text.norm_layers_2.5.gamma
+vq_model.enc_p.mrte.c_post.bias
+vq_model.enc_p.mrte.c_post.weight
+vq_model.enc_p.mrte.c_pre.bias
+vq_model.enc_p.mrte.c_pre.weight
+vq_model.enc_p.mrte.cross_attention.conv_k.bias
+vq_model.enc_p.mrte.cross_attention.conv_k.weight
+vq_model.enc_p.mrte.cross_attention.conv_o.bias
+vq_model.enc_p.mrte.cross_attention.conv_o.weight
+vq_model.enc_p.mrte.cross_attention.conv_q.bias
+vq_model.enc_p.mrte.cross_attention.conv_q.weight
+vq_model.enc_p.mrte.cross_attention.conv_v.bias
+vq_model.enc_p.mrte.cross_attention.conv_v.weight
+vq_model.enc_p.mrte.text_pre.bias
+vq_model.enc_p.mrte.text_pre.weight
+vq_model.enc_p.proj.bias
+vq_model.enc_p.proj.weight
+vq_model.enc_p.ssl_proj.bias
+vq_model.enc_p.ssl_proj.weight
+vq_model.enc_p.text_embedding.weight
+vq_model.flow.flows.0.enc.cond_layer.bias
+vq_model.flow.flows.0.enc.cond_layer.weight_g
+vq_model.flow.flows.0.enc.cond_layer.weight_v
+vq_model.flow.flows.0.enc.in_layers.0.bias
+vq_model.flow.flows.0.enc.in_layers.0.weight_g
+vq_model.flow.flows.0.enc.in_layers.0.weight_v
+vq_model.flow.flows.0.enc.in_layers.1.bias
+vq_model.flow.flows.0.enc.in_layers.1.weight_g
+vq_model.flow.flows.0.enc.in_layers.1.weight_v
+vq_model.flow.flows.0.enc.in_layers.2.bias
+vq_model.flow.flows.0.enc.in_layers.2.weight_g
+vq_model.flow.flows.0.enc.in_layers.2.weight_v
+vq_model.flow.flows.0.enc.in_layers.3.bias
+vq_model.flow.flows.0.enc.in_layers.3.weight_g
+vq_model.flow.flows.0.enc.in_layers.3.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.0.bias
+vq_model.flow.flows.0.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.1.bias
+vq_model.flow.flows.0.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.2.bias
+vq_model.flow.flows.0.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.3.bias
+vq_model.flow.flows.0.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.0.post.bias
+vq_model.flow.flows.0.post.weight
+vq_model.flow.flows.0.pre.bias
+vq_model.flow.flows.0.pre.weight
+vq_model.flow.flows.2.enc.cond_layer.bias
+vq_model.flow.flows.2.enc.cond_layer.weight_g
+vq_model.flow.flows.2.enc.cond_layer.weight_v
+vq_model.flow.flows.2.enc.in_layers.0.bias
+vq_model.flow.flows.2.enc.in_layers.0.weight_g
+vq_model.flow.flows.2.enc.in_layers.0.weight_v
+vq_model.flow.flows.2.enc.in_layers.1.bias
+vq_model.flow.flows.2.enc.in_layers.1.weight_g
+vq_model.flow.flows.2.enc.in_layers.1.weight_v
+vq_model.flow.flows.2.enc.in_layers.2.bias
+vq_model.flow.flows.2.enc.in_layers.2.weight_g
+vq_model.flow.flows.2.enc.in_layers.2.weight_v
+vq_model.flow.flows.2.enc.in_layers.3.bias
+vq_model.flow.flows.2.enc.in_layers.3.weight_g
+vq_model.flow.flows.2.enc.in_layers.3.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.0.bias
+vq_model.flow.flows.2.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.1.bias
+vq_model.flow.flows.2.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.2.bias
+vq_model.flow.flows.2.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.3.bias
+vq_model.flow.flows.2.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.2.post.bias
+vq_model.flow.flows.2.post.weight
+vq_model.flow.flows.2.pre.bias
+vq_model.flow.flows.2.pre.weight
+vq_model.flow.flows.4.enc.cond_layer.bias
+vq_model.flow.flows.4.enc.cond_layer.weight_g
+vq_model.flow.flows.4.enc.cond_layer.weight_v
+vq_model.flow.flows.4.enc.in_layers.0.bias
+vq_model.flow.flows.4.enc.in_layers.0.weight_g
+vq_model.flow.flows.4.enc.in_layers.0.weight_v
+vq_model.flow.flows.4.enc.in_layers.1.bias
+vq_model.flow.flows.4.enc.in_layers.1.weight_g
+vq_model.flow.flows.4.enc.in_layers.1.weight_v
+vq_model.flow.flows.4.enc.in_layers.2.bias
+vq_model.flow.flows.4.enc.in_layers.2.weight_g
+vq_model.flow.flows.4.enc.in_layers.2.weight_v
+vq_model.flow.flows.4.enc.in_layers.3.bias
+vq_model.flow.flows.4.enc.in_layers.3.weight_g
+vq_model.flow.flows.4.enc.in_layers.3.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.0.bias
+vq_model.flow.flows.4.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.1.bias
+vq_model.flow.flows.4.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.2.bias
+vq_model.flow.flows.4.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.3.bias
+vq_model.flow.flows.4.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.4.post.bias
+vq_model.flow.flows.4.post.weight
+vq_model.flow.flows.4.pre.bias
+vq_model.flow.flows.4.pre.weight
+vq_model.flow.flows.6.enc.cond_layer.bias
+vq_model.flow.flows.6.enc.cond_layer.weight_g
+vq_model.flow.flows.6.enc.cond_layer.weight_v
+vq_model.flow.flows.6.enc.in_layers.0.bias
+vq_model.flow.flows.6.enc.in_layers.0.weight_g
+vq_model.flow.flows.6.enc.in_layers.0.weight_v
+vq_model.flow.flows.6.enc.in_layers.1.bias
+vq_model.flow.flows.6.enc.in_layers.1.weight_g
+vq_model.flow.flows.6.enc.in_layers.1.weight_v
+vq_model.flow.flows.6.enc.in_layers.2.bias
+vq_model.flow.flows.6.enc.in_layers.2.weight_g
+vq_model.flow.flows.6.enc.in_layers.2.weight_v
+vq_model.flow.flows.6.enc.in_layers.3.bias
+vq_model.flow.flows.6.enc.in_layers.3.weight_g
+vq_model.flow.flows.6.enc.in_layers.3.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.0.bias
+vq_model.flow.flows.6.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.1.bias
+vq_model.flow.flows.6.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.2.bias
+vq_model.flow.flows.6.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.3.bias
+vq_model.flow.flows.6.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.6.post.bias
+vq_model.flow.flows.6.post.weight
+vq_model.flow.flows.6.pre.bias
+vq_model.flow.flows.6.pre.weight
+vq_model.quantizer.vq.layers.0._codebook.embed
+vq_model.ref_enc.fc.fc.bias
+vq_model.ref_enc.fc.fc.weight
+vq_model.ref_enc.slf_attn.fc.bias
+vq_model.ref_enc.slf_attn.fc.weight
+vq_model.ref_enc.slf_attn.w_ks.bias
+vq_model.ref_enc.slf_attn.w_ks.weight
+vq_model.ref_enc.slf_attn.w_qs.bias
+vq_model.ref_enc.slf_attn.w_qs.weight
+vq_model.ref_enc.slf_attn.w_vs.bias
+vq_model.ref_enc.slf_attn.w_vs.weight
+vq_model.ref_enc.spectral.0.fc.bias
+vq_model.ref_enc.spectral.0.fc.weight
+vq_model.ref_enc.spectral.3.fc.bias
+vq_model.ref_enc.spectral.3.fc.weight
+vq_model.ref_enc.temporal.0.conv1.conv.bias
+vq_model.ref_enc.temporal.0.conv1.conv.weight
+vq_model.ref_enc.temporal.1.conv1.conv.bias
+vq_model.ref_enc.temporal.1.conv1.conv.weight

genie_tts/Data/v2ProPlus/Keys/prompt_encoder_weights.txt CHANGED Viewed

@@ -1,23 +1,23 @@
-ref_enc.spectral.0.fc.weight
-ref_enc.spectral.0.fc.bias
-ref_enc.spectral.3.fc.weight
-ref_enc.spectral.3.fc.bias
-ref_enc.temporal.0.conv1.conv.weight
-ref_enc.temporal.0.conv1.conv.bias
-ref_enc.temporal.1.conv1.conv.weight
-ref_enc.temporal.1.conv1.conv.bias
-ref_enc.slf_attn.w_qs.weight
-ref_enc.slf_attn.w_qs.bias
-ref_enc.slf_attn.w_ks.weight
-ref_enc.slf_attn.w_ks.bias
-ref_enc.slf_attn.w_vs.weight
-ref_enc.slf_attn.w_vs.bias
-ref_enc.slf_attn.fc.weight
-ref_enc.slf_attn.fc.bias
-ref_enc.fc.fc.weight
-ref_enc.fc.fc.bias
-sv_emb.weight
-sv_emb.bias
-ge_to512.weight
-ge_to512.bias
-prelu.weight

+ref_enc.spectral.0.fc.weight
+ref_enc.spectral.0.fc.bias
+ref_enc.spectral.3.fc.weight
+ref_enc.spectral.3.fc.bias
+ref_enc.temporal.0.conv1.conv.weight
+ref_enc.temporal.0.conv1.conv.bias
+ref_enc.temporal.1.conv1.conv.weight
+ref_enc.temporal.1.conv1.conv.bias
+ref_enc.slf_attn.w_qs.weight
+ref_enc.slf_attn.w_qs.bias
+ref_enc.slf_attn.w_ks.weight
+ref_enc.slf_attn.w_ks.bias
+ref_enc.slf_attn.w_vs.weight
+ref_enc.slf_attn.w_vs.bias
+ref_enc.slf_attn.fc.weight
+ref_enc.slf_attn.fc.bias
+ref_enc.fc.fc.weight
+ref_enc.fc.fc.bias
+sv_emb.weight
+sv_emb.bias
+ge_to512.weight
+ge_to512.bias
+prelu.weight

genie_tts/Data/v2ProPlus/Keys/vits_weights.txt CHANGED Viewed

@@ -1,650 +1,650 @@
-vq_model.enc_p.ssl_proj.weight
-vq_model.enc_p.ssl_proj.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_k
-vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_v
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.bias
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.weight
-vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_k
-vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_v
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.bias
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.weight
-vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_k
-vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_v
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.bias
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.weight
-vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.bias
-vq_model.enc_p.encoder_ssl.norm_layers_1.0.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_1.0.beta
-vq_model.enc_p.encoder_ssl.norm_layers_1.1.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_1.1.beta
-vq_model.enc_p.encoder_ssl.norm_layers_1.2.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_1.2.beta
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.bias
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.weight
-vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.bias
-vq_model.enc_p.encoder_ssl.norm_layers_2.0.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_2.0.beta
-vq_model.enc_p.encoder_ssl.norm_layers_2.1.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_2.1.beta
-vq_model.enc_p.encoder_ssl.norm_layers_2.2.gamma
-vq_model.enc_p.encoder_ssl.norm_layers_2.2.beta
-vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.0.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.0.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.0.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.0.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.0.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.0.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.0.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.0.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.1.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.1.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.1.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.1.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.1.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.1.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.1.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.1.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.2.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.2.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.2.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.2.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.2.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.2.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.2.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.2.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.3.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.3.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.3.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.3.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.3.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.3.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.3.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.3.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.4.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.4.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.4.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.4.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.4.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.4.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.4.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.4.conv_o.bias
-vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_k
-vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_v
-vq_model.enc_p.encoder_text.attn_layers.5.conv_q.weight
-vq_model.enc_p.encoder_text.attn_layers.5.conv_q.bias
-vq_model.enc_p.encoder_text.attn_layers.5.conv_k.weight
-vq_model.enc_p.encoder_text.attn_layers.5.conv_k.bias
-vq_model.enc_p.encoder_text.attn_layers.5.conv_v.weight
-vq_model.enc_p.encoder_text.attn_layers.5.conv_v.bias
-vq_model.enc_p.encoder_text.attn_layers.5.conv_o.weight
-vq_model.enc_p.encoder_text.attn_layers.5.conv_o.bias
-vq_model.enc_p.encoder_text.norm_layers_1.0.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.0.beta
-vq_model.enc_p.encoder_text.norm_layers_1.1.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.1.beta
-vq_model.enc_p.encoder_text.norm_layers_1.2.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.2.beta
-vq_model.enc_p.encoder_text.norm_layers_1.3.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.3.beta
-vq_model.enc_p.encoder_text.norm_layers_1.4.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.4.beta
-vq_model.enc_p.encoder_text.norm_layers_1.5.gamma
-vq_model.enc_p.encoder_text.norm_layers_1.5.beta
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.bias
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.weight
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.bias
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.weight
-vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.bias
-vq_model.enc_p.encoder_text.norm_layers_2.0.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.0.beta
-vq_model.enc_p.encoder_text.norm_layers_2.1.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.1.beta
-vq_model.enc_p.encoder_text.norm_layers_2.2.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.2.beta
-vq_model.enc_p.encoder_text.norm_layers_2.3.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.3.beta
-vq_model.enc_p.encoder_text.norm_layers_2.4.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.4.beta
-vq_model.enc_p.encoder_text.norm_layers_2.5.gamma
-vq_model.enc_p.encoder_text.norm_layers_2.5.beta
-vq_model.enc_p.text_embedding.weight
-vq_model.enc_p.mrte.cross_attention.conv_q.weight
-vq_model.enc_p.mrte.cross_attention.conv_q.bias
-vq_model.enc_p.mrte.cross_attention.conv_k.weight
-vq_model.enc_p.mrte.cross_attention.conv_k.bias
-vq_model.enc_p.mrte.cross_attention.conv_v.weight
-vq_model.enc_p.mrte.cross_attention.conv_v.bias
-vq_model.enc_p.mrte.cross_attention.conv_o.weight
-vq_model.enc_p.mrte.cross_attention.conv_o.bias
-vq_model.enc_p.mrte.c_pre.weight
-vq_model.enc_p.mrte.c_pre.bias
-vq_model.enc_p.mrte.text_pre.weight
-vq_model.enc_p.mrte.text_pre.bias
-vq_model.enc_p.mrte.c_post.weight
-vq_model.enc_p.mrte.c_post.bias
-vq_model.enc_p.encoder2.attn_layers.0.emb_rel_k
-vq_model.enc_p.encoder2.attn_layers.0.emb_rel_v
-vq_model.enc_p.encoder2.attn_layers.0.conv_q.weight
-vq_model.enc_p.encoder2.attn_layers.0.conv_q.bias
-vq_model.enc_p.encoder2.attn_layers.0.conv_k.weight
-vq_model.enc_p.encoder2.attn_layers.0.conv_k.bias
-vq_model.enc_p.encoder2.attn_layers.0.conv_v.weight
-vq_model.enc_p.encoder2.attn_layers.0.conv_v.bias
-vq_model.enc_p.encoder2.attn_layers.0.conv_o.weight
-vq_model.enc_p.encoder2.attn_layers.0.conv_o.bias
-vq_model.enc_p.encoder2.attn_layers.1.emb_rel_k
-vq_model.enc_p.encoder2.attn_layers.1.emb_rel_v
-vq_model.enc_p.encoder2.attn_layers.1.conv_q.weight
-vq_model.enc_p.encoder2.attn_layers.1.conv_q.bias
-vq_model.enc_p.encoder2.attn_layers.1.conv_k.weight
-vq_model.enc_p.encoder2.attn_layers.1.conv_k.bias
-vq_model.enc_p.encoder2.attn_layers.1.conv_v.weight
-vq_model.enc_p.encoder2.attn_layers.1.conv_v.bias
-vq_model.enc_p.encoder2.attn_layers.1.conv_o.weight
-vq_model.enc_p.encoder2.attn_layers.1.conv_o.bias
-vq_model.enc_p.encoder2.attn_layers.2.emb_rel_k
-vq_model.enc_p.encoder2.attn_layers.2.emb_rel_v
-vq_model.enc_p.encoder2.attn_layers.2.conv_q.weight
-vq_model.enc_p.encoder2.attn_layers.2.conv_q.bias
-vq_model.enc_p.encoder2.attn_layers.2.conv_k.weight
-vq_model.enc_p.encoder2.attn_layers.2.conv_k.bias
-vq_model.enc_p.encoder2.attn_layers.2.conv_v.weight
-vq_model.enc_p.encoder2.attn_layers.2.conv_v.bias
-vq_model.enc_p.encoder2.attn_layers.2.conv_o.weight
-vq_model.enc_p.encoder2.attn_layers.2.conv_o.bias
-vq_model.enc_p.encoder2.norm_layers_1.0.gamma
-vq_model.enc_p.encoder2.norm_layers_1.0.beta
-vq_model.enc_p.encoder2.norm_layers_1.1.gamma
-vq_model.enc_p.encoder2.norm_layers_1.1.beta
-vq_model.enc_p.encoder2.norm_layers_1.2.gamma
-vq_model.enc_p.encoder2.norm_layers_1.2.beta
-vq_model.enc_p.encoder2.ffn_layers.0.conv_1.weight
-vq_model.enc_p.encoder2.ffn_layers.0.conv_1.bias
-vq_model.enc_p.encoder2.ffn_layers.0.conv_2.weight
-vq_model.enc_p.encoder2.ffn_layers.0.conv_2.bias
-vq_model.enc_p.encoder2.ffn_layers.1.conv_1.weight
-vq_model.enc_p.encoder2.ffn_layers.1.conv_1.bias
-vq_model.enc_p.encoder2.ffn_layers.1.conv_2.weight
-vq_model.enc_p.encoder2.ffn_layers.1.conv_2.bias
-vq_model.enc_p.encoder2.ffn_layers.2.conv_1.weight
-vq_model.enc_p.encoder2.ffn_layers.2.conv_1.bias
-vq_model.enc_p.encoder2.ffn_layers.2.conv_2.weight
-vq_model.enc_p.encoder2.ffn_layers.2.conv_2.bias
-vq_model.enc_p.encoder2.norm_layers_2.0.gamma
-vq_model.enc_p.encoder2.norm_layers_2.0.beta
-vq_model.enc_p.encoder2.norm_layers_2.1.gamma
-vq_model.enc_p.encoder2.norm_layers_2.1.beta
-vq_model.enc_p.encoder2.norm_layers_2.2.gamma
-vq_model.enc_p.encoder2.norm_layers_2.2.beta
-vq_model.enc_p.proj.weight
-vq_model.enc_p.proj.bias
-vq_model.dec.conv_pre.weight
-vq_model.dec.conv_pre.bias
-vq_model.dec.ups.0.bias
-vq_model.dec.ups.0.weight_g
-vq_model.dec.ups.0.weight_v
-vq_model.dec.ups.1.bias
-vq_model.dec.ups.1.weight_g
-vq_model.dec.ups.1.weight_v
-vq_model.dec.ups.2.bias
-vq_model.dec.ups.2.weight_g
-vq_model.dec.ups.2.weight_v
-vq_model.dec.ups.3.bias
-vq_model.dec.ups.3.weight_g
-vq_model.dec.ups.3.weight_v
-vq_model.dec.ups.4.bias
-vq_model.dec.ups.4.weight_g
-vq_model.dec.ups.4.weight_v
-vq_model.dec.resblocks.0.convs1.0.bias
-vq_model.dec.resblocks.0.convs1.0.weight_g
-vq_model.dec.resblocks.0.convs1.0.weight_v
-vq_model.dec.resblocks.0.convs1.1.bias
-vq_model.dec.resblocks.0.convs1.1.weight_g
-vq_model.dec.resblocks.0.convs1.1.weight_v
-vq_model.dec.resblocks.0.convs1.2.bias
-vq_model.dec.resblocks.0.convs1.2.weight_g
-vq_model.dec.resblocks.0.convs1.2.weight_v
-vq_model.dec.resblocks.0.convs2.0.bias
-vq_model.dec.resblocks.0.convs2.0.weight_g
-vq_model.dec.resblocks.0.convs2.0.weight_v
-vq_model.dec.resblocks.0.convs2.1.bias
-vq_model.dec.resblocks.0.convs2.1.weight_g
-vq_model.dec.resblocks.0.convs2.1.weight_v
-vq_model.dec.resblocks.0.convs2.2.bias
-vq_model.dec.resblocks.0.convs2.2.weight_g
-vq_model.dec.resblocks.0.convs2.2.weight_v
-vq_model.dec.resblocks.1.convs1.0.bias
-vq_model.dec.resblocks.1.convs1.0.weight_g
-vq_model.dec.resblocks.1.convs1.0.weight_v
-vq_model.dec.resblocks.1.convs1.1.bias
-vq_model.dec.resblocks.1.convs1.1.weight_g
-vq_model.dec.resblocks.1.convs1.1.weight_v
-vq_model.dec.resblocks.1.convs1.2.bias
-vq_model.dec.resblocks.1.convs1.2.weight_g
-vq_model.dec.resblocks.1.convs1.2.weight_v
-vq_model.dec.resblocks.1.convs2.0.bias
-vq_model.dec.resblocks.1.convs2.0.weight_g
-vq_model.dec.resblocks.1.convs2.0.weight_v
-vq_model.dec.resblocks.1.convs2.1.bias
-vq_model.dec.resblocks.1.convs2.1.weight_g
-vq_model.dec.resblocks.1.convs2.1.weight_v
-vq_model.dec.resblocks.1.convs2.2.bias
-vq_model.dec.resblocks.1.convs2.2.weight_g
-vq_model.dec.resblocks.1.convs2.2.weight_v
-vq_model.dec.resblocks.2.convs1.0.bias
-vq_model.dec.resblocks.2.convs1.0.weight_g
-vq_model.dec.resblocks.2.convs1.0.weight_v
-vq_model.dec.resblocks.2.convs1.1.bias
-vq_model.dec.resblocks.2.convs1.1.weight_g
-vq_model.dec.resblocks.2.convs1.1.weight_v
-vq_model.dec.resblocks.2.convs1.2.bias
-vq_model.dec.resblocks.2.convs1.2.weight_g
-vq_model.dec.resblocks.2.convs1.2.weight_v
-vq_model.dec.resblocks.2.convs2.0.bias
-vq_model.dec.resblocks.2.convs2.0.weight_g
-vq_model.dec.resblocks.2.convs2.0.weight_v
-vq_model.dec.resblocks.2.convs2.1.bias
-vq_model.dec.resblocks.2.convs2.1.weight_g
-vq_model.dec.resblocks.2.convs2.1.weight_v
-vq_model.dec.resblocks.2.convs2.2.bias
-vq_model.dec.resblocks.2.convs2.2.weight_g
-vq_model.dec.resblocks.2.convs2.2.weight_v
-vq_model.dec.resblocks.3.convs1.0.bias
-vq_model.dec.resblocks.3.convs1.0.weight_g
-vq_model.dec.resblocks.3.convs1.0.weight_v
-vq_model.dec.resblocks.3.convs1.1.bias
-vq_model.dec.resblocks.3.convs1.1.weight_g
-vq_model.dec.resblocks.3.convs1.1.weight_v
-vq_model.dec.resblocks.3.convs1.2.bias
-vq_model.dec.resblocks.3.convs1.2.weight_g
-vq_model.dec.resblocks.3.convs1.2.weight_v
-vq_model.dec.resblocks.3.convs2.0.bias
-vq_model.dec.resblocks.3.convs2.0.weight_g
-vq_model.dec.resblocks.3.convs2.0.weight_v
-vq_model.dec.resblocks.3.convs2.1.bias
-vq_model.dec.resblocks.3.convs2.1.weight_g
-vq_model.dec.resblocks.3.convs2.1.weight_v
-vq_model.dec.resblocks.3.convs2.2.bias
-vq_model.dec.resblocks.3.convs2.2.weight_g
-vq_model.dec.resblocks.3.convs2.2.weight_v
-vq_model.dec.resblocks.4.convs1.0.bias
-vq_model.dec.resblocks.4.convs1.0.weight_g
-vq_model.dec.resblocks.4.convs1.0.weight_v
-vq_model.dec.resblocks.4.convs1.1.bias
-vq_model.dec.resblocks.4.convs1.1.weight_g
-vq_model.dec.resblocks.4.convs1.1.weight_v
-vq_model.dec.resblocks.4.convs1.2.bias
-vq_model.dec.resblocks.4.convs1.2.weight_g
-vq_model.dec.resblocks.4.convs1.2.weight_v
-vq_model.dec.resblocks.4.convs2.0.bias
-vq_model.dec.resblocks.4.convs2.0.weight_g
-vq_model.dec.resblocks.4.convs2.0.weight_v
-vq_model.dec.resblocks.4.convs2.1.bias
-vq_model.dec.resblocks.4.convs2.1.weight_g
-vq_model.dec.resblocks.4.convs2.1.weight_v
-vq_model.dec.resblocks.4.convs2.2.bias
-vq_model.dec.resblocks.4.convs2.2.weight_g
-vq_model.dec.resblocks.4.convs2.2.weight_v
-vq_model.dec.resblocks.5.convs1.0.bias
-vq_model.dec.resblocks.5.convs1.0.weight_g
-vq_model.dec.resblocks.5.convs1.0.weight_v
-vq_model.dec.resblocks.5.convs1.1.bias
-vq_model.dec.resblocks.5.convs1.1.weight_g
-vq_model.dec.resblocks.5.convs1.1.weight_v
-vq_model.dec.resblocks.5.convs1.2.bias
-vq_model.dec.resblocks.5.convs1.2.weight_g
-vq_model.dec.resblocks.5.convs1.2.weight_v
-vq_model.dec.resblocks.5.convs2.0.bias
-vq_model.dec.resblocks.5.convs2.0.weight_g
-vq_model.dec.resblocks.5.convs2.0.weight_v
-vq_model.dec.resblocks.5.convs2.1.bias
-vq_model.dec.resblocks.5.convs2.1.weight_g
-vq_model.dec.resblocks.5.convs2.1.weight_v
-vq_model.dec.resblocks.5.convs2.2.bias
-vq_model.dec.resblocks.5.convs2.2.weight_g
-vq_model.dec.resblocks.5.convs2.2.weight_v
-vq_model.dec.resblocks.6.convs1.0.bias
-vq_model.dec.resblocks.6.convs1.0.weight_g
-vq_model.dec.resblocks.6.convs1.0.weight_v
-vq_model.dec.resblocks.6.convs1.1.bias
-vq_model.dec.resblocks.6.convs1.1.weight_g
-vq_model.dec.resblocks.6.convs1.1.weight_v
-vq_model.dec.resblocks.6.convs1.2.bias
-vq_model.dec.resblocks.6.convs1.2.weight_g
-vq_model.dec.resblocks.6.convs1.2.weight_v
-vq_model.dec.resblocks.6.convs2.0.bias
-vq_model.dec.resblocks.6.convs2.0.weight_g
-vq_model.dec.resblocks.6.convs2.0.weight_v
-vq_model.dec.resblocks.6.convs2.1.bias
-vq_model.dec.resblocks.6.convs2.1.weight_g
-vq_model.dec.resblocks.6.convs2.1.weight_v
-vq_model.dec.resblocks.6.convs2.2.bias
-vq_model.dec.resblocks.6.convs2.2.weight_g
-vq_model.dec.resblocks.6.convs2.2.weight_v
-vq_model.dec.resblocks.7.convs1.0.bias
-vq_model.dec.resblocks.7.convs1.0.weight_g
-vq_model.dec.resblocks.7.convs1.0.weight_v
-vq_model.dec.resblocks.7.convs1.1.bias
-vq_model.dec.resblocks.7.convs1.1.weight_g
-vq_model.dec.resblocks.7.convs1.1.weight_v
-vq_model.dec.resblocks.7.convs1.2.bias
-vq_model.dec.resblocks.7.convs1.2.weight_g
-vq_model.dec.resblocks.7.convs1.2.weight_v
-vq_model.dec.resblocks.7.convs2.0.bias
-vq_model.dec.resblocks.7.convs2.0.weight_g
-vq_model.dec.resblocks.7.convs2.0.weight_v
-vq_model.dec.resblocks.7.convs2.1.bias
-vq_model.dec.resblocks.7.convs2.1.weight_g
-vq_model.dec.resblocks.7.convs2.1.weight_v
-vq_model.dec.resblocks.7.convs2.2.bias
-vq_model.dec.resblocks.7.convs2.2.weight_g
-vq_model.dec.resblocks.7.convs2.2.weight_v
-vq_model.dec.resblocks.8.convs1.0.bias
-vq_model.dec.resblocks.8.convs1.0.weight_g
-vq_model.dec.resblocks.8.convs1.0.weight_v
-vq_model.dec.resblocks.8.convs1.1.bias
-vq_model.dec.resblocks.8.convs1.1.weight_g
-vq_model.dec.resblocks.8.convs1.1.weight_v
-vq_model.dec.resblocks.8.convs1.2.bias
-vq_model.dec.resblocks.8.convs1.2.weight_g
-vq_model.dec.resblocks.8.convs1.2.weight_v
-vq_model.dec.resblocks.8.convs2.0.bias
-vq_model.dec.resblocks.8.convs2.0.weight_g
-vq_model.dec.resblocks.8.convs2.0.weight_v
-vq_model.dec.resblocks.8.convs2.1.bias
-vq_model.dec.resblocks.8.convs2.1.weight_g
-vq_model.dec.resblocks.8.convs2.1.weight_v
-vq_model.dec.resblocks.8.convs2.2.bias
-vq_model.dec.resblocks.8.convs2.2.weight_g
-vq_model.dec.resblocks.8.convs2.2.weight_v
-vq_model.dec.resblocks.9.convs1.0.bias
-vq_model.dec.resblocks.9.convs1.0.weight_g
-vq_model.dec.resblocks.9.convs1.0.weight_v
-vq_model.dec.resblocks.9.convs1.1.bias
-vq_model.dec.resblocks.9.convs1.1.weight_g
-vq_model.dec.resblocks.9.convs1.1.weight_v
-vq_model.dec.resblocks.9.convs1.2.bias
-vq_model.dec.resblocks.9.convs1.2.weight_g
-vq_model.dec.resblocks.9.convs1.2.weight_v
-vq_model.dec.resblocks.9.convs2.0.bias
-vq_model.dec.resblocks.9.convs2.0.weight_g
-vq_model.dec.resblocks.9.convs2.0.weight_v
-vq_model.dec.resblocks.9.convs2.1.bias
-vq_model.dec.resblocks.9.convs2.1.weight_g
-vq_model.dec.resblocks.9.convs2.1.weight_v
-vq_model.dec.resblocks.9.convs2.2.bias
-vq_model.dec.resblocks.9.convs2.2.weight_g
-vq_model.dec.resblocks.9.convs2.2.weight_v
-vq_model.dec.resblocks.10.convs1.0.bias
-vq_model.dec.resblocks.10.convs1.0.weight_g
-vq_model.dec.resblocks.10.convs1.0.weight_v
-vq_model.dec.resblocks.10.convs1.1.bias
-vq_model.dec.resblocks.10.convs1.1.weight_g
-vq_model.dec.resblocks.10.convs1.1.weight_v
-vq_model.dec.resblocks.10.convs1.2.bias
-vq_model.dec.resblocks.10.convs1.2.weight_g
-vq_model.dec.resblocks.10.convs1.2.weight_v
-vq_model.dec.resblocks.10.convs2.0.bias
-vq_model.dec.resblocks.10.convs2.0.weight_g
-vq_model.dec.resblocks.10.convs2.0.weight_v
-vq_model.dec.resblocks.10.convs2.1.bias
-vq_model.dec.resblocks.10.convs2.1.weight_g
-vq_model.dec.resblocks.10.convs2.1.weight_v
-vq_model.dec.resblocks.10.convs2.2.bias
-vq_model.dec.resblocks.10.convs2.2.weight_g
-vq_model.dec.resblocks.10.convs2.2.weight_v
-vq_model.dec.resblocks.11.convs1.0.bias
-vq_model.dec.resblocks.11.convs1.0.weight_g
-vq_model.dec.resblocks.11.convs1.0.weight_v
-vq_model.dec.resblocks.11.convs1.1.bias
-vq_model.dec.resblocks.11.convs1.1.weight_g
-vq_model.dec.resblocks.11.convs1.1.weight_v
-vq_model.dec.resblocks.11.convs1.2.bias
-vq_model.dec.resblocks.11.convs1.2.weight_g
-vq_model.dec.resblocks.11.convs1.2.weight_v
-vq_model.dec.resblocks.11.convs2.0.bias
-vq_model.dec.resblocks.11.convs2.0.weight_g
-vq_model.dec.resblocks.11.convs2.0.weight_v
-vq_model.dec.resblocks.11.convs2.1.bias
-vq_model.dec.resblocks.11.convs2.1.weight_g
-vq_model.dec.resblocks.11.convs2.1.weight_v
-vq_model.dec.resblocks.11.convs2.2.bias
-vq_model.dec.resblocks.11.convs2.2.weight_g
-vq_model.dec.resblocks.11.convs2.2.weight_v
-vq_model.dec.resblocks.12.convs1.0.bias
-vq_model.dec.resblocks.12.convs1.0.weight_g
-vq_model.dec.resblocks.12.convs1.0.weight_v
-vq_model.dec.resblocks.12.convs1.1.bias
-vq_model.dec.resblocks.12.convs1.1.weight_g
-vq_model.dec.resblocks.12.convs1.1.weight_v
-vq_model.dec.resblocks.12.convs1.2.bias
-vq_model.dec.resblocks.12.convs1.2.weight_g
-vq_model.dec.resblocks.12.convs1.2.weight_v
-vq_model.dec.resblocks.12.convs2.0.bias
-vq_model.dec.resblocks.12.convs2.0.weight_g
-vq_model.dec.resblocks.12.convs2.0.weight_v
-vq_model.dec.resblocks.12.convs2.1.bias
-vq_model.dec.resblocks.12.convs2.1.weight_g
-vq_model.dec.resblocks.12.convs2.1.weight_v
-vq_model.dec.resblocks.12.convs2.2.bias
-vq_model.dec.resblocks.12.convs2.2.weight_g
-vq_model.dec.resblocks.12.convs2.2.weight_v
-vq_model.dec.resblocks.13.convs1.0.bias
-vq_model.dec.resblocks.13.convs1.0.weight_g
-vq_model.dec.resblocks.13.convs1.0.weight_v
-vq_model.dec.resblocks.13.convs1.1.bias
-vq_model.dec.resblocks.13.convs1.1.weight_g
-vq_model.dec.resblocks.13.convs1.1.weight_v
-vq_model.dec.resblocks.13.convs1.2.bias
-vq_model.dec.resblocks.13.convs1.2.weight_g
-vq_model.dec.resblocks.13.convs1.2.weight_v
-vq_model.dec.resblocks.13.convs2.0.bias
-vq_model.dec.resblocks.13.convs2.0.weight_g
-vq_model.dec.resblocks.13.convs2.0.weight_v
-vq_model.dec.resblocks.13.convs2.1.bias
-vq_model.dec.resblocks.13.convs2.1.weight_g
-vq_model.dec.resblocks.13.convs2.1.weight_v
-vq_model.dec.resblocks.13.convs2.2.bias
-vq_model.dec.resblocks.13.convs2.2.weight_g
-vq_model.dec.resblocks.13.convs2.2.weight_v
-vq_model.dec.resblocks.14.convs1.0.bias
-vq_model.dec.resblocks.14.convs1.0.weight_g
-vq_model.dec.resblocks.14.convs1.0.weight_v
-vq_model.dec.resblocks.14.convs1.1.bias
-vq_model.dec.resblocks.14.convs1.1.weight_g
-vq_model.dec.resblocks.14.convs1.1.weight_v
-vq_model.dec.resblocks.14.convs1.2.bias
-vq_model.dec.resblocks.14.convs1.2.weight_g
-vq_model.dec.resblocks.14.convs1.2.weight_v
-vq_model.dec.resblocks.14.convs2.0.bias
-vq_model.dec.resblocks.14.convs2.0.weight_g
-vq_model.dec.resblocks.14.convs2.0.weight_v
-vq_model.dec.resblocks.14.convs2.1.bias
-vq_model.dec.resblocks.14.convs2.1.weight_g
-vq_model.dec.resblocks.14.convs2.1.weight_v
-vq_model.dec.resblocks.14.convs2.2.bias
-vq_model.dec.resblocks.14.convs2.2.weight_g
-vq_model.dec.resblocks.14.convs2.2.weight_v
-vq_model.dec.conv_post.weight
-vq_model.dec.cond.weight
-vq_model.dec.cond.bias
-vq_model.flow.flows.0.pre.weight
-vq_model.flow.flows.0.pre.bias
-vq_model.flow.flows.0.enc.in_layers.0.bias
-vq_model.flow.flows.0.enc.in_layers.0.weight_g
-vq_model.flow.flows.0.enc.in_layers.0.weight_v
-vq_model.flow.flows.0.enc.in_layers.1.bias
-vq_model.flow.flows.0.enc.in_layers.1.weight_g
-vq_model.flow.flows.0.enc.in_layers.1.weight_v
-vq_model.flow.flows.0.enc.in_layers.2.bias
-vq_model.flow.flows.0.enc.in_layers.2.weight_g
-vq_model.flow.flows.0.enc.in_layers.2.weight_v
-vq_model.flow.flows.0.enc.in_layers.3.bias
-vq_model.flow.flows.0.enc.in_layers.3.weight_g
-vq_model.flow.flows.0.enc.in_layers.3.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.0.bias
-vq_model.flow.flows.0.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.1.bias
-vq_model.flow.flows.0.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.2.bias
-vq_model.flow.flows.0.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.0.enc.res_skip_layers.3.bias
-vq_model.flow.flows.0.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.0.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.0.enc.cond_layer.bias
-vq_model.flow.flows.0.enc.cond_layer.weight_g
-vq_model.flow.flows.0.enc.cond_layer.weight_v
-vq_model.flow.flows.0.post.weight
-vq_model.flow.flows.0.post.bias
-vq_model.flow.flows.2.pre.weight
-vq_model.flow.flows.2.pre.bias
-vq_model.flow.flows.2.enc.in_layers.0.bias
-vq_model.flow.flows.2.enc.in_layers.0.weight_g
-vq_model.flow.flows.2.enc.in_layers.0.weight_v
-vq_model.flow.flows.2.enc.in_layers.1.bias
-vq_model.flow.flows.2.enc.in_layers.1.weight_g
-vq_model.flow.flows.2.enc.in_layers.1.weight_v
-vq_model.flow.flows.2.enc.in_layers.2.bias
-vq_model.flow.flows.2.enc.in_layers.2.weight_g
-vq_model.flow.flows.2.enc.in_layers.2.weight_v
-vq_model.flow.flows.2.enc.in_layers.3.bias
-vq_model.flow.flows.2.enc.in_layers.3.weight_g
-vq_model.flow.flows.2.enc.in_layers.3.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.0.bias
-vq_model.flow.flows.2.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.1.bias
-vq_model.flow.flows.2.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.2.bias
-vq_model.flow.flows.2.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.2.enc.res_skip_layers.3.bias
-vq_model.flow.flows.2.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.2.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.2.enc.cond_layer.bias
-vq_model.flow.flows.2.enc.cond_layer.weight_g
-vq_model.flow.flows.2.enc.cond_layer.weight_v
-vq_model.flow.flows.2.post.weight
-vq_model.flow.flows.2.post.bias
-vq_model.flow.flows.4.pre.weight
-vq_model.flow.flows.4.pre.bias
-vq_model.flow.flows.4.enc.in_layers.0.bias
-vq_model.flow.flows.4.enc.in_layers.0.weight_g
-vq_model.flow.flows.4.enc.in_layers.0.weight_v
-vq_model.flow.flows.4.enc.in_layers.1.bias
-vq_model.flow.flows.4.enc.in_layers.1.weight_g
-vq_model.flow.flows.4.enc.in_layers.1.weight_v
-vq_model.flow.flows.4.enc.in_layers.2.bias
-vq_model.flow.flows.4.enc.in_layers.2.weight_g
-vq_model.flow.flows.4.enc.in_layers.2.weight_v
-vq_model.flow.flows.4.enc.in_layers.3.bias
-vq_model.flow.flows.4.enc.in_layers.3.weight_g
-vq_model.flow.flows.4.enc.in_layers.3.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.0.bias
-vq_model.flow.flows.4.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.1.bias
-vq_model.flow.flows.4.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.2.bias
-vq_model.flow.flows.4.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.4.enc.res_skip_layers.3.bias
-vq_model.flow.flows.4.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.4.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.4.enc.cond_layer.bias
-vq_model.flow.flows.4.enc.cond_layer.weight_g
-vq_model.flow.flows.4.enc.cond_layer.weight_v
-vq_model.flow.flows.4.post.weight
-vq_model.flow.flows.4.post.bias
-vq_model.flow.flows.6.pre.weight
-vq_model.flow.flows.6.pre.bias
-vq_model.flow.flows.6.enc.in_layers.0.bias
-vq_model.flow.flows.6.enc.in_layers.0.weight_g
-vq_model.flow.flows.6.enc.in_layers.0.weight_v
-vq_model.flow.flows.6.enc.in_layers.1.bias
-vq_model.flow.flows.6.enc.in_layers.1.weight_g
-vq_model.flow.flows.6.enc.in_layers.1.weight_v
-vq_model.flow.flows.6.enc.in_layers.2.bias
-vq_model.flow.flows.6.enc.in_layers.2.weight_g
-vq_model.flow.flows.6.enc.in_layers.2.weight_v
-vq_model.flow.flows.6.enc.in_layers.3.bias
-vq_model.flow.flows.6.enc.in_layers.3.weight_g
-vq_model.flow.flows.6.enc.in_layers.3.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.0.bias
-vq_model.flow.flows.6.enc.res_skip_layers.0.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.0.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.1.bias
-vq_model.flow.flows.6.enc.res_skip_layers.1.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.1.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.2.bias
-vq_model.flow.flows.6.enc.res_skip_layers.2.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.2.weight_v
-vq_model.flow.flows.6.enc.res_skip_layers.3.bias
-vq_model.flow.flows.6.enc.res_skip_layers.3.weight_g
-vq_model.flow.flows.6.enc.res_skip_layers.3.weight_v
-vq_model.flow.flows.6.enc.cond_layer.bias
-vq_model.flow.flows.6.enc.cond_layer.weight_g
-vq_model.flow.flows.6.enc.cond_layer.weight_v
-vq_model.flow.flows.6.post.weight
-vq_model.flow.flows.6.post.bias
-vq_model.quantizer.vq.layers.0._codebook.embed

+vq_model.enc_p.ssl_proj.weight
+vq_model.enc_p.ssl_proj.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_k
+vq_model.enc_p.encoder_ssl.attn_layers.0.emb_rel_v
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_q.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_k.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_v.bias
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.weight
+vq_model.enc_p.encoder_ssl.attn_layers.0.conv_o.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_k
+vq_model.enc_p.encoder_ssl.attn_layers.1.emb_rel_v
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_q.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_k.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_v.bias
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.weight
+vq_model.enc_p.encoder_ssl.attn_layers.1.conv_o.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_k
+vq_model.enc_p.encoder_ssl.attn_layers.2.emb_rel_v
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_q.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_k.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_v.bias
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.weight
+vq_model.enc_p.encoder_ssl.attn_layers.2.conv_o.bias
+vq_model.enc_p.encoder_ssl.norm_layers_1.0.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_1.0.beta
+vq_model.enc_p.encoder_ssl.norm_layers_1.1.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_1.1.beta
+vq_model.enc_p.encoder_ssl.norm_layers_1.2.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_1.2.beta
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_1.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.0.conv_2.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_1.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.1.conv_2.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_1.bias
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.weight
+vq_model.enc_p.encoder_ssl.ffn_layers.2.conv_2.bias
+vq_model.enc_p.encoder_ssl.norm_layers_2.0.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_2.0.beta
+vq_model.enc_p.encoder_ssl.norm_layers_2.1.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_2.1.beta
+vq_model.enc_p.encoder_ssl.norm_layers_2.2.gamma
+vq_model.enc_p.encoder_ssl.norm_layers_2.2.beta
+vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.0.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.0.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.0.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.0.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.0.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.0.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.0.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.0.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.0.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.1.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.1.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.1.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.1.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.1.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.1.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.1.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.1.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.1.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.2.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.2.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.2.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.2.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.2.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.2.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.2.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.2.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.2.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.3.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.3.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.3.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.3.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.3.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.3.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.3.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.3.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.3.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.4.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.4.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.4.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.4.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.4.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.4.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.4.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.4.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.4.conv_o.bias
+vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_k
+vq_model.enc_p.encoder_text.attn_layers.5.emb_rel_v
+vq_model.enc_p.encoder_text.attn_layers.5.conv_q.weight
+vq_model.enc_p.encoder_text.attn_layers.5.conv_q.bias
+vq_model.enc_p.encoder_text.attn_layers.5.conv_k.weight
+vq_model.enc_p.encoder_text.attn_layers.5.conv_k.bias
+vq_model.enc_p.encoder_text.attn_layers.5.conv_v.weight
+vq_model.enc_p.encoder_text.attn_layers.5.conv_v.bias
+vq_model.enc_p.encoder_text.attn_layers.5.conv_o.weight
+vq_model.enc_p.encoder_text.attn_layers.5.conv_o.bias
+vq_model.enc_p.encoder_text.norm_layers_1.0.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.0.beta
+vq_model.enc_p.encoder_text.norm_layers_1.1.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.1.beta
+vq_model.enc_p.encoder_text.norm_layers_1.2.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.2.beta
+vq_model.enc_p.encoder_text.norm_layers_1.3.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.3.beta
+vq_model.enc_p.encoder_text.norm_layers_1.4.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.4.beta
+vq_model.enc_p.encoder_text.norm_layers_1.5.gamma
+vq_model.enc_p.encoder_text.norm_layers_1.5.beta
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.0.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.1.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.2.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.3.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.4.conv_2.bias
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.weight
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_1.bias
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.weight
+vq_model.enc_p.encoder_text.ffn_layers.5.conv_2.bias
+vq_model.enc_p.encoder_text.norm_layers_2.0.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.0.beta
+vq_model.enc_p.encoder_text.norm_layers_2.1.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.1.beta
+vq_model.enc_p.encoder_text.norm_layers_2.2.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.2.beta
+vq_model.enc_p.encoder_text.norm_layers_2.3.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.3.beta
+vq_model.enc_p.encoder_text.norm_layers_2.4.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.4.beta
+vq_model.enc_p.encoder_text.norm_layers_2.5.gamma
+vq_model.enc_p.encoder_text.norm_layers_2.5.beta
+vq_model.enc_p.text_embedding.weight
+vq_model.enc_p.mrte.cross_attention.conv_q.weight
+vq_model.enc_p.mrte.cross_attention.conv_q.bias
+vq_model.enc_p.mrte.cross_attention.conv_k.weight
+vq_model.enc_p.mrte.cross_attention.conv_k.bias
+vq_model.enc_p.mrte.cross_attention.conv_v.weight
+vq_model.enc_p.mrte.cross_attention.conv_v.bias
+vq_model.enc_p.mrte.cross_attention.conv_o.weight
+vq_model.enc_p.mrte.cross_attention.conv_o.bias
+vq_model.enc_p.mrte.c_pre.weight
+vq_model.enc_p.mrte.c_pre.bias
+vq_model.enc_p.mrte.text_pre.weight
+vq_model.enc_p.mrte.text_pre.bias
+vq_model.enc_p.mrte.c_post.weight
+vq_model.enc_p.mrte.c_post.bias
+vq_model.enc_p.encoder2.attn_layers.0.emb_rel_k
+vq_model.enc_p.encoder2.attn_layers.0.emb_rel_v
+vq_model.enc_p.encoder2.attn_layers.0.conv_q.weight
+vq_model.enc_p.encoder2.attn_layers.0.conv_q.bias
+vq_model.enc_p.encoder2.attn_layers.0.conv_k.weight
+vq_model.enc_p.encoder2.attn_layers.0.conv_k.bias
+vq_model.enc_p.encoder2.attn_layers.0.conv_v.weight
+vq_model.enc_p.encoder2.attn_layers.0.conv_v.bias
+vq_model.enc_p.encoder2.attn_layers.0.conv_o.weight
+vq_model.enc_p.encoder2.attn_layers.0.conv_o.bias
+vq_model.enc_p.encoder2.attn_layers.1.emb_rel_k
+vq_model.enc_p.encoder2.attn_layers.1.emb_rel_v
+vq_model.enc_p.encoder2.attn_layers.1.conv_q.weight
+vq_model.enc_p.encoder2.attn_layers.1.conv_q.bias
+vq_model.enc_p.encoder2.attn_layers.1.conv_k.weight
+vq_model.enc_p.encoder2.attn_layers.1.conv_k.bias
+vq_model.enc_p.encoder2.attn_layers.1.conv_v.weight
+vq_model.enc_p.encoder2.attn_layers.1.conv_v.bias
+vq_model.enc_p.encoder2.attn_layers.1.conv_o.weight
+vq_model.enc_p.encoder2.attn_layers.1.conv_o.bias
+vq_model.enc_p.encoder2.attn_layers.2.emb_rel_k
+vq_model.enc_p.encoder2.attn_layers.2.emb_rel_v
+vq_model.enc_p.encoder2.attn_layers.2.conv_q.weight
+vq_model.enc_p.encoder2.attn_layers.2.conv_q.bias
+vq_model.enc_p.encoder2.attn_layers.2.conv_k.weight
+vq_model.enc_p.encoder2.attn_layers.2.conv_k.bias
+vq_model.enc_p.encoder2.attn_layers.2.conv_v.weight
+vq_model.enc_p.encoder2.attn_layers.2.conv_v.bias
+vq_model.enc_p.encoder2.attn_layers.2.conv_o.weight
+vq_model.enc_p.encoder2.attn_layers.2.conv_o.bias
+vq_model.enc_p.encoder2.norm_layers_1.0.gamma
+vq_model.enc_p.encoder2.norm_layers_1.0.beta
+vq_model.enc_p.encoder2.norm_layers_1.1.gamma
+vq_model.enc_p.encoder2.norm_layers_1.1.beta
+vq_model.enc_p.encoder2.norm_layers_1.2.gamma
+vq_model.enc_p.encoder2.norm_layers_1.2.beta
+vq_model.enc_p.encoder2.ffn_layers.0.conv_1.weight
+vq_model.enc_p.encoder2.ffn_layers.0.conv_1.bias
+vq_model.enc_p.encoder2.ffn_layers.0.conv_2.weight
+vq_model.enc_p.encoder2.ffn_layers.0.conv_2.bias
+vq_model.enc_p.encoder2.ffn_layers.1.conv_1.weight
+vq_model.enc_p.encoder2.ffn_layers.1.conv_1.bias
+vq_model.enc_p.encoder2.ffn_layers.1.conv_2.weight
+vq_model.enc_p.encoder2.ffn_layers.1.conv_2.bias
+vq_model.enc_p.encoder2.ffn_layers.2.conv_1.weight
+vq_model.enc_p.encoder2.ffn_layers.2.conv_1.bias
+vq_model.enc_p.encoder2.ffn_layers.2.conv_2.weight
+vq_model.enc_p.encoder2.ffn_layers.2.conv_2.bias
+vq_model.enc_p.encoder2.norm_layers_2.0.gamma
+vq_model.enc_p.encoder2.norm_layers_2.0.beta
+vq_model.enc_p.encoder2.norm_layers_2.1.gamma
+vq_model.enc_p.encoder2.norm_layers_2.1.beta
+vq_model.enc_p.encoder2.norm_layers_2.2.gamma
+vq_model.enc_p.encoder2.norm_layers_2.2.beta
+vq_model.enc_p.proj.weight
+vq_model.enc_p.proj.bias
+vq_model.dec.conv_pre.weight
+vq_model.dec.conv_pre.bias
+vq_model.dec.ups.0.bias
+vq_model.dec.ups.0.weight_g
+vq_model.dec.ups.0.weight_v
+vq_model.dec.ups.1.bias
+vq_model.dec.ups.1.weight_g
+vq_model.dec.ups.1.weight_v
+vq_model.dec.ups.2.bias
+vq_model.dec.ups.2.weight_g
+vq_model.dec.ups.2.weight_v
+vq_model.dec.ups.3.bias
+vq_model.dec.ups.3.weight_g
+vq_model.dec.ups.3.weight_v
+vq_model.dec.ups.4.bias
+vq_model.dec.ups.4.weight_g
+vq_model.dec.ups.4.weight_v
+vq_model.dec.resblocks.0.convs1.0.bias
+vq_model.dec.resblocks.0.convs1.0.weight_g
+vq_model.dec.resblocks.0.convs1.0.weight_v
+vq_model.dec.resblocks.0.convs1.1.bias
+vq_model.dec.resblocks.0.convs1.1.weight_g
+vq_model.dec.resblocks.0.convs1.1.weight_v
+vq_model.dec.resblocks.0.convs1.2.bias
+vq_model.dec.resblocks.0.convs1.2.weight_g
+vq_model.dec.resblocks.0.convs1.2.weight_v
+vq_model.dec.resblocks.0.convs2.0.bias
+vq_model.dec.resblocks.0.convs2.0.weight_g
+vq_model.dec.resblocks.0.convs2.0.weight_v
+vq_model.dec.resblocks.0.convs2.1.bias
+vq_model.dec.resblocks.0.convs2.1.weight_g
+vq_model.dec.resblocks.0.convs2.1.weight_v
+vq_model.dec.resblocks.0.convs2.2.bias
+vq_model.dec.resblocks.0.convs2.2.weight_g
+vq_model.dec.resblocks.0.convs2.2.weight_v
+vq_model.dec.resblocks.1.convs1.0.bias
+vq_model.dec.resblocks.1.convs1.0.weight_g
+vq_model.dec.resblocks.1.convs1.0.weight_v
+vq_model.dec.resblocks.1.convs1.1.bias
+vq_model.dec.resblocks.1.convs1.1.weight_g
+vq_model.dec.resblocks.1.convs1.1.weight_v
+vq_model.dec.resblocks.1.convs1.2.bias
+vq_model.dec.resblocks.1.convs1.2.weight_g
+vq_model.dec.resblocks.1.convs1.2.weight_v
+vq_model.dec.resblocks.1.convs2.0.bias
+vq_model.dec.resblocks.1.convs2.0.weight_g
+vq_model.dec.resblocks.1.convs2.0.weight_v
+vq_model.dec.resblocks.1.convs2.1.bias
+vq_model.dec.resblocks.1.convs2.1.weight_g
+vq_model.dec.resblocks.1.convs2.1.weight_v
+vq_model.dec.resblocks.1.convs2.2.bias
+vq_model.dec.resblocks.1.convs2.2.weight_g
+vq_model.dec.resblocks.1.convs2.2.weight_v
+vq_model.dec.resblocks.2.convs1.0.bias
+vq_model.dec.resblocks.2.convs1.0.weight_g
+vq_model.dec.resblocks.2.convs1.0.weight_v
+vq_model.dec.resblocks.2.convs1.1.bias
+vq_model.dec.resblocks.2.convs1.1.weight_g
+vq_model.dec.resblocks.2.convs1.1.weight_v
+vq_model.dec.resblocks.2.convs1.2.bias
+vq_model.dec.resblocks.2.convs1.2.weight_g
+vq_model.dec.resblocks.2.convs1.2.weight_v
+vq_model.dec.resblocks.2.convs2.0.bias
+vq_model.dec.resblocks.2.convs2.0.weight_g
+vq_model.dec.resblocks.2.convs2.0.weight_v
+vq_model.dec.resblocks.2.convs2.1.bias
+vq_model.dec.resblocks.2.convs2.1.weight_g
+vq_model.dec.resblocks.2.convs2.1.weight_v
+vq_model.dec.resblocks.2.convs2.2.bias
+vq_model.dec.resblocks.2.convs2.2.weight_g
+vq_model.dec.resblocks.2.convs2.2.weight_v
+vq_model.dec.resblocks.3.convs1.0.bias
+vq_model.dec.resblocks.3.convs1.0.weight_g
+vq_model.dec.resblocks.3.convs1.0.weight_v
+vq_model.dec.resblocks.3.convs1.1.bias
+vq_model.dec.resblocks.3.convs1.1.weight_g
+vq_model.dec.resblocks.3.convs1.1.weight_v
+vq_model.dec.resblocks.3.convs1.2.bias
+vq_model.dec.resblocks.3.convs1.2.weight_g
+vq_model.dec.resblocks.3.convs1.2.weight_v
+vq_model.dec.resblocks.3.convs2.0.bias
+vq_model.dec.resblocks.3.convs2.0.weight_g
+vq_model.dec.resblocks.3.convs2.0.weight_v
+vq_model.dec.resblocks.3.convs2.1.bias
+vq_model.dec.resblocks.3.convs2.1.weight_g
+vq_model.dec.resblocks.3.convs2.1.weight_v
+vq_model.dec.resblocks.3.convs2.2.bias
+vq_model.dec.resblocks.3.convs2.2.weight_g
+vq_model.dec.resblocks.3.convs2.2.weight_v
+vq_model.dec.resblocks.4.convs1.0.bias
+vq_model.dec.resblocks.4.convs1.0.weight_g
+vq_model.dec.resblocks.4.convs1.0.weight_v
+vq_model.dec.resblocks.4.convs1.1.bias
+vq_model.dec.resblocks.4.convs1.1.weight_g
+vq_model.dec.resblocks.4.convs1.1.weight_v
+vq_model.dec.resblocks.4.convs1.2.bias
+vq_model.dec.resblocks.4.convs1.2.weight_g
+vq_model.dec.resblocks.4.convs1.2.weight_v
+vq_model.dec.resblocks.4.convs2.0.bias
+vq_model.dec.resblocks.4.convs2.0.weight_g
+vq_model.dec.resblocks.4.convs2.0.weight_v
+vq_model.dec.resblocks.4.convs2.1.bias
+vq_model.dec.resblocks.4.convs2.1.weight_g
+vq_model.dec.resblocks.4.convs2.1.weight_v
+vq_model.dec.resblocks.4.convs2.2.bias
+vq_model.dec.resblocks.4.convs2.2.weight_g
+vq_model.dec.resblocks.4.convs2.2.weight_v
+vq_model.dec.resblocks.5.convs1.0.bias
+vq_model.dec.resblocks.5.convs1.0.weight_g
+vq_model.dec.resblocks.5.convs1.0.weight_v
+vq_model.dec.resblocks.5.convs1.1.bias
+vq_model.dec.resblocks.5.convs1.1.weight_g
+vq_model.dec.resblocks.5.convs1.1.weight_v
+vq_model.dec.resblocks.5.convs1.2.bias
+vq_model.dec.resblocks.5.convs1.2.weight_g
+vq_model.dec.resblocks.5.convs1.2.weight_v
+vq_model.dec.resblocks.5.convs2.0.bias
+vq_model.dec.resblocks.5.convs2.0.weight_g
+vq_model.dec.resblocks.5.convs2.0.weight_v
+vq_model.dec.resblocks.5.convs2.1.bias
+vq_model.dec.resblocks.5.convs2.1.weight_g
+vq_model.dec.resblocks.5.convs2.1.weight_v
+vq_model.dec.resblocks.5.convs2.2.bias
+vq_model.dec.resblocks.5.convs2.2.weight_g
+vq_model.dec.resblocks.5.convs2.2.weight_v
+vq_model.dec.resblocks.6.convs1.0.bias
+vq_model.dec.resblocks.6.convs1.0.weight_g
+vq_model.dec.resblocks.6.convs1.0.weight_v
+vq_model.dec.resblocks.6.convs1.1.bias
+vq_model.dec.resblocks.6.convs1.1.weight_g
+vq_model.dec.resblocks.6.convs1.1.weight_v
+vq_model.dec.resblocks.6.convs1.2.bias
+vq_model.dec.resblocks.6.convs1.2.weight_g
+vq_model.dec.resblocks.6.convs1.2.weight_v
+vq_model.dec.resblocks.6.convs2.0.bias
+vq_model.dec.resblocks.6.convs2.0.weight_g
+vq_model.dec.resblocks.6.convs2.0.weight_v
+vq_model.dec.resblocks.6.convs2.1.bias
+vq_model.dec.resblocks.6.convs2.1.weight_g
+vq_model.dec.resblocks.6.convs2.1.weight_v
+vq_model.dec.resblocks.6.convs2.2.bias
+vq_model.dec.resblocks.6.convs2.2.weight_g
+vq_model.dec.resblocks.6.convs2.2.weight_v
+vq_model.dec.resblocks.7.convs1.0.bias
+vq_model.dec.resblocks.7.convs1.0.weight_g
+vq_model.dec.resblocks.7.convs1.0.weight_v
+vq_model.dec.resblocks.7.convs1.1.bias
+vq_model.dec.resblocks.7.convs1.1.weight_g
+vq_model.dec.resblocks.7.convs1.1.weight_v
+vq_model.dec.resblocks.7.convs1.2.bias
+vq_model.dec.resblocks.7.convs1.2.weight_g
+vq_model.dec.resblocks.7.convs1.2.weight_v
+vq_model.dec.resblocks.7.convs2.0.bias
+vq_model.dec.resblocks.7.convs2.0.weight_g
+vq_model.dec.resblocks.7.convs2.0.weight_v
+vq_model.dec.resblocks.7.convs2.1.bias
+vq_model.dec.resblocks.7.convs2.1.weight_g
+vq_model.dec.resblocks.7.convs2.1.weight_v
+vq_model.dec.resblocks.7.convs2.2.bias
+vq_model.dec.resblocks.7.convs2.2.weight_g
+vq_model.dec.resblocks.7.convs2.2.weight_v
+vq_model.dec.resblocks.8.convs1.0.bias
+vq_model.dec.resblocks.8.convs1.0.weight_g
+vq_model.dec.resblocks.8.convs1.0.weight_v
+vq_model.dec.resblocks.8.convs1.1.bias
+vq_model.dec.resblocks.8.convs1.1.weight_g
+vq_model.dec.resblocks.8.convs1.1.weight_v
+vq_model.dec.resblocks.8.convs1.2.bias
+vq_model.dec.resblocks.8.convs1.2.weight_g
+vq_model.dec.resblocks.8.convs1.2.weight_v
+vq_model.dec.resblocks.8.convs2.0.bias
+vq_model.dec.resblocks.8.convs2.0.weight_g
+vq_model.dec.resblocks.8.convs2.0.weight_v
+vq_model.dec.resblocks.8.convs2.1.bias
+vq_model.dec.resblocks.8.convs2.1.weight_g
+vq_model.dec.resblocks.8.convs2.1.weight_v
+vq_model.dec.resblocks.8.convs2.2.bias
+vq_model.dec.resblocks.8.convs2.2.weight_g
+vq_model.dec.resblocks.8.convs2.2.weight_v
+vq_model.dec.resblocks.9.convs1.0.bias
+vq_model.dec.resblocks.9.convs1.0.weight_g
+vq_model.dec.resblocks.9.convs1.0.weight_v
+vq_model.dec.resblocks.9.convs1.1.bias
+vq_model.dec.resblocks.9.convs1.1.weight_g
+vq_model.dec.resblocks.9.convs1.1.weight_v
+vq_model.dec.resblocks.9.convs1.2.bias
+vq_model.dec.resblocks.9.convs1.2.weight_g
+vq_model.dec.resblocks.9.convs1.2.weight_v
+vq_model.dec.resblocks.9.convs2.0.bias
+vq_model.dec.resblocks.9.convs2.0.weight_g
+vq_model.dec.resblocks.9.convs2.0.weight_v
+vq_model.dec.resblocks.9.convs2.1.bias
+vq_model.dec.resblocks.9.convs2.1.weight_g
+vq_model.dec.resblocks.9.convs2.1.weight_v
+vq_model.dec.resblocks.9.convs2.2.bias
+vq_model.dec.resblocks.9.convs2.2.weight_g
+vq_model.dec.resblocks.9.convs2.2.weight_v
+vq_model.dec.resblocks.10.convs1.0.bias
+vq_model.dec.resblocks.10.convs1.0.weight_g
+vq_model.dec.resblocks.10.convs1.0.weight_v
+vq_model.dec.resblocks.10.convs1.1.bias
+vq_model.dec.resblocks.10.convs1.1.weight_g
+vq_model.dec.resblocks.10.convs1.1.weight_v
+vq_model.dec.resblocks.10.convs1.2.bias
+vq_model.dec.resblocks.10.convs1.2.weight_g
+vq_model.dec.resblocks.10.convs1.2.weight_v
+vq_model.dec.resblocks.10.convs2.0.bias
+vq_model.dec.resblocks.10.convs2.0.weight_g
+vq_model.dec.resblocks.10.convs2.0.weight_v
+vq_model.dec.resblocks.10.convs2.1.bias
+vq_model.dec.resblocks.10.convs2.1.weight_g
+vq_model.dec.resblocks.10.convs2.1.weight_v
+vq_model.dec.resblocks.10.convs2.2.bias
+vq_model.dec.resblocks.10.convs2.2.weight_g
+vq_model.dec.resblocks.10.convs2.2.weight_v
+vq_model.dec.resblocks.11.convs1.0.bias
+vq_model.dec.resblocks.11.convs1.0.weight_g
+vq_model.dec.resblocks.11.convs1.0.weight_v
+vq_model.dec.resblocks.11.convs1.1.bias
+vq_model.dec.resblocks.11.convs1.1.weight_g
+vq_model.dec.resblocks.11.convs1.1.weight_v
+vq_model.dec.resblocks.11.convs1.2.bias
+vq_model.dec.resblocks.11.convs1.2.weight_g
+vq_model.dec.resblocks.11.convs1.2.weight_v
+vq_model.dec.resblocks.11.convs2.0.bias
+vq_model.dec.resblocks.11.convs2.0.weight_g
+vq_model.dec.resblocks.11.convs2.0.weight_v
+vq_model.dec.resblocks.11.convs2.1.bias
+vq_model.dec.resblocks.11.convs2.1.weight_g
+vq_model.dec.resblocks.11.convs2.1.weight_v
+vq_model.dec.resblocks.11.convs2.2.bias
+vq_model.dec.resblocks.11.convs2.2.weight_g
+vq_model.dec.resblocks.11.convs2.2.weight_v
+vq_model.dec.resblocks.12.convs1.0.bias
+vq_model.dec.resblocks.12.convs1.0.weight_g
+vq_model.dec.resblocks.12.convs1.0.weight_v
+vq_model.dec.resblocks.12.convs1.1.bias
+vq_model.dec.resblocks.12.convs1.1.weight_g
+vq_model.dec.resblocks.12.convs1.1.weight_v
+vq_model.dec.resblocks.12.convs1.2.bias
+vq_model.dec.resblocks.12.convs1.2.weight_g
+vq_model.dec.resblocks.12.convs1.2.weight_v
+vq_model.dec.resblocks.12.convs2.0.bias
+vq_model.dec.resblocks.12.convs2.0.weight_g
+vq_model.dec.resblocks.12.convs2.0.weight_v
+vq_model.dec.resblocks.12.convs2.1.bias
+vq_model.dec.resblocks.12.convs2.1.weight_g
+vq_model.dec.resblocks.12.convs2.1.weight_v
+vq_model.dec.resblocks.12.convs2.2.bias
+vq_model.dec.resblocks.12.convs2.2.weight_g
+vq_model.dec.resblocks.12.convs2.2.weight_v
+vq_model.dec.resblocks.13.convs1.0.bias
+vq_model.dec.resblocks.13.convs1.0.weight_g
+vq_model.dec.resblocks.13.convs1.0.weight_v
+vq_model.dec.resblocks.13.convs1.1.bias
+vq_model.dec.resblocks.13.convs1.1.weight_g
+vq_model.dec.resblocks.13.convs1.1.weight_v
+vq_model.dec.resblocks.13.convs1.2.bias
+vq_model.dec.resblocks.13.convs1.2.weight_g
+vq_model.dec.resblocks.13.convs1.2.weight_v
+vq_model.dec.resblocks.13.convs2.0.bias
+vq_model.dec.resblocks.13.convs2.0.weight_g
+vq_model.dec.resblocks.13.convs2.0.weight_v
+vq_model.dec.resblocks.13.convs2.1.bias
+vq_model.dec.resblocks.13.convs2.1.weight_g
+vq_model.dec.resblocks.13.convs2.1.weight_v
+vq_model.dec.resblocks.13.convs2.2.bias
+vq_model.dec.resblocks.13.convs2.2.weight_g
+vq_model.dec.resblocks.13.convs2.2.weight_v
+vq_model.dec.resblocks.14.convs1.0.bias
+vq_model.dec.resblocks.14.convs1.0.weight_g
+vq_model.dec.resblocks.14.convs1.0.weight_v
+vq_model.dec.resblocks.14.convs1.1.bias
+vq_model.dec.resblocks.14.convs1.1.weight_g
+vq_model.dec.resblocks.14.convs1.1.weight_v
+vq_model.dec.resblocks.14.convs1.2.bias
+vq_model.dec.resblocks.14.convs1.2.weight_g
+vq_model.dec.resblocks.14.convs1.2.weight_v
+vq_model.dec.resblocks.14.convs2.0.bias
+vq_model.dec.resblocks.14.convs2.0.weight_g
+vq_model.dec.resblocks.14.convs2.0.weight_v
+vq_model.dec.resblocks.14.convs2.1.bias
+vq_model.dec.resblocks.14.convs2.1.weight_g
+vq_model.dec.resblocks.14.convs2.1.weight_v
+vq_model.dec.resblocks.14.convs2.2.bias
+vq_model.dec.resblocks.14.convs2.2.weight_g
+vq_model.dec.resblocks.14.convs2.2.weight_v
+vq_model.dec.conv_post.weight
+vq_model.dec.cond.weight
+vq_model.dec.cond.bias
+vq_model.flow.flows.0.pre.weight
+vq_model.flow.flows.0.pre.bias
+vq_model.flow.flows.0.enc.in_layers.0.bias
+vq_model.flow.flows.0.enc.in_layers.0.weight_g
+vq_model.flow.flows.0.enc.in_layers.0.weight_v
+vq_model.flow.flows.0.enc.in_layers.1.bias
+vq_model.flow.flows.0.enc.in_layers.1.weight_g
+vq_model.flow.flows.0.enc.in_layers.1.weight_v
+vq_model.flow.flows.0.enc.in_layers.2.bias
+vq_model.flow.flows.0.enc.in_layers.2.weight_g
+vq_model.flow.flows.0.enc.in_layers.2.weight_v
+vq_model.flow.flows.0.enc.in_layers.3.bias
+vq_model.flow.flows.0.enc.in_layers.3.weight_g
+vq_model.flow.flows.0.enc.in_layers.3.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.0.bias
+vq_model.flow.flows.0.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.1.bias
+vq_model.flow.flows.0.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.2.bias
+vq_model.flow.flows.0.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.0.enc.res_skip_layers.3.bias
+vq_model.flow.flows.0.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.0.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.0.enc.cond_layer.bias
+vq_model.flow.flows.0.enc.cond_layer.weight_g
+vq_model.flow.flows.0.enc.cond_layer.weight_v
+vq_model.flow.flows.0.post.weight
+vq_model.flow.flows.0.post.bias
+vq_model.flow.flows.2.pre.weight
+vq_model.flow.flows.2.pre.bias
+vq_model.flow.flows.2.enc.in_layers.0.bias
+vq_model.flow.flows.2.enc.in_layers.0.weight_g
+vq_model.flow.flows.2.enc.in_layers.0.weight_v
+vq_model.flow.flows.2.enc.in_layers.1.bias
+vq_model.flow.flows.2.enc.in_layers.1.weight_g
+vq_model.flow.flows.2.enc.in_layers.1.weight_v
+vq_model.flow.flows.2.enc.in_layers.2.bias
+vq_model.flow.flows.2.enc.in_layers.2.weight_g
+vq_model.flow.flows.2.enc.in_layers.2.weight_v
+vq_model.flow.flows.2.enc.in_layers.3.bias
+vq_model.flow.flows.2.enc.in_layers.3.weight_g
+vq_model.flow.flows.2.enc.in_layers.3.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.0.bias
+vq_model.flow.flows.2.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.1.bias
+vq_model.flow.flows.2.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.2.bias
+vq_model.flow.flows.2.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.2.enc.res_skip_layers.3.bias
+vq_model.flow.flows.2.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.2.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.2.enc.cond_layer.bias
+vq_model.flow.flows.2.enc.cond_layer.weight_g
+vq_model.flow.flows.2.enc.cond_layer.weight_v
+vq_model.flow.flows.2.post.weight
+vq_model.flow.flows.2.post.bias
+vq_model.flow.flows.4.pre.weight
+vq_model.flow.flows.4.pre.bias
+vq_model.flow.flows.4.enc.in_layers.0.bias
+vq_model.flow.flows.4.enc.in_layers.0.weight_g
+vq_model.flow.flows.4.enc.in_layers.0.weight_v
+vq_model.flow.flows.4.enc.in_layers.1.bias
+vq_model.flow.flows.4.enc.in_layers.1.weight_g
+vq_model.flow.flows.4.enc.in_layers.1.weight_v
+vq_model.flow.flows.4.enc.in_layers.2.bias
+vq_model.flow.flows.4.enc.in_layers.2.weight_g
+vq_model.flow.flows.4.enc.in_layers.2.weight_v
+vq_model.flow.flows.4.enc.in_layers.3.bias
+vq_model.flow.flows.4.enc.in_layers.3.weight_g
+vq_model.flow.flows.4.enc.in_layers.3.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.0.bias
+vq_model.flow.flows.4.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.1.bias
+vq_model.flow.flows.4.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.2.bias
+vq_model.flow.flows.4.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.4.enc.res_skip_layers.3.bias
+vq_model.flow.flows.4.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.4.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.4.enc.cond_layer.bias
+vq_model.flow.flows.4.enc.cond_layer.weight_g
+vq_model.flow.flows.4.enc.cond_layer.weight_v
+vq_model.flow.flows.4.post.weight
+vq_model.flow.flows.4.post.bias
+vq_model.flow.flows.6.pre.weight
+vq_model.flow.flows.6.pre.bias
+vq_model.flow.flows.6.enc.in_layers.0.bias
+vq_model.flow.flows.6.enc.in_layers.0.weight_g
+vq_model.flow.flows.6.enc.in_layers.0.weight_v
+vq_model.flow.flows.6.enc.in_layers.1.bias
+vq_model.flow.flows.6.enc.in_layers.1.weight_g
+vq_model.flow.flows.6.enc.in_layers.1.weight_v
+vq_model.flow.flows.6.enc.in_layers.2.bias
+vq_model.flow.flows.6.enc.in_layers.2.weight_g
+vq_model.flow.flows.6.enc.in_layers.2.weight_v
+vq_model.flow.flows.6.enc.in_layers.3.bias
+vq_model.flow.flows.6.enc.in_layers.3.weight_g
+vq_model.flow.flows.6.enc.in_layers.3.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.0.bias
+vq_model.flow.flows.6.enc.res_skip_layers.0.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.0.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.1.bias
+vq_model.flow.flows.6.enc.res_skip_layers.1.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.1.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.2.bias
+vq_model.flow.flows.6.enc.res_skip_layers.2.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.2.weight_v
+vq_model.flow.flows.6.enc.res_skip_layers.3.bias
+vq_model.flow.flows.6.enc.res_skip_layers.3.weight_g
+vq_model.flow.flows.6.enc.res_skip_layers.3.weight_v
+vq_model.flow.flows.6.enc.cond_layer.bias
+vq_model.flow.flows.6.enc.cond_layer.weight_g
+vq_model.flow.flows.6.enc.cond_layer.weight_v
+vq_model.flow.flows.6.post.weight
+vq_model.flow.flows.6.post.bias
+vq_model.quantizer.vq.layers.0._codebook.embed

genie_tts/G2P/Chinese/CorrectPronunciation.py CHANGED Viewed

@@ -1,50 +1,50 @@
-import os
-import pickle
-from typing import List, Dict, Any, Union
-from ...Core.Resources import Chinese_G2P_DIR
-# 常量定义
-DEFAULT_CACHE_PATH = os.path.join(Chinese_G2P_DIR, "polyphonic.pickle")
-class PolyphonicDictManager:
-    _data: Dict[str, Any] = {}
-    @classmethod
-    def get_data(cls, path: str = DEFAULT_CACHE_PATH) -> Dict[str, Any]:
-        if not cls._data:
-            with open(path, "rb") as f:
-                cls._data = pickle.load(f)
-        return cls._data
-def correct_pronunciation(word: str, word_pinyin: List[str]) -> Union[List[str], str]:
-    """
-        根据加载的字典修正发音，作为供外部程序调用的独立接口。
-        逻辑：优先查找整词修正，如果没有整词匹配，则遍历每个字符进行单字修正。
-        Input:
-            word (str): 原始中文字符串，例如 "银行"。
-            word_pinyins (List[str]): 当前预测的拼音列表，例如 ['yin2', 'xing2']。
-        Output:
-            Union[List[str], str]: 修正后的拼音列表或字符串。
-        Example:
-            # 字典包含整词 {'银行': ['yin2', 'hang2']}
-            result = correct_pronunciation("银行", ["yin2", "xing2"])
-            # Result: ["yin2", "hang2"]
-        """
-    pp_dict = PolyphonicDictManager.get_data()
-    new_word_pinyin = list(word_pinyin)
-    # 1. 尝试整词匹配
-    if new_pinyin := pp_dict.get(word):
-        return new_pinyin
-    # 2. 逐字修正
-    for idx, w in enumerate(word):
-        if idx >= len(new_word_pinyin):
-            break
-        if w_pinyin := pp_dict.get(w):
-            new_word_pinyin[idx] = w_pinyin[0]
-    return new_word_pinyin

+import os
+import pickle
+from typing import List, Dict, Any, Union
+from ...Core.Resources import Chinese_G2P_DIR
+# 常量定义
+DEFAULT_CACHE_PATH = os.path.join(Chinese_G2P_DIR, "polyphonic.pickle")
+class PolyphonicDictManager:
+    _data: Dict[str, Any] = {}
+    @classmethod
+    def get_data(cls, path: str = DEFAULT_CACHE_PATH) -> Dict[str, Any]:
+        if not cls._data:
+            with open(path, "rb") as f:
+                cls._data = pickle.load(f)
+        return cls._data
+def correct_pronunciation(word: str, word_pinyin: List[str]) -> Union[List[str], str]:
+    """
+        根据加载的字典修正发音，作为供外部程序调用的独立接口。
+        逻辑：优先查找整词修正，如果没有整词匹配，则遍历每个字符进行单字修正。
+        Input:
+            word (str): 原始中文字符串，例如 "银行"。
+            word_pinyins (List[str]): 当前预测的拼音列表，例如 ['yin2', 'xing2']。
+        Output:
+            Union[List[str], str]: 修正后的拼音列表或字符串。
+        Example:
+            # 字典包含整词 {'银行': ['yin2', 'hang2']}
+            result = correct_pronunciation("银行", ["yin2", "xing2"])
+            # Result: ["yin2", "hang2"]
+        """
+    pp_dict = PolyphonicDictManager.get_data()
+    new_word_pinyin = list(word_pinyin)
+    # 1. 尝试整词匹配
+    if new_pinyin := pp_dict.get(word):
+        return new_pinyin
+    # 2. 逐字修正
+    for idx, w in enumerate(word):
+        if idx >= len(new_word_pinyin):
+            break
+        if w_pinyin := pp_dict.get(w):
+            new_word_pinyin[idx] = w_pinyin[0]
+    return new_word_pinyin

genie_tts/G2P/Chinese/Erhua.py CHANGED Viewed

@@ -1,49 +1,49 @@
-from typing import List, Tuple, Set
-class ErhuaProcessor:
-    """
-    处理中文G2P中的儿化音逻辑。
-    """
-    def __init__(self):
-        self.must_erhua: Set[str] = {
-            "小院儿", "胡同儿", "范儿", "老汉儿", "撒欢儿", "寻老礼儿", "妥妥儿", "媳妇儿"
-        }
-        self.not_erhua: Set[str] = {
-            "虐儿", "为儿", "护儿", "瞒儿", "救儿", "替儿", "有儿", "一儿", "我儿", "俺儿",
-            "妻儿", "拐儿", "聋儿", "乞儿", "患儿", "幼儿", "孤儿", "婴儿", "婴幼儿", "连体儿",
-            "脑瘫儿", "流浪儿", "体弱儿", "混血儿", "蜜雪儿", "舫儿", "祖儿", "美儿", "应采儿", "可儿",
-            "侄儿", "孙儿", "侄孙儿", "女儿", "男儿", "红孩儿", "花儿", "虫儿", "马儿", "鸟儿",
-            "猪儿", "猫儿", "狗儿", "少儿",
-        }
-    def merge_erhua(self, initials: List[str], finals: List[str], word: str, pos: str) -> Tuple[List[str], List[str]]:
-        # 1. 修正 er1 发音为 er2 (当'儿'在词尾且发音为er1时)
-        for i, phn in enumerate(finals):
-            if i == len(finals) - 1 and word[i] == "儿" and phn == "er1":
-                finals[i] = "er2"
-        # 2. 检查是否跳过儿化处理
-        if word not in self.must_erhua and (word in self.not_erhua or pos in {"a", "j", "nr"}):
-            return initials, finals
-        # 3. 长度校验 (处理如 "……" 等长度不一致的特殊符号情况)
-        if len(finals) != len(word):
-            return initials, finals
-        # 4. 执行儿化合并逻辑 (与前一个字发同音)
-        new_initials = []
-        new_finals = []
-        for i, phn in enumerate(finals):
-            # 判断是否需要合并儿化音
-            # 条件: 是最后一个字 + 是"儿" + 发音是er2/er5 + 后两字不在非儿化表中 + 前面已有韵母
-            if (
-                    i == len(finals) - 1
-                    and word[i] == "儿"
-                    and phn in {"er2", "er5"}
-                    and word[-2:] not in self.not_erhua
-                    and new_finals
-            ):
-                # 将 'er' 加上前一个字的声调
-                phn = "er" + new_finals[-1][-1]
-            new_initials.append(initials[i])
-            new_finals.append(phn)
-        return new_initials, new_finals

+from typing import List, Tuple, Set
+class ErhuaProcessor:
+    """
+    处理中文G2P中的儿化音逻辑。
+    """
+    def __init__(self):
+        self.must_erhua: Set[str] = {
+            "小院儿", "胡同儿", "范儿", "老汉儿", "撒欢儿", "寻老礼儿", "妥妥儿", "媳妇儿"
+        }
+        self.not_erhua: Set[str] = {
+            "虐儿", "为儿", "护儿", "瞒儿", "救儿", "替儿", "有儿", "一儿", "我儿", "俺儿",
+            "妻儿", "拐儿", "聋儿", "乞儿", "患儿", "幼儿", "孤儿", "婴儿", "婴幼儿", "连体儿",
+            "脑瘫儿", "流浪儿", "体弱儿", "混血儿", "蜜雪儿", "舫儿", "祖儿", "美儿", "应采儿", "可儿",
+            "侄儿", "孙儿", "侄孙儿", "女儿", "男儿", "红孩儿", "花儿", "虫儿", "马儿", "鸟儿",
+            "猪儿", "猫儿", "狗儿", "少儿",
+        }
+    def merge_erhua(self, initials: List[str], finals: List[str], word: str, pos: str) -> Tuple[List[str], List[str]]:
+        # 1. 修正 er1 发音为 er2 (当'儿'在词尾且发音为er1时)
+        for i, phn in enumerate(finals):
+            if i == len(finals) - 1 and word[i] == "儿" and phn == "er1":
+                finals[i] = "er2"
+        # 2. 检查是否跳过儿化处理
+        if word not in self.must_erhua and (word in self.not_erhua or pos in {"a", "j", "nr"}):
+            return initials, finals
+        # 3. 长度校验 (处理如 "……" 等长度不一致的特殊符号情况)
+        if len(finals) != len(word):
+            return initials, finals
+        # 4. 执行儿化合并逻辑 (与前一个字发同音)
+        new_initials = []
+        new_finals = []
+        for i, phn in enumerate(finals):
+            # 判断是否需要合并儿化音
+            # 条件: 是最后一个字 + 是"儿" + 发音是er2/er5 + 后两字不在非儿化表中 + 前面已有韵母
+            if (
+                    i == len(finals) - 1
+                    and word[i] == "儿"
+                    and phn in {"er2", "er5"}
+                    and word[-2:] not in self.not_erhua
+                    and new_finals
+            ):
+                # 将 'er' 加上前一个字的声调
+                phn = "er" + new_finals[-1][-1]
+            new_initials.append(initials[i])
+            new_finals.append(phn)
+        return new_initials, new_finals

genie_tts/G2P/Chinese/Normalization/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (204 Bytes). View file

genie_tts/G2P/Chinese/Normalization/__pycache__/char_convert.cpython-311.pyc ADDED Viewed

Binary file (66.1 kB). View file

genie_tts/G2P/Chinese/Normalization/__pycache__/chronology.cpython-311.pyc ADDED Viewed

Binary file (4.52 kB). View file

genie_tts/G2P/Chinese/Normalization/__pycache__/constants.cpython-311.pyc ADDED Viewed

Binary file (2.36 kB). View file

genie_tts/G2P/Chinese/Normalization/__pycache__/num.cpython-311.pyc ADDED Viewed

Binary file (12.8 kB). View file

genie_tts/G2P/Chinese/Normalization/__pycache__/phonecode.cpython-311.pyc ADDED Viewed

Binary file (2.26 kB). View file

genie_tts/G2P/Chinese/Normalization/__pycache__/quantifier.cpython-311.pyc ADDED Viewed

Binary file (1.94 kB). View file

genie_tts/G2P/Chinese/Normalization/__pycache__/text_normlization.cpython-311.pyc ADDED Viewed

Binary file (10.8 kB). View file

genie_tts/G2P/Chinese/ToneSandhi.py CHANGED Viewed

@@ -1,354 +1,354 @@
-# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-"""
-中文拼音变调（Tone Sandhi）自动处理器
-"""
-from typing import List
-from typing import Tuple
-import jieba_fast as jieba
-from pypinyin import lazy_pinyin
-from pypinyin import Style
-class ToneSandhi:
-    def __init__(self):
-        self.must_neural_tone_words = {
-            "麻烦", "麻利", "鸳鸯", "高粱", "骨头", "骆驼", "马虎", "首饰", "馒头", "馄饨",
-            "风筝", "难为", "队伍", "阔气", "闺女", "门道", "锄头", "铺盖", "铃铛", "铁匠",
-            "钥匙", "里脊", "里头", "部分", "那么", "道士", "造化", "迷糊", "连累", "这么",
-            "这个", "运气", "过去", "软和", "转悠", "踏实", "跳蚤", "跟头", "趔趄", "财主",
-            "豆腐", "讲究", "记性", "记号", "认识", "规矩", "见识", "裁缝", "补丁", "衣裳",
-            "衣服", "衙门", "街坊", "行李", "行当", "蛤蟆", "蘑菇", "薄荷", "葫芦", "葡萄",
-            "萝卜", "荸荠", "苗条", "苗头", "苍蝇", "芝麻", "舒服", "舒坦", "舌头", "自在",
-            "膏药", "脾气", "脑袋", "脊梁", "能耐", "胳膊", "胭脂", "胡萝", "胡琴", "胡同",
-            "聪明", "耽误", "耽搁", "耷拉", "耳朵", "老爷", "老实", "老婆", "老头", "老太",
-            "翻腾", "罗嗦", "罐头", "编辑", "结实", "红火", "累赘", "糨糊", "糊涂", "精神",
-            "粮食", "簸箕", "篱笆", "算计", "算盘", "答应", "笤帚", "笑语", "笑话", "窟窿",
-            "窝囊", "窗户", "稳当", "稀罕", "称呼", "秧歌", "秀气", "秀才", "福气", "祖宗",
-            "砚台", "码头", "石榴", "石头", "石匠", "知识", "眼睛", "眯缝", "眨巴", "眉毛",
-            "相声", "盘算", "白净", "痢疾", "痛快", "疟疾", "疙瘩", "疏忽", "畜生", "生意",
-            "甘蔗", "琵琶", "琢磨", "琉璃", "玻璃", "玫瑰", "玄乎", "狐狸", "状元", "特务",
-            "牲口", "牙碜", "牌楼", "爽快", "爱人", "热闹", "烧饼", "烟筒", "烂糊", "点心",
-            "炊帚", "灯笼", "火候", "漂亮", "滑溜", "溜达", "温和", "清楚", "消息", "浪头",
-            "活泼", "比方", "正经", "欺负", "模糊", "槟榔", "棺材", "棒槌", "棉花", "核桃",
-            "栅栏", "柴火", "架势", "枕头", "枇杷", "机灵", "本事", "木头", "木匠", "朋友",
-            "月饼", "月亮", "暖和", "明白", "时候", "新鲜", "故事", "收拾", "收成", "提防",
-            "挖苦", "挑剔", "指甲", "指头", "拾掇", "拳头", "拨弄", "招牌", "招呼", "抬举",
-            "护士", "折腾", "扫帚", "打量", "打算", "打点", "打扮", "打听", "打发", "扎实",
-            "扁担", "戒指", "懒得", "意识", "意思", "情形", "悟性", "怪物", "思量", "怎么",
-            "念头", "念叨", "快活", "忙活", "志气", "心思", "得罪", "张罗", "弟兄", "开通",
-            "应酬", "庄稼", "干事", "帮手", "帐篷", "希罕", "师父", "师傅", "巴结", "巴掌",
-            "差事", "工夫", "岁数", "屁股", "尾巴", "少爷", "小气", "小伙", "将就", "对头",
-            "对付", "寡妇", "家伙", "客气", "实在", "官司", "学问", "学生", "字号", "嫁妆",
-            "媳妇", "媒人", "婆家", "娘家", "委屈", "姑娘", "姐夫", "妯娌", "妥当", "妖精",
-            "奴才", "女婿", "头发", "太阳", "大爷", "大方", "大意", "大夫", "多少", "多么",
-            "外甥", "壮实", "地道", "地方", "在乎", "困难", "嘴巴", "嘱咐", "嘟囔", "嘀咕",
-            "喜欢", "喇嘛", "喇叭", "商量", "唾沫", "哑巴", "哈欠", "哆嗦", "咳嗽", "和尚",
-            "告诉", "告示", "含糊", "吓唬", "后头", "名字", "名堂", "合同", "吆喝", "叫唤",
-            "口袋", "厚道", "厉害", "千斤", "包袱", "包涵", "匀称", "勤快", "动静", "动弹",
-            "功夫", "力气", "前头", "刺猬", "刺激", "别扭", "利落", "利索", "利害", "分析",
-            "出息", "凑合", "凉快", "冷战", "冤枉", "冒失", "养活", "关系", "先生", "兄弟",
-            "便宜", "使唤", "佩服", "作坊", "体面", "位置", "似的", "伙计", "休息", "什么",
-            "人家", "亲戚", "亲家", "交��", "云彩", "事情", "买卖", "主意", "丫头", "丧气",
-            "两口", "东西", "东家", "世故", "不由", "不在", "下水", "下巴", "上头", "上司",
-            "丈夫", "丈人", "一辈", "那个", "菩萨", "父亲", "母亲", "咕噜", "邋遢", "费用",
-            "冤家", "甜头", "介绍", "荒唐", "大人", "泥鳅", "幸福", "熟悉", "计划", "扑腾",
-            "蜡烛", "姥爷", "照顾", "喉咙", "吉他", "弄堂", "蚂蚱", "凤凰", "拖沓", "寒碜",
-            "糟蹋", "倒腾", "报复", "逻辑", "盘缠", "喽啰", "牢骚", "咖喱", "扫把", "惦记",
-        }
-        self.must_not_neural_tone_words = {
-            "男子", "女子", "分子", "原子", "量子", "莲子", "石子", "瓜子", "电子", "人人",
-            "虎虎", "幺幺", "干嘛", "学子", "哈哈", "数数", "袅袅", "局地", "以下", "娃哈哈",
-            "花花草草", "留得", "耕地", "想想", "熙熙", "攘攘", "卵子", "死死", "冉冉", "恳恳",
-            "佼佼", "吵吵", "打打", "考考", "整整", "莘莘", "落地", "算子", "家家户户", "青青",
-        }
-        self.punc = "：，；。？！“”‘’':,;.?!"
-    # the meaning of jieba pos tag: https://blog.csdn.net/weixin_44174352/article/details/113731041
-    # e.g.
-    # word: "家里"
-    # pos: "s"
-    # finals: ['ia1', 'i3']
-    def _neural_sandhi(self, word: str, pos: str, finals: List[str]) -> List[str]:
-        # reduplication words for n. and v. e.g. 奶奶, 试试, 旺旺
-        for j, item in enumerate(word):
-            if (
-                    j - 1 >= 0
-                    and item == word[j - 1]
-                    and pos[0] in {"n", "v", "a"}
-                    and word not in self.must_not_neural_tone_words
-            ):
-                finals[j] = finals[j][:-1] + "5"
-        ge_idx = word.find("个")
-        if len(word) >= 1 and word[-1] in "吧呢哈啊呐噻嘛吖嗨呐哦哒额滴哩哟喽啰耶喔诶":
-            finals[-1] = finals[-1][:-1] + "5"
-        elif len(word) >= 1 and word[-1] in "的地得":
-            finals[-1] = finals[-1][:-1] + "5"
-        # e.g. 走了, 看着, 去过
-        elif len(word) == 1 and word in "了着过" and pos in {"ul", "uz", "ug"}:
-            finals[-1] = finals[-1][:-1] + "5"
-        elif len(word) > 1 and word[-1] in "们子" and pos in {"r", "n"} and word not in self.must_not_neural_tone_words:
-            finals[-1] = finals[-1][:-1] + "5"
-        # e.g. 桌上, 地下, 家里
-        elif len(word) > 1 and word[-1] in "上下里" and pos in {"s", "l", "f"}:
-            finals[-1] = finals[-1][:-1] + "5"
-        # e.g. 上来, 下去
-        elif len(word) > 1 and word[-1] in "来去" and word[-2] in "上下进出回过起开":
-            finals[-1] = finals[-1][:-1] + "5"
-        # 个做量词
-        elif (
-                ge_idx >= 1 and (word[ge_idx - 1].isnumeric() or word[ge_idx - 1] in "几有两半多各整每做是")
-        ) or word == "个":
-            finals[ge_idx] = finals[ge_idx][:-1] + "5"
-        else:
-            if word in self.must_neural_tone_words or word[-2:] in self.must_neural_tone_words:
-                finals[-1] = finals[-1][:-1] + "5"
-        word_list = self._split_word(word)
-        finals_list = [finals[: len(word_list[0])], finals[len(word_list[0]):]]
-        for i, word in enumerate(word_list):
-            # conventional neural in Chinese
-            if word in self.must_neural_tone_words or word[-2:] in self.must_neural_tone_words:
-                finals_list[i][-1] = finals_list[i][-1][:-1] + "5"
-        finals = sum(finals_list, [])
-        return finals
-    @staticmethod
-    def _bu_sandhi(word: str, finals: List[str]) -> List[str]:
-        # e.g. 看不懂
-        if len(word) == 3 and word[1] == "不":
-            finals[1] = finals[1][:-1] + "5"
-        else:
-            for i, char in enumerate(word):
-                # "不" before tone4 should be bu2, e.g. 不怕
-                if char == "不" and i + 1 < len(word) and finals[i + 1][-1] == "4":
-                    finals[i] = finals[i][:-1] + "2"
-        return finals
-    def _yi_sandhi(self, word: str, finals: List[str]) -> List[str]:
-        # "一" in number sequences, e.g. 一零零, 二一零
-        if word.find("一") != -1 and all([item.isnumeric() for item in word if item != "一"]):
-            return finals
-        # "一" between reduplication words should be yi5, e.g. 看一看
-        elif len(word) == 3 and word[1] == "一" and word[0] == word[-1]:
-            finals[1] = finals[1][:-1] + "5"
-        # when "一" is ordinal word, it should be yi1
-        elif word.startswith("第一"):
-            finals[1] = finals[1][:-1] + "1"
-        else:
-            for i, char in enumerate(word):
-                if char == "一" and i + 1 < len(word):
-                    # "一" before tone4 should be yi2, e.g. 一段
-                    if finals[i + 1][-1] == "4":
-                        finals[i] = finals[i][:-1] + "2"
-                    # "一" before non-tone4 should be yi4, e.g. 一天
-                    else:
-                        # "一" 后面如果是标点，还读一声
-                        if word[i + 1] not in self.punc:
-                            finals[i] = finals[i][:-1] + "4"
-        return finals
-    @staticmethod
-    def _split_word(word: str) -> List[str]:
-        word_list = jieba.cut_for_search(word)
-        word_list = sorted(word_list, key=lambda i: len(i), reverse=False)
-        first_subword = word_list[0]
-        first_begin_idx = word.find(first_subword)
-        if first_begin_idx == 0:
-            second_subword = word[len(first_subword):]
-            new_word_list = [first_subword, second_subword]
-        else:
-            second_subword = word[: -len(first_subword)]
-            new_word_list = [second_subword, first_subword]
-        return new_word_list
-    def _three_sandhi(self, word: str, finals: List[str]) -> List[str]:
-        if len(word) == 2 and self._all_tone_three(finals):
-            finals[0] = finals[0][:-1] + "2"
-        elif len(word) == 3:
-            word_list = self._split_word(word)
-            if self._all_tone_three(finals):
-                #  disyllabic + monosyllabic, e.g. 蒙古/包
-                if len(word_list[0]) == 2:
-                    finals[0] = finals[0][:-1] + "2"
-                    finals[1] = finals[1][:-1] + "2"
-                #  monosyllabic + disyllabic, e.g. 纸/老虎
-                elif len(word_list[0]) == 1:
-                    finals[1] = finals[1][:-1] + "2"
-            else:
-                finals_list = [finals[: len(word_list[0])], finals[len(word_list[0]):]]
-                if len(finals_list) == 2:
-                    for i, sub in enumerate(finals_list):
-                        # e.g. 所有/人
-                        if self._all_tone_three(sub) and len(sub) == 2:
-                            finals_list[i][0] = finals_list[i][0][:-1] + "2"
-                        # e.g. 好/喜欢
-                        elif (
-                                i == 1
-                                and not self._all_tone_three(sub)
-                                and finals_list[i][0][-1] == "3"
-                                and finals_list[0][-1][-1] == "3"
-                        ):
-                            finals_list[0][-1] = finals_list[0][-1][:-1] + "2"
-                        finals = sum(finals_list, [])
-        # split idiom into two words whose length is 2
-        elif len(word) == 4:
-            finals_list = [finals[:2], finals[2:]]
-            finals = []
-            for sub in finals_list:
-                if self._all_tone_three(sub):
-                    sub[0] = sub[0][:-1] + "2"
-                finals += sub
-        return finals
-    @staticmethod
-    def _all_tone_three(finals: List[str]) -> bool:
-        # 增加 len(x) > 0 的判断，防止空字符串导致崩溃
-        return all(len(x) > 0 and x[-1] == "3" for x in finals)
-    @staticmethod
-    def _merge_bu(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        new_seg = []
-        last_word = ""
-        for word, pos in seg:
-            if last_word == "不":
-                word = last_word + word
-            if word != "不":
-                new_seg.append((word, pos))
-            last_word = word[:]
-        if last_word == "不":
-            new_seg.append((last_word, "d"))
-        return new_seg
-    @staticmethod
-    def _merge_yi(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        new_seg = []
-        i = 0
-        # function 1
-        while i < len(seg):
-            word, pos = seg[i]
-            merged = False
-            if i - 1 >= 0 and word == "一" and i + 1 < len(seg):
-                last = new_seg[-1] if new_seg else seg[i - 1]
-                if last[0] == seg[i + 1][0] and last[1] == "v" and seg[i + 1][1] == "v":
-                    combined = last[0] + "一" + seg[i + 1][0]
-                    new_seg[-1] = [combined, last[1]]
-                    i += 2
-                    merged = True
-            if not merged:
-                new_seg.append([word, pos])
-                i += 1
-        seg = new_seg
-        new_seg = []
-        # function 2
-        for word, pos in seg:
-            if new_seg and new_seg[-1][0] == "一":
-                new_seg[-1][0] = new_seg[-1][0] + word
-            else:
-                new_seg.append([word, pos])
-        return new_seg
-    # the first and the second words are all_tone_three
-    def _merge_continuous_three_tones(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        new_seg = []
-        sub_finals_list = [
-            lazy_pinyin(word, neutral_tone_with_five=True, style=Style.FINALS_TONE3) for (word, pos) in seg
-        ]
-        assert len(sub_finals_list) == len(seg)
-        merge_last = [False] * len(seg)
-        for i, (word, pos) in enumerate(seg):
-            if (
-                    i - 1 >= 0
-                    and self._all_tone_three(sub_finals_list[i - 1])
-                    and self._all_tone_three(sub_finals_list[i])
-                    and not merge_last[i - 1]
-            ):
-                # if the last word is reduplication, not merge, because reduplication need to be _neural_sandhi
-                if not self._is_reduplication(seg[i - 1][0]) and len(seg[i - 1][0]) + len(seg[i][0]) <= 3:
-                    new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
-                    merge_last[i] = True
-                else:
-                    new_seg.append([word, pos])
-            else:
-                new_seg.append([word, pos])
-        return new_seg
-    @staticmethod
-    def _is_reduplication(word: str) -> bool:
-        return len(word) == 2 and word[0] == word[1]
-    # the last char of first word and the first char of second word is tone_three
-    def _merge_continuous_three_tones_2(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        new_seg = []
-        sub_finals_list = [
-            lazy_pinyin(word, neutral_tone_with_five=True, style=Style.FINALS_TONE3) for (word, pos) in seg
-        ]
-        assert len(sub_finals_list) == len(seg)
-        merge_last = [False] * len(seg)
-        for i, (word, pos) in enumerate(seg):
-            if (
-                    i - 1 >= 0
-                    and sub_finals_list[i - 1][-1][-1] == "3"
-                    and sub_finals_list[i][0][-1] == "3"
-                    and not merge_last[i - 1]
-            ):
-                # if the last word is reduplication, not merge, because reduplication need to be _neural_sandhi
-                if not self._is_reduplication(seg[i - 1][0]) and len(seg[i - 1][0]) + len(seg[i][0]) <= 3:
-                    new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
-                    merge_last[i] = True
-                else:
-                    new_seg.append([word, pos])
-            else:
-                new_seg.append([word, pos])
-        return new_seg
-    @staticmethod
-    def _merge_er(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        new_seg = []
-        for i, (word, pos) in enumerate(seg):
-            if i - 1 >= 0 and word == "儿" and seg[i - 1][0] != "#":
-                new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
-            else:
-                new_seg.append([word, pos])
-        return new_seg
-    @staticmethod
-    def _merge_reduplication(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        new_seg = []
-        for i, (word, pos) in enumerate(seg):
-            if new_seg and word == new_seg[-1][0]:
-                new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
-            else:
-                new_seg.append([word, pos])
-        return new_seg
-    def pre_merge_for_modify(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
-        seg = self._merge_bu(seg)
-        seg = self._merge_yi(seg)
-        seg = self._merge_reduplication(seg)
-        seg = self._merge_continuous_three_tones(seg)
-        seg = self._merge_continuous_three_tones_2(seg)
-        seg = self._merge_er(seg)
-        return seg
-    def modified_tone(self, word: str, pos: str, finals: List[str]) -> List[str]:
-        finals = self._bu_sandhi(word, finals)
-        finals = self._yi_sandhi(word, finals)
-        finals = self._neural_sandhi(word, pos, finals)
-        finals = self._three_sandhi(word, finals)
-        return finals

+# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+中文拼音变调（Tone Sandhi）自动处理器
+"""
+from typing import List
+from typing import Tuple
+import jieba_fast as jieba
+from pypinyin import lazy_pinyin
+from pypinyin import Style
+class ToneSandhi:
+    def __init__(self):
+        self.must_neural_tone_words = {
+            "麻烦", "麻利", "鸳鸯", "高粱", "骨头", "骆驼", "马虎", "首饰", "馒头", "馄饨",
+            "风筝", "难为", "队伍", "阔气", "闺女", "门道", "锄头", "铺盖", "铃铛", "铁匠",
+            "钥匙", "里脊", "里头", "部分", "那么", "道士", "造化", "迷糊", "连累", "这么",
+            "这个", "运气", "过去", "软和", "转悠", "踏实", "跳蚤", "跟头", "趔趄", "财主",
+            "豆腐", "讲究", "记性", "记号", "认识", "规矩", "见识", "裁缝", "补丁", "衣裳",
+            "衣服", "衙门", "街坊", "行李", "行当", "蛤蟆", "蘑菇", "薄荷", "葫芦", "葡萄",
+            "萝卜", "荸荠", "苗条", "苗头", "苍蝇", "芝麻", "舒服", "舒坦", "舌头", "自在",
+            "膏药", "脾气", "脑袋", "脊梁", "能耐", "胳膊", "胭脂", "胡萝", "胡琴", "胡同",
+            "聪明", "耽误", "耽搁", "耷拉", "耳朵", "老爷", "老实", "老婆", "老头", "老太",
+            "翻腾", "罗嗦", "罐头", "编辑", "结实", "红火", "累赘", "糨糊", "糊涂", "精神",
+            "粮食", "簸箕", "篱笆", "算计", "算盘", "答应", "笤帚", "笑语", "笑话", "窟窿",
+            "窝囊", "窗户", "稳当", "稀罕", "称呼", "秧歌", "秀气", "秀才", "福气", "祖宗",
+            "砚台", "码头", "石榴", "石头", "石匠", "知识", "眼睛", "眯缝", "眨巴", "眉毛",
+            "相声", "盘算", "白净", "痢疾", "痛快", "疟疾", "疙瘩", "疏忽", "畜生", "生意",
+            "甘蔗", "琵琶", "琢磨", "琉璃", "玻璃", "玫瑰", "玄乎", "狐狸", "状元", "特务",
+            "牲口", "牙碜", "牌楼", "爽快", "爱人", "热闹", "烧饼", "烟筒", "烂糊", "点心",
+            "炊帚", "灯笼", "火候", "漂亮", "滑溜", "溜达", "温和", "清楚", "消息", "浪头",
+            "活泼", "比方", "正经", "欺负", "模糊", "槟榔", "棺材", "棒槌", "棉花", "核桃",
+            "栅栏", "柴火", "架势", "枕头", "枇杷", "机灵", "本事", "木头", "木匠", "朋友",
+            "月饼", "月亮", "暖和", "明白", "时候", "新鲜", "故事", "收拾", "收成", "提防",
+            "挖苦", "挑剔", "指甲", "指头", "拾掇", "拳头", "拨弄", "招牌", "招呼", "抬举",
+            "护士", "折腾", "扫帚", "打量", "打算", "打点", "打扮", "打听", "打发", "扎实",
+            "扁担", "戒指", "懒得", "意识", "意思", "情形", "悟性", "怪物", "思量", "怎么",
+            "念头", "念叨", "快活", "忙活", "志气", "心思", "得罪", "张罗", "弟兄", "开通",
+            "应酬", "庄稼", "干事", "帮手", "帐篷", "希罕", "师父", "师傅", "巴结", "巴掌",
+            "差事", "工夫", "岁数", "屁股", "尾巴", "少爷", "小气", "小伙", "将就", "对头",
+            "对付", "寡妇", "家伙", "客气", "实在", "官司", "学问", "学生", "字号", "嫁妆",
+            "媳妇", "媒人", "婆家", "娘家", "委屈", "姑娘", "姐夫", "妯娌", "妥当", "妖精",
+            "奴才", "女婿", "头发", "太阳", "大爷", "大方", "大意", "大夫", "多少", "多么",
+            "外甥", "壮实", "地道", "地方", "在乎", "困难", "嘴巴", "嘱咐", "嘟囔", "嘀咕",
+            "喜欢", "喇嘛", "喇叭", "商量", "唾沫", "哑巴", "哈欠", "哆嗦", "咳嗽", "和尚",
+            "告诉", "告示", "含糊", "吓唬", "后头", "名字", "名堂", "合同", "吆喝", "叫唤",
+            "口袋", "厚道", "厉害", "千斤", "包袱", "包涵", "匀称", "勤快", "动静", "动弹",
+            "功夫", "力气", "前头", "刺猬", "刺激", "别扭", "利落", "利索", "利害", "分析",
+            "出息", "凑合", "凉快", "冷战", "冤枉", "冒失", "养活", "关系", "先生", "兄弟",
+            "便宜", "使唤", "佩服", "作坊", "体面", "位置", "似的", "伙计", "休息", "什么",
+            "人家", "亲戚", "亲家", "交情", "云彩", "事情", "买卖", "主意", "丫头", "丧气",
+            "两口", "东西", "东家", "世故", "不由", "不在", "下水", "下巴", "上头", "上司",
+            "丈夫", "丈人", "一辈", "那个", "菩萨", "父亲", "母亲", "咕噜", "邋遢", "费用",
+            "冤家", "甜头", "介绍", "荒唐", "大人", "泥鳅", "幸福", "熟悉", "计划", "扑腾",
+            "蜡烛", "姥爷", "照顾", "喉咙", "吉他", "弄堂", "蚂蚱", "凤凰", "拖沓", "寒碜",
+            "糟蹋", "倒腾", "报复", "逻辑", "盘缠", "喽啰", "牢骚", "咖喱", "扫把", "惦记",
+        }
+        self.must_not_neural_tone_words = {
+            "男子", "女子", "分子", "原子", "量子", "莲子", "石子", "瓜子", "电子", "人人",
+            "虎虎", "幺幺", "干嘛", "学子", "哈哈", "数数", "袅袅", "局地", "以下", "娃哈哈",
+            "花花草草", "留得", "耕地", "想想", "熙熙", "攘攘", "卵子", "死死", "冉冉", "恳恳",
+            "佼佼", "吵吵", "打打", "考考", "整整", "莘莘", "落地", "算子", "家家户户", "青青",
+        }
+        self.punc = "：，；。？！“”‘’':,;.?!"
+    # the meaning of jieba pos tag: https://blog.csdn.net/weixin_44174352/article/details/113731041
+    # e.g.
+    # word: "家里"
+    # pos: "s"
+    # finals: ['ia1', 'i3']
+    def _neural_sandhi(self, word: str, pos: str, finals: List[str]) -> List[str]:
+        # reduplication words for n. and v. e.g. 奶奶, 试试, 旺旺
+        for j, item in enumerate(word):
+            if (
+                    j - 1 >= 0
+                    and item == word[j - 1]
+                    and pos[0] in {"n", "v", "a"}
+                    and word not in self.must_not_neural_tone_words
+            ):
+                finals[j] = finals[j][:-1] + "5"
+        ge_idx = word.find("个")
+        if len(word) >= 1 and word[-1] in "吧呢哈啊呐噻嘛吖嗨呐哦哒额滴哩哟喽啰耶喔诶":
+            finals[-1] = finals[-1][:-1] + "5"
+        elif len(word) >= 1 and word[-1] in "的地得":
+            finals[-1] = finals[-1][:-1] + "5"
+        # e.g. 走了, 看着, 去过
+        elif len(word) == 1 and word in "了着过" and pos in {"ul", "uz", "ug"}:
+            finals[-1] = finals[-1][:-1] + "5"
+        elif len(word) > 1 and word[-1] in "们子" and pos in {"r", "n"} and word not in self.must_not_neural_tone_words:
+            finals[-1] = finals[-1][:-1] + "5"
+        # e.g. 桌上, 地下, 家里
+        elif len(word) > 1 and word[-1] in "上下里" and pos in {"s", "l", "f"}:
+            finals[-1] = finals[-1][:-1] + "5"
+        # e.g. 上来, 下去
+        elif len(word) > 1 and word[-1] in "来去" and word[-2] in "上下进出回过起开":
+            finals[-1] = finals[-1][:-1] + "5"
+        # 个做量词
+        elif (
+                ge_idx >= 1 and (word[ge_idx - 1].isnumeric() or word[ge_idx - 1] in "几有两半多各整每做是")
+        ) or word == "个":
+            finals[ge_idx] = finals[ge_idx][:-1] + "5"
+        else:
+            if word in self.must_neural_tone_words or word[-2:] in self.must_neural_tone_words:
+                finals[-1] = finals[-1][:-1] + "5"
+        word_list = self._split_word(word)
+        finals_list = [finals[: len(word_list[0])], finals[len(word_list[0]):]]
+        for i, word in enumerate(word_list):
+            # conventional neural in Chinese
+            if word in self.must_neural_tone_words or word[-2:] in self.must_neural_tone_words:
+                finals_list[i][-1] = finals_list[i][-1][:-1] + "5"
+        finals = sum(finals_list, [])
+        return finals
+    @staticmethod
+    def _bu_sandhi(word: str, finals: List[str]) -> List[str]:
+        # e.g. 看不懂
+        if len(word) == 3 and word[1] == "不":
+            finals[1] = finals[1][:-1] + "5"
+        else:
+            for i, char in enumerate(word):
+                # "不" before tone4 should be bu2, e.g. 不怕
+                if char == "不" and i + 1 < len(word) and finals[i + 1][-1] == "4":
+                    finals[i] = finals[i][:-1] + "2"
+        return finals
+    def _yi_sandhi(self, word: str, finals: List[str]) -> List[str]:
+        # "一" in number sequences, e.g. 一零零, 二一零
+        if word.find("一") != -1 and all([item.isnumeric() for item in word if item != "一"]):
+            return finals
+        # "一" between reduplication words should be yi5, e.g. 看一看
+        elif len(word) == 3 and word[1] == "一" and word[0] == word[-1]:
+            finals[1] = finals[1][:-1] + "5"
+        # when "一" is ordinal word, it should be yi1
+        elif word.startswith("第一"):
+            finals[1] = finals[1][:-1] + "1"
+        else:
+            for i, char in enumerate(word):
+                if char == "一" and i + 1 < len(word):
+                    # "一" before tone4 should be yi2, e.g. 一段
+                    if finals[i + 1][-1] == "4":
+                        finals[i] = finals[i][:-1] + "2"
+                    # "一" before non-tone4 should be yi4, e.g. 一天
+                    else:
+                        # "一" 后面如果是标点，还读一声
+                        if word[i + 1] not in self.punc:
+                            finals[i] = finals[i][:-1] + "4"
+        return finals
+    @staticmethod
+    def _split_word(word: str) -> List[str]:
+        word_list = jieba.cut_for_search(word)
+        word_list = sorted(word_list, key=lambda i: len(i), reverse=False)
+        first_subword = word_list[0]
+        first_begin_idx = word.find(first_subword)
+        if first_begin_idx == 0:
+            second_subword = word[len(first_subword):]
+            new_word_list = [first_subword, second_subword]
+        else:
+            second_subword = word[: -len(first_subword)]
+            new_word_list = [second_subword, first_subword]
+        return new_word_list
+    def _three_sandhi(self, word: str, finals: List[str]) -> List[str]:
+        if len(word) == 2 and self._all_tone_three(finals):
+            finals[0] = finals[0][:-1] + "2"
+        elif len(word) == 3:
+            word_list = self._split_word(word)
+            if self._all_tone_three(finals):
+                #  disyllabic + monosyllabic, e.g. 蒙古/包
+                if len(word_list[0]) == 2:
+                    finals[0] = finals[0][:-1] + "2"
+                    finals[1] = finals[1][:-1] + "2"
+                #  monosyllabic + disyllabic, e.g. 纸/老虎
+                elif len(word_list[0]) == 1:
+                    finals[1] = finals[1][:-1] + "2"
+            else:
+                finals_list = [finals[: len(word_list[0])], finals[len(word_list[0]):]]
+                if len(finals_list) == 2:
+                    for i, sub in enumerate(finals_list):
+                        # e.g. 所有/人
+                        if self._all_tone_three(sub) and len(sub) == 2:
+                            finals_list[i][0] = finals_list[i][0][:-1] + "2"
+                        # e.g. 好/喜欢
+                        elif (
+                                i == 1
+                                and not self._all_tone_three(sub)
+                                and finals_list[i][0][-1] == "3"
+                                and finals_list[0][-1][-1] == "3"
+                        ):
+                            finals_list[0][-1] = finals_list[0][-1][:-1] + "2"
+                        finals = sum(finals_list, [])
+        # split idiom into two words whose length is 2
+        elif len(word) == 4:
+            finals_list = [finals[:2], finals[2:]]
+            finals = []
+            for sub in finals_list:
+                if self._all_tone_three(sub):
+                    sub[0] = sub[0][:-1] + "2"
+                finals += sub
+        return finals
+    @staticmethod
+    def _all_tone_three(finals: List[str]) -> bool:
+        # 增加 len(x) > 0 的判断，防止空字符串导致崩溃
+        return all(len(x) > 0 and x[-1] == "3" for x in finals)
+    @staticmethod
+    def _merge_bu(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        new_seg = []
+        last_word = ""
+        for word, pos in seg:
+            if last_word == "不":
+                word = last_word + word
+            if word != "不":
+                new_seg.append((word, pos))
+            last_word = word[:]
+        if last_word == "不":
+            new_seg.append((last_word, "d"))
+        return new_seg
+    @staticmethod
+    def _merge_yi(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        new_seg = []
+        i = 0
+        # function 1
+        while i < len(seg):
+            word, pos = seg[i]
+            merged = False
+            if i - 1 >= 0 and word == "一" and i + 1 < len(seg):
+                last = new_seg[-1] if new_seg else seg[i - 1]
+                if last[0] == seg[i + 1][0] and last[1] == "v" and seg[i + 1][1] == "v":
+                    combined = last[0] + "一" + seg[i + 1][0]
+                    new_seg[-1] = [combined, last[1]]
+                    i += 2
+                    merged = True
+            if not merged:
+                new_seg.append([word, pos])
+                i += 1
+        seg = new_seg
+        new_seg = []
+        # function 2
+        for word, pos in seg:
+            if new_seg and new_seg[-1][0] == "一":
+                new_seg[-1][0] = new_seg[-1][0] + word
+            else:
+                new_seg.append([word, pos])
+        return new_seg
+    # the first and the second words are all_tone_three
+    def _merge_continuous_three_tones(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        new_seg = []
+        sub_finals_list = [
+            lazy_pinyin(word, neutral_tone_with_five=True, style=Style.FINALS_TONE3) for (word, pos) in seg
+        ]
+        assert len(sub_finals_list) == len(seg)
+        merge_last = [False] * len(seg)
+        for i, (word, pos) in enumerate(seg):
+            if (
+                    i - 1 >= 0
+                    and self._all_tone_three(sub_finals_list[i - 1])
+                    and self._all_tone_three(sub_finals_list[i])
+                    and not merge_last[i - 1]
+            ):
+                # if the last word is reduplication, not merge, because reduplication need to be _neural_sandhi
+                if not self._is_reduplication(seg[i - 1][0]) and len(seg[i - 1][0]) + len(seg[i][0]) <= 3:
+                    new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
+                    merge_last[i] = True
+                else:
+                    new_seg.append([word, pos])
+            else:
+                new_seg.append([word, pos])
+        return new_seg
+    @staticmethod
+    def _is_reduplication(word: str) -> bool:
+        return len(word) == 2 and word[0] == word[1]
+    # the last char of first word and the first char of second word is tone_three
+    def _merge_continuous_three_tones_2(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        new_seg = []
+        sub_finals_list = [
+            lazy_pinyin(word, neutral_tone_with_five=True, style=Style.FINALS_TONE3) for (word, pos) in seg
+        ]
+        assert len(sub_finals_list) == len(seg)
+        merge_last = [False] * len(seg)
+        for i, (word, pos) in enumerate(seg):
+            if (
+                    i - 1 >= 0
+                    and sub_finals_list[i - 1][-1][-1] == "3"
+                    and sub_finals_list[i][0][-1] == "3"
+                    and not merge_last[i - 1]
+            ):
+                # if the last word is reduplication, not merge, because reduplication need to be _neural_sandhi
+                if not self._is_reduplication(seg[i - 1][0]) and len(seg[i - 1][0]) + len(seg[i][0]) <= 3:
+                    new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
+                    merge_last[i] = True
+                else:
+                    new_seg.append([word, pos])
+            else:
+                new_seg.append([word, pos])
+        return new_seg
+    @staticmethod
+    def _merge_er(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        new_seg = []
+        for i, (word, pos) in enumerate(seg):
+            if i - 1 >= 0 and word == "儿" and seg[i - 1][0] != "#":
+                new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
+            else:
+                new_seg.append([word, pos])
+        return new_seg
+    @staticmethod
+    def _merge_reduplication(seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        new_seg = []
+        for i, (word, pos) in enumerate(seg):
+            if new_seg and word == new_seg[-1][0]:
+                new_seg[-1][0] = new_seg[-1][0] + seg[i][0]
+            else:
+                new_seg.append([word, pos])
+        return new_seg
+    def pre_merge_for_modify(self, seg: List[Tuple[str, str]]) -> List[Tuple[str, str]]:
+        seg = self._merge_bu(seg)
+        seg = self._merge_yi(seg)
+        seg = self._merge_reduplication(seg)
+        seg = self._merge_continuous_three_tones(seg)
+        seg = self._merge_continuous_three_tones_2(seg)
+        seg = self._merge_er(seg)
+        return seg
+    def modified_tone(self, word: str, pos: str, finals: List[str]) -> List[str]:
+        finals = self._bu_sandhi(word, finals)
+        finals = self._yi_sandhi(word, finals)
+        finals = self._neural_sandhi(word, pos, finals)
+        finals = self._three_sandhi(word, finals)
+        return finals

genie_tts/G2P/Chinese/__pycache__/ChineseG2P.cpython-311.pyc ADDED Viewed

Binary file (11.9 kB). View file

genie_tts/G2P/Chinese/__pycache__/CorrectPronunciation.cpython-311.pyc ADDED Viewed

Binary file (2.99 kB). View file

genie_tts/G2P/Chinese/__pycache__/Erhua.cpython-311.pyc ADDED Viewed

Binary file (2.88 kB). View file

genie_tts/G2P/Chinese/__pycache__/ToneSandhi.cpython-311.pyc ADDED Viewed

Binary file (23.8 kB). View file

genie_tts/G2P/Chinese/__pycache__/__init__.cpython-311.pyc ADDED Viewed

Binary file (190 Bytes). View file

genie_tts/G2P/English/EnglishG2P.py CHANGED Viewed

@@ -1,296 +1,296 @@
-import pickle
-import os
-import re
-from typing import List, Dict, Tuple
-import numpy as np
-import nltk
-from nltk.tokenize import TweetTokenizer
-from nltk import pos_tag
-from .Normalization import normalize
-from .WordSegment import segment_text
-from ..SymbolsV2 import symbols_v2, symbol_to_id_v2
-from ..SymbolsV2 import PUNCTUATION
-from ...Core.Resources import English_G2P_DIR
-# nltk 路径和分词器初始化
-nltk.data.path.append(English_G2P_DIR)
-word_tokenize = TweetTokenizer().tokenize
-# 路径定义
-CMU_DICT_PATH = os.path.join(English_G2P_DIR, "cmudict.rep")
-CMU_DICT_FAST_PATH = os.path.join(English_G2P_DIR, "cmudict-fast.rep")
-CMU_DICT_HOT_PATH = os.path.join(English_G2P_DIR, "engdict-hot.rep")
-CACHE_PATH = os.path.join(English_G2P_DIR, "engdict_cache.pickle")
-NAMECACHE_PATH = os.path.join(English_G2P_DIR, "namedict_cache.pickle")
-MODEL_PATH = os.path.join(English_G2P_DIR, "checkpoint20.npz")
-# 正则表达式和映射
-REP_MAP = {
-    "[;:：，；]": ",",
-    '["’]': "'",
-    "。": ".",
-    "！": "!",
-    "？": "?",
-}
-REP_MAP_PATTERN = re.compile("|".join(re.escape(p) for p in REP_MAP.keys()))
-PUNCTUATIONS_FOR_REGEX = "".join(re.escape(p) for p in PUNCTUATION)
-CONSECUTIVE_PUNCTUATION_PATTERN = re.compile(rf"([{PUNCTUATIONS_FOR_REGEX}\s])([{PUNCTUATIONS_FOR_REGEX}])+")
-# 辅助函数
-def _read_cmu_dict(file_path: str) -> Dict[str, List[str]]:
-    g2p_dict = {}
-    with open(file_path, 'r', encoding='utf-8') as f:
-        for line in f:
-            line = line.strip()
-            if not line or line.startswith(';;;'): continue
-            parts = re.split(r'\s+', line, maxsplit=1)
-            if len(parts) < 2: continue
-            word, pron_str = parts[0].lower(), parts[1]
-            pron = pron_str.split(" ")
-            word = re.sub(r'\(\d+\)$', '', word)
-            if word not in g2p_dict: g2p_dict[word] = [pron]
-    return g2p_dict
-def _load_and_cache_dict() -> Dict[str, List[List[str]]]:
-    with open(CACHE_PATH, "rb") as f:
-        g2p_dict = pickle.load(f)
-    hot_dict = _read_cmu_dict(CMU_DICT_HOT_PATH)
-    if hot_dict: g2p_dict.update(hot_dict)
-    return g2p_dict
-def replace_phs(phs: List[str]) -> List[str]:
-    rep_map = {"'": "-"}
-    phs_new = []
-    for ph in phs:
-        if ph in symbols_v2:
-            phs_new.append(ph)
-        elif ph in rep_map:
-            phs_new.append(rep_map[ph])
-    return phs_new
-def replace_consecutive_punctuation(text: str) -> str:
-    return CONSECUTIVE_PUNCTUATION_PATTERN.sub(r"\1", text)
-def text_normalize(text: str) -> str:
-    text = REP_MAP_PATTERN.sub(lambda x: REP_MAP[x.group()], text)
-    text = normalize(text)
-    text = replace_consecutive_punctuation(text)
-    return text
-class CleanG2p:
-    """
-    一个集成了神经网络预测功能的、独立的英文G2P转换器。
-    - 不再依赖 g2p_en 库，将模型推理逻辑直接内置。
-    - 依赖 numpy 库进行计算。
-    """
-    def __init__(self):
-        # 1. 初始化标准组件
-        self.cmu = _load_and_cache_dict()
-        self.namedict = self._load_name_dict()
-        for word in ["AE", "AI", "AR", "IOS", "HUD", "OS"]:
-            self.cmu.pop(word.lower(), None)
-        self._setup_homographs()
-        # 2. 初始化神经网络模型组件
-        self._setup_nn_components()
-        self._load_nn_model()
-    def _setup_nn_components(self):
-        """设置 G2P 神经网络所需的字母和音素表。"""
-        self.graphemes = ["<pad>", "<unk>", "</s>"] + list("abcdefghijklmnopqrstuvwxyz")
-        self.phonemes = ["<pad>", "<unk>", "<s>", "</s>"] + ['AA0', 'AA1', 'AA2', 'AE0', 'AE1', 'AE2', 'AH0', 'AH1',
-                                                             'AH2', 'AO0',
-                                                             'AO1', 'AO2', 'AW0', 'AW1', 'AW2', 'AY0', 'AY1', 'AY2',
-                                                             'B', 'CH', 'D', 'DH',
-                                                             'EH0', 'EH1', 'EH2', 'ER0', 'ER1', 'ER2', 'EY0', 'EY1',
-                                                             'EY2', 'F', 'G', 'HH',
-                                                             'IH0', 'IH1', 'IH2', 'IY0', 'IY1', 'IY2', 'JH', 'K', 'L',
-                                                             'M', 'N', 'NG', 'OW0', 'OW1',
-                                                             'OW2', 'OY0', 'OY1', 'OY2', 'P', 'R', 'S', 'SH', 'T', 'TH',
-                                                             'UH0', 'UH1', 'UH2', 'UW',
-                                                             'UW0', 'UW1', 'UW2', 'V', 'W', 'Y', 'Z', 'ZH']
-        self.g2idx = {g: idx for idx, g in enumerate(self.graphemes)}
-        self.idx2g = {idx: g for idx, g in enumerate(self.graphemes)}
-        self.p2idx = {p: idx for idx, p in enumerate(self.phonemes)}
-        self.idx2p = {idx: p for idx, p in enumerate(self.phonemes)}
-    def _load_nn_model(self):
-        """从 .npz 文件加载预训练的神经网络权重。"""
-        if not os.path.exists(MODEL_PATH):
-            raise FileNotFoundError(f"G2P model file not found at: {MODEL_PATH}. "
-                                    f"Please ensure 'checkpoint20.npz' is in the correct directory.")
-        variables = np.load(MODEL_PATH)
-        self.enc_emb = variables["enc_emb"]
-        self.enc_w_ih = variables["enc_w_ih"]
-        self.enc_w_hh = variables["enc_w_hh"]
-        self.enc_b_ih = variables["enc_b_ih"]
-        self.enc_b_hh = variables["enc_b_hh"]
-        self.dec_emb = variables["dec_emb"]
-        self.dec_w_ih = variables["dec_w_ih"]
-        self.dec_w_hh = variables["dec_w_hh"]
-        self.dec_b_ih = variables["dec_b_ih"]
-        self.dec_b_hh = variables["dec_b_hh"]
-        self.fc_w = variables["fc_w"]
-        self.fc_b = variables["fc_b"]
-        # logger.info("G2P neural network model loaded successfully.")
-    @staticmethod
-    def _sigmoid(x):
-        return 1 / (1 + np.exp(-x))
-    def _grucell(self, x, h, w_ih, w_hh, b_ih, b_hh):
-        rzn_ih = np.matmul(x, w_ih.T) + b_ih
-        rzn_hh = np.matmul(h, w_hh.T) + b_hh
-        rz_ih, n_ih = rzn_ih[:, :rzn_ih.shape[-1] * 2 // 3], rzn_ih[:, rzn_ih.shape[-1] * 2 // 3:]
-        rz_hh, n_hh = rzn_hh[:, :rzn_hh.shape[-1] * 2 // 3], rzn_hh[:, rzn_hh.shape[-1] * 2 // 3:]
-        rz = self._sigmoid(rz_ih + rz_hh)
-        r, z = np.split(rz, 2, -1)
-        n = np.tanh(n_ih + r * n_hh)
-        h = (1 - z) * n + z * h
-        return h
-    def _gru(self, x, steps, w_ih, w_hh, b_ih, b_hh, h0=None):
-        if h0 is None:
-            h0 = np.zeros((x.shape[0], w_hh.shape[1]), np.float32)
-        h = h0
-        outputs = np.zeros((x.shape[0], steps, w_hh.shape[1]), np.float32)
-        for t in range(steps):
-            h = self._grucell(x[:, t, :], h, w_ih, w_hh, b_ih, b_hh)
-            outputs[:, t, ::] = h
-        return outputs
-    def _encode(self, word: str) -> np.ndarray:
-        chars = list(word.lower()) + ["</s>"]
-        x = [self.g2idx.get(char, self.g2idx["<unk>"]) for char in chars]
-        x = np.take(self.enc_emb, np.expand_dims(x, 0), axis=0)
-        return x
-    def predict(self, word: str) -> List[str]:
-        """使用内置的神经网络模型预测单词的发音。"""
-        # Encoder
-        enc = self._encode(word)
-        enc = self._gru(enc, len(word) + 1, self.enc_w_ih, self.enc_w_hh,
-                        self.enc_b_ih, self.enc_b_hh, h0=np.zeros((1, self.enc_w_hh.shape[-1]), np.float32))
-        last_hidden = enc[:, -1, :]
-        # Decoder
-        dec = np.take(self.dec_emb, [self.p2idx["<s>"]], axis=0)  # Start with <s>
-        h = last_hidden
-        preds = []
-        for _ in range(20):  # Max steps
-            h = self._grucell(dec, h, self.dec_w_ih, self.dec_w_hh, self.dec_b_ih, self.dec_b_hh)
-            logits = np.matmul(h, self.fc_w.T) + self.fc_b
-            pred_idx = logits.argmax()
-            if pred_idx == self.p2idx["</s>"]: break
-            preds.append(pred_idx)
-            dec = np.take(self.dec_emb, [pred_idx], axis=0)
-        return [self.idx2p.get(idx, "<unk>") for idx in preds]
-    # --- 标准 G2P 逻辑 ---
-    @staticmethod
-    def _load_name_dict() -> Dict[str, List[List[str]]]:
-        if os.path.exists(NAMECACHE_PATH):
-            with open(NAMECACHE_PATH, "rb") as f: return pickle.load(f)
-        return {}
-    def _setup_homographs(self):
-        self.homograph2features: Dict[str, Tuple[List[str], List[str], str]] = {
-            "read": (["R", "EH1", "D"], ["R", "IY1", "D"], "VBD"),
-            "complex": (["K", "AH0", "M", "P", "L", "EH1", "K", "S"], ["K", "AA1", "M", "P", "L", "EH0", "K", "S"],
-                        "JJ"),
-            "lead": (["L", "IY1", "D"], ["L", "EH1", "D"], "NN"),
-            "presents": (["P", "R", "IY0", "Z", "EH1", "N", "T", "S"], ["P", "R", "EH1", "Z", "AH0", "N", "T", "S"],
-                         "VBZ"),
-        }
-    def __call__(self, text: str) -> List[str]:
-        original_words = word_tokenize(text)
-        normalized_text = text_normalize(text)
-        normalized_words = word_tokenize(normalized_text)
-        corrected_words = []
-        original_idx, normalized_idx = 0, 0
-        while original_idx < len(original_words) and normalized_idx < len(normalized_words):
-            if original_words[original_idx] == "I" and \
-                    " ".join(normalized_words[normalized_idx:normalized_idx + 2]) == "the first":
-                corrected_words.append("I")
-                original_idx += 1
-                normalized_idx += 2
-            else:
-                corrected_words.append(normalized_words[normalized_idx])
-                original_idx += 1
-                normalized_idx += 1
-        if normalized_idx < len(normalized_words):
-            corrected_words.extend(normalized_words[normalized_idx:])
-        if not corrected_words: return []
-        tokens = pos_tag(corrected_words)
-        prons = []
-        for o_word, pos in tokens:
-            word = o_word.lower()
-            if re.search("[a-z]", word) is None:
-                pron = [word]
-            elif word in self.homograph2features:
-                pron1, pron2, pos1 = self.homograph2features[word]
-                pron = pron1 if pos.startswith(pos1) else pron2
-            else:
-                pron = self._query_word(o_word)
-            prons.extend(pron)
-            prons.extend([" "])
-        return prons[:-1] if prons else []
-    def _query_word(self, o_word: str) -> List[str]:
-        word = o_word.lower()
-        if word in self.cmu:
-            if o_word == "A": return ["AH0"]
-            return self.cmu[word][0]
-        if o_word.istitle() and word in self.namedict:
-            return self.namedict[word][0]
-        if word.endswith("'s") and len(word) > 2:
-            base_pron = self._query_word(word[:-2])
-            if base_pron:
-                last_ph = base_pron[-1]
-                if last_ph in {"S", "Z", "SH", "ZH", "CH", "JH"}: return base_pron + ["AH0", "Z"]
-                if last_ph in {"P", "T", "K", "F", "TH"}: return base_pron + ["S"]
-                return base_pron + ["Z"]
-        if "-" in word and len(word) > 1:
-            parts = [p for p in word.split("-") if p]
-            if len(parts) > 1:
-                result = [ph for part in parts for ph in self._query_word(part)]
-                if result: return result
-        segments = segment_text(word)
-        if len(segments) > 1 and "".join(segments) == word:
-            result = [ph for segment in segments for ph in self._query_word(segment)]
-            if result: return result
-        return self.predict(o_word)
-_g2p_instance: CleanG2p = CleanG2p()
-def g2p(text: str) -> List[str]:
-    if _g2p_instance is None: raise RuntimeError("G2P model is not available.")
-    raw_phonemes = _g2p_instance(text)
-    undesired = {" ", "<pad>", "UW", "</s>", "<s>"}
-    phones = ["UNK" if ph == "<unk>" else ph for ph in raw_phonemes if ph not in undesired]
-    return replace_phs(phones)
-def english_to_phones(text: str) -> List[int]:
-    phones = g2p(text)
-    phones = [symbol_to_id_v2[ph] for ph in phones]
-    return phones

+import pickle
+import os
+import re
+from typing import List, Dict, Tuple
+import numpy as np
+import nltk
+from nltk.tokenize import TweetTokenizer
+from nltk import pos_tag
+from .Normalization import normalize
+from .WordSegment import segment_text
+from ..SymbolsV2 import symbols_v2, symbol_to_id_v2
+from ..SymbolsV2 import PUNCTUATION
+from ...Core.Resources import English_G2P_DIR
+# nltk 路径和分词器初始化
+nltk.data.path.append(English_G2P_DIR)
+word_tokenize = TweetTokenizer().tokenize
+# 路径定义
+CMU_DICT_PATH = os.path.join(English_G2P_DIR, "cmudict.rep")
+CMU_DICT_FAST_PATH = os.path.join(English_G2P_DIR, "cmudict-fast.rep")
+CMU_DICT_HOT_PATH = os.path.join(English_G2P_DIR, "engdict-hot.rep")
+CACHE_PATH = os.path.join(English_G2P_DIR, "engdict_cache.pickle")
+NAMECACHE_PATH = os.path.join(English_G2P_DIR, "namedict_cache.pickle")
+MODEL_PATH = os.path.join(English_G2P_DIR, "checkpoint20.npz")
+# 正则表达式和映射
+REP_MAP = {
+    "[;:：，；]": ",",
+    '["’]': "'",
+    "。": ".",
+    "！": "!",
+    "？": "?",
+}
+REP_MAP_PATTERN = re.compile("|".join(re.escape(p) for p in REP_MAP.keys()))
+PUNCTUATIONS_FOR_REGEX = "".join(re.escape(p) for p in PUNCTUATION)
+CONSECUTIVE_PUNCTUATION_PATTERN = re.compile(rf"([{PUNCTUATIONS_FOR_REGEX}\s])([{PUNCTUATIONS_FOR_REGEX}])+")
+# 辅助函数
+def _read_cmu_dict(file_path: str) -> Dict[str, List[str]]:
+    g2p_dict = {}
+    with open(file_path, 'r', encoding='utf-8') as f:
+        for line in f:
+            line = line.strip()
+            if not line or line.startswith(';;;'): continue
+            parts = re.split(r'\s+', line, maxsplit=1)
+            if len(parts) < 2: continue
+            word, pron_str = parts[0].lower(), parts[1]
+            pron = pron_str.split(" ")
+            word = re.sub(r'\(\d+\)$', '', word)
+            if word not in g2p_dict: g2p_dict[word] = [pron]
+    return g2p_dict
+def _load_and_cache_dict() -> Dict[str, List[List[str]]]:
+    with open(CACHE_PATH, "rb") as f:
+        g2p_dict = pickle.load(f)
+    hot_dict = _read_cmu_dict(CMU_DICT_HOT_PATH)
+    if hot_dict: g2p_dict.update(hot_dict)
+    return g2p_dict
+def replace_phs(phs: List[str]) -> List[str]:
+    rep_map = {"'": "-"}
+    phs_new = []
+    for ph in phs:
+        if ph in symbols_v2:
+            phs_new.append(ph)
+        elif ph in rep_map:
+            phs_new.append(rep_map[ph])
+    return phs_new
+def replace_consecutive_punctuation(text: str) -> str:
+    return CONSECUTIVE_PUNCTUATION_PATTERN.sub(r"\1", text)
+def text_normalize(text: str) -> str:
+    text = REP_MAP_PATTERN.sub(lambda x: REP_MAP[x.group()], text)
+    text = normalize(text)
+    text = replace_consecutive_punctuation(text)
+    return text
+class CleanG2p:
+    """
+    一个集成了神经网络预测功能的、独立的英文G2P转换器。
+    - 不再依赖 g2p_en 库，将模型推理逻辑直接内置。
+    - 依赖 numpy 库进行计算。
+    """
+    def __init__(self):
+        # 1. 初始化标准组件
+        self.cmu = _load_and_cache_dict()
+        self.namedict = self._load_name_dict()
+        for word in ["AE", "AI", "AR", "IOS", "HUD", "OS"]:
+            self.cmu.pop(word.lower(), None)
+        self._setup_homographs()
+        # 2. 初始化神经网络模型组件
+        self._setup_nn_components()
+        self._load_nn_model()
+    def _setup_nn_components(self):
+        """设置 G2P 神经网络所需的字母和音素表。"""
+        self.graphemes = ["<pad>", "<unk>", "</s>"] + list("abcdefghijklmnopqrstuvwxyz")
+        self.phonemes = ["<pad>", "<unk>", "<s>", "</s>"] + ['AA0', 'AA1', 'AA2', 'AE0', 'AE1', 'AE2', 'AH0', 'AH1',
+                                                             'AH2', 'AO0',
+                                                             'AO1', 'AO2', 'AW0', 'AW1', 'AW2', 'AY0', 'AY1', 'AY2',
+                                                             'B', 'CH', 'D', 'DH',
+                                                             'EH0', 'EH1', 'EH2', 'ER0', 'ER1', 'ER2', 'EY0', 'EY1',
+                                                             'EY2', 'F', 'G', 'HH',
+                                                             'IH0', 'IH1', 'IH2', 'IY0', 'IY1', 'IY2', 'JH', 'K', 'L',
+                                                             'M', 'N', 'NG', 'OW0', 'OW1',
+                                                             'OW2', 'OY0', 'OY1', 'OY2', 'P', 'R', 'S', 'SH', 'T', 'TH',
+                                                             'UH0', 'UH1', 'UH2', 'UW',
+                                                             'UW0', 'UW1', 'UW2', 'V', 'W', 'Y', 'Z', 'ZH']
+        self.g2idx = {g: idx for idx, g in enumerate(self.graphemes)}
+        self.idx2g = {idx: g for idx, g in enumerate(self.graphemes)}
+        self.p2idx = {p: idx for idx, p in enumerate(self.phonemes)}
+        self.idx2p = {idx: p for idx, p in enumerate(self.phonemes)}
+    def _load_nn_model(self):
+        """从 .npz 文件加载预训练的神经网络权重。"""
+        if not os.path.exists(MODEL_PATH):
+            raise FileNotFoundError(f"G2P model file not found at: {MODEL_PATH}. "
+                                    f"Please ensure 'checkpoint20.npz' is in the correct directory.")
+        variables = np.load(MODEL_PATH)
+        self.enc_emb = variables["enc_emb"]
+        self.enc_w_ih = variables["enc_w_ih"]
+        self.enc_w_hh = variables["enc_w_hh"]
+        self.enc_b_ih = variables["enc_b_ih"]
+        self.enc_b_hh = variables["enc_b_hh"]
+        self.dec_emb = variables["dec_emb"]
+        self.dec_w_ih = variables["dec_w_ih"]
+        self.dec_w_hh = variables["dec_w_hh"]
+        self.dec_b_ih = variables["dec_b_ih"]
+        self.dec_b_hh = variables["dec_b_hh"]
+        self.fc_w = variables["fc_w"]
+        self.fc_b = variables["fc_b"]
+        # logger.info("G2P neural network model loaded successfully.")
+    @staticmethod
+    def _sigmoid(x):
+        return 1 / (1 + np.exp(-x))
+    def _grucell(self, x, h, w_ih, w_hh, b_ih, b_hh):
+        rzn_ih = np.matmul(x, w_ih.T) + b_ih
+        rzn_hh = np.matmul(h, w_hh.T) + b_hh
+        rz_ih, n_ih = rzn_ih[:, :rzn_ih.shape[-1] * 2 // 3], rzn_ih[:, rzn_ih.shape[-1] * 2 // 3:]
+        rz_hh, n_hh = rzn_hh[:, :rzn_hh.shape[-1] * 2 // 3], rzn_hh[:, rzn_hh.shape[-1] * 2 // 3:]
+        rz = self._sigmoid(rz_ih + rz_hh)
+        r, z = np.split(rz, 2, -1)
+        n = np.tanh(n_ih + r * n_hh)
+        h = (1 - z) * n + z * h
+        return h
+    def _gru(self, x, steps, w_ih, w_hh, b_ih, b_hh, h0=None):
+        if h0 is None:
+            h0 = np.zeros((x.shape[0], w_hh.shape[1]), np.float32)
+        h = h0
+        outputs = np.zeros((x.shape[0], steps, w_hh.shape[1]), np.float32)
+        for t in range(steps):
+            h = self._grucell(x[:, t, :], h, w_ih, w_hh, b_ih, b_hh)
+            outputs[:, t, ::] = h
+        return outputs
+    def _encode(self, word: str) -> np.ndarray:
+        chars = list(word.lower()) + ["</s>"]
+        x = [self.g2idx.get(char, self.g2idx["<unk>"]) for char in chars]
+        x = np.take(self.enc_emb, np.expand_dims(x, 0), axis=0)
+        return x
+    def predict(self, word: str) -> List[str]:
+        """使用内置的神经网络模型预测单词的发音。"""
+        # Encoder
+        enc = self._encode(word)
+        enc = self._gru(enc, len(word) + 1, self.enc_w_ih, self.enc_w_hh,
+                        self.enc_b_ih, self.enc_b_hh, h0=np.zeros((1, self.enc_w_hh.shape[-1]), np.float32))
+        last_hidden = enc[:, -1, :]
+        # Decoder
+        dec = np.take(self.dec_emb, [self.p2idx["<s>"]], axis=0)  # Start with <s>
+        h = last_hidden
+        preds = []
+        for _ in range(20):  # Max steps
+            h = self._grucell(dec, h, self.dec_w_ih, self.dec_w_hh, self.dec_b_ih, self.dec_b_hh)
+            logits = np.matmul(h, self.fc_w.T) + self.fc_b
+            pred_idx = logits.argmax()
+            if pred_idx == self.p2idx["</s>"]: break
+            preds.append(pred_idx)
+            dec = np.take(self.dec_emb, [pred_idx], axis=0)
+        return [self.idx2p.get(idx, "<unk>") for idx in preds]
+    # --- 标准 G2P 逻辑 ---
+    @staticmethod
+    def _load_name_dict() -> Dict[str, List[List[str]]]:
+        if os.path.exists(NAMECACHE_PATH):
+            with open(NAMECACHE_PATH, "rb") as f: return pickle.load(f)
+        return {}
+    def _setup_homographs(self):
+        self.homograph2features: Dict[str, Tuple[List[str], List[str], str]] = {
+            "read": (["R", "EH1", "D"], ["R", "IY1", "D"], "VBD"),
+            "complex": (["K", "AH0", "M", "P", "L", "EH1", "K", "S"], ["K", "AA1", "M", "P", "L", "EH0", "K", "S"],
+                        "JJ"),
+            "lead": (["L", "IY1", "D"], ["L", "EH1", "D"], "NN"),
+            "presents": (["P", "R", "IY0", "Z", "EH1", "N", "T", "S"], ["P", "R", "EH1", "Z", "AH0", "N", "T", "S"],
+                         "VBZ"),
+        }
+    def __call__(self, text: str) -> List[str]:
+        original_words = word_tokenize(text)
+        normalized_text = text_normalize(text)
+        normalized_words = word_tokenize(normalized_text)
+        corrected_words = []
+        original_idx, normalized_idx = 0, 0
+        while original_idx < len(original_words) and normalized_idx < len(normalized_words):
+            if original_words[original_idx] == "I" and \
+                    " ".join(normalized_words[normalized_idx:normalized_idx + 2]) == "the first":
+                corrected_words.append("I")
+                original_idx += 1
+                normalized_idx += 2
+            else:
+                corrected_words.append(normalized_words[normalized_idx])
+                original_idx += 1
+                normalized_idx += 1
+        if normalized_idx < len(normalized_words):
+            corrected_words.extend(normalized_words[normalized_idx:])
+        if not corrected_words: return []
+        tokens = pos_tag(corrected_words)
+        prons = []
+        for o_word, pos in tokens:
+            word = o_word.lower()
+            if re.search("[a-z]", word) is None:
+                pron = [word]
+            elif word in self.homograph2features:
+                pron1, pron2, pos1 = self.homograph2features[word]
+                pron = pron1 if pos.startswith(pos1) else pron2
+            else:
+                pron = self._query_word(o_word)
+            prons.extend(pron)
+            prons.extend([" "])
+        return prons[:-1] if prons else []
+    def _query_word(self, o_word: str) -> List[str]:
+        word = o_word.lower()
+        if word in self.cmu:
+            if o_word == "A": return ["AH0"]
+            return self.cmu[word][0]
+        if o_word.istitle() and word in self.namedict:
+            return self.namedict[word][0]
+        if word.endswith("'s") and len(word) > 2:
+            base_pron = self._query_word(word[:-2])
+            if base_pron:
+                last_ph = base_pron[-1]
+                if last_ph in {"S", "Z", "SH", "ZH", "CH", "JH"}: return base_pron + ["AH0", "Z"]
+                if last_ph in {"P", "T", "K", "F", "TH"}: return base_pron + ["S"]
+                return base_pron + ["Z"]
+        if "-" in word and len(word) > 1:
+            parts = [p for p in word.split("-") if p]
+            if len(parts) > 1:
+                result = [ph for part in parts for ph in self._query_word(part)]
+                if result: return result
+        segments = segment_text(word)
+        if len(segments) > 1 and "".join(segments) == word:
+            result = [ph for segment in segments for ph in self._query_word(segment)]
+            if result: return result
+        return self.predict(o_word)
+_g2p_instance: CleanG2p = CleanG2p()
+def g2p(text: str) -> List[str]:
+    if _g2p_instance is None: raise RuntimeError("G2P model is not available.")
+    raw_phonemes = _g2p_instance(text)
+    undesired = {" ", "<pad>", "UW", "</s>", "<s>"}
+    phones = ["UNK" if ph == "<unk>" else ph for ph in raw_phonemes if ph not in undesired]
+    return replace_phs(phones)
+def english_to_phones(text: str) -> List[int]:
+    phones = g2p(text)
+    phones = [symbol_to_id_v2[ph] for ph in phones]
+    return phones