lglg666
/

dpss-exp3-TTS

Model card Files Files and versions

xet

Community

lglg666 commited on 10 days ago

Commit

6d32e7f

verified ·

1 Parent(s): 6766eda

Update VoxCPM/inference_lora.py

Browse files

Files changed (1) hide show

VoxCPM/inference_lora.py +13 -4

VoxCPM/inference_lora.py CHANGED Viewed

@@ -7,7 +7,7 @@ from voxcpm.training.config import load_yaml_config
 import argparse
 import torch
 import os
 def main():
     parser = argparse.ArgumentParser()
     parser.add_argument("--lora_ckpt", type=str, required=True)
@@ -34,7 +34,10 @@ def main():
         training=False,
         lora_config=lora_cfg,
     )
     # 3. 加载 LoRA 权重（在 compile 后也能正常工作）
     ckpt_dir = Path(args.lora_ckpt)
     if not ckpt_dir.exists():
@@ -49,8 +52,11 @@ def main():
     print(f"\n[3/3] 开始推理...")
     if args.text:
         with torch.inference_mode():
             wav = model.generate(
-            target_text=args.text,
             cfg_value=args.cfg_value,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse
             inference_timesteps=args.inference_timesteps,   # LocDiT inference timesteps, higher for better result, lower for fast speed
             retry_badcase=True,        # enable retrying mode for some bad cases (unstoppable)
@@ -73,8 +79,11 @@ def main():
                 texts.append((wav_id, text))
         for wav_id, text in texts:
             with torch.inference_mode():
                 wav = model.generate(
-                target_text=text,
                 cfg_value=args.cfg_value,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse
                 inference_timesteps=args.inference_timesteps,   # LocDiT inference timesteps, higher for better result, lower for fast speed
                 retry_badcase=True,        # enable retrying mode for some bad cases (unstoppable)

 import argparse
 import torch
 import os
+import re
 def main():
     parser = argparse.ArgumentParser()
     parser.add_argument("--lora_ckpt", type=str, required=True)
         training=False,
         lora_config=lora_cfg,
     )
+    from src.voxcpm.utils.text_normalize import TextNormalizer
+    text_normalizer = TextNormalizer()
     # 3. 加载 LoRA 权重（在 compile 后也能正常工作）
     ckpt_dir = Path(args.lora_ckpt)
     if not ckpt_dir.exists():
     print(f"\n[3/3] 开始推理...")
     if args.text:
         with torch.inference_mode():
+            target_text = args.text.replace("\n", " ")
+            target_text = re.sub(r'\s+', ' ', target_text)
+            target_text = text_normalizer.normalize(target_text)
             wav = model.generate(
+            target_text=target_text,
             cfg_value=args.cfg_value,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse
             inference_timesteps=args.inference_timesteps,   # LocDiT inference timesteps, higher for better result, lower for fast speed
             retry_badcase=True,        # enable retrying mode for some bad cases (unstoppable)
                 texts.append((wav_id, text))
         for wav_id, text in texts:
             with torch.inference_mode():
+                target_text = text.replace("\n", " ")
+                target_text = re.sub(r'\s+', ' ', target_text)
+                target_text = text_normalizer.normalize(target_text)
                 wav = model.generate(
+                target_text=target_text,
                 cfg_value=args.cfg_value,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse
                 inference_timesteps=args.inference_timesteps,   # LocDiT inference timesteps, higher for better result, lower for fast speed
                 retry_badcase=True,        # enable retrying mode for some bad cases (unstoppable)