Spaces:

chenmgtea
/

chat-tts

Runtime error

App Files Files Community

chenjgtea commited on Aug 23, 2024

Commit

f097912

1 Parent(s): 52b0147

gpu模式下新增中英文的normal花处理

Browse files

Files changed (5) hide show

Chat2TTS/core.py +31 -3
requirements.txt +4 -0
tool/normalizer/__init__.py +1 -0
tool/normalizer/normali_util.py +17 -0
web/app_gpu.py +15 -4

Chat2TTS/core.py CHANGED Viewed

@@ -13,6 +13,7 @@ from .infer.api import refine_text, infer_code
 from dataclasses import dataclass
 from typing import Literal, Optional, List, Tuple, Dict
 from tool.logger import get_logger
 from ChatTTS.norm import Normalizer
@@ -60,10 +61,36 @@ class Chat:
             else:
                 self.logger.log(logging.INFO, f'Load from cache: {download_path}')
             self._load(**{k: os.path.join(download_path, v) for k, v in OmegaConf.load(os.path.join(download_path, 'config', 'path.yaml')).items()})
         elif source == 'local':
             self.logger.log(logging.INFO, f'Load from local: {local_path}')
             self._load(**{k: os.path.join(local_path, v) for k, v in OmegaConf.load(os.path.join(local_path, 'config', 'path.yaml')).items()})
     def _load(
         self,
         vocos_config_path: str = None,
@@ -156,7 +183,8 @@ class Chat:
         refine_text_only=False,
         params_refine_text={},
         params_infer_code={},
-        use_decoder=False
     ):
         assert self.check_model(use_decoder=use_decoder)
@@ -169,7 +197,7 @@ class Chat:
                 text=t,
                 do_text_normalization=True,
                 do_homophone_replacement=True,
-                lang=None,
             )
             for t in text
         ]

 from dataclasses import dataclass
 from typing import Literal, Optional, List, Tuple, Dict
 from tool.logger import get_logger
+from tool.normalizer import normalizer_en_nemo_text,normalizer_cn_tn
 from ChatTTS.norm import Normalizer
             else:
                 self.logger.log(logging.INFO, f'Load from cache: {download_path}')
             self._load(**{k: os.path.join(download_path, v) for k, v in OmegaConf.load(os.path.join(download_path, 'config', 'path.yaml')).items()})
+            self._regist_normalizer()
         elif source == 'local':
             self.logger.log(logging.INFO, f'Load from local: {local_path}')
             self._load(**{k: os.path.join(local_path, v) for k, v in OmegaConf.load(os.path.join(local_path, 'config', 'path.yaml')).items()})
+    def _regist_normalizer(self):
+        self.logger.info("==========开始注册 normalizer===========")
+        try:
+             self.normalizer.register("en",normalizer_en_nemo_text())
+        except ValueError as e:
+            self.logger.error('normalizer_en_nemo_text register fail' , e)
+        except:
+            self.logger.error("Package nemo_text_processing not found!")
+            self.logger.error(
+                "Run: conda install -c conda-forge pynini=2.1.5 && pip install nemo_text_processing",
+            )
+        try:
+            self.normalizer.register("zh",normalizer_cn_tn())
+        except ValueError as e:
+            self.logger.error('normalizer_cn_tn register fail' , e)
+        except:
+            self.logger.error("Package WeTextProcessing not found!")
+            self.logger.error(
+                "Run: conda install -c conda-forge pynini=2.1.5 && pip install WeTextProcessing",
+            )
     def _load(
         self,
         vocos_config_path: str = None,
         refine_text_only=False,
         params_refine_text={},
         params_infer_code={},
+        use_decoder=False,
+        lang=None
     ):
         assert self.check_model(use_decoder=use_decoder)
                 text=t,
                 do_text_normalization=True,
                 do_homophone_replacement=True,
+                lang=lang,
             )
             for t in text
         ]

requirements.txt CHANGED Viewed

@@ -20,6 +20,10 @@ vector_quantize_pytorch
 # Hugging Face Hub client
 huggingface_hub
 vocos
 spaces

 # Hugging Face Hub client
 huggingface_hub
+pynini==2.1.5; sys_platform == 'linux'
+WeTextProcessing; sys_platform == 'linux'
+nemo_text_processing; sys_platform == 'linux'
 vocos
 spaces

tool/normalizer/__init__.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ from .normali_util import normalizer_en_nemo_text,normalizer_cn_tn

tool/normalizer/normali_util.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from typing import Callable
+from functools import partial
+def normalizer_en_nemo_text() -> Callable[[str], str]:
+    from nemo_text_processing.text_normalization.normalize import Normalizer
+    return partial(
+        Normalizer(input_case="cased", lang="en").normalize,
+        verbose=False,
+        punct_post_process=True,
+    )
+def normalizer_cn_tn() -> Callable[[str], str]:
+    from tn.chinese.normalizer import Normalizer
+    return Normalizer().normalize

web/app_gpu.py CHANGED Viewed

@@ -96,6 +96,13 @@ def main(args):
                 interactive=True,
             )
         with gr.Row():
             voice_selection = gr.Dropdown(
                 label="Timbre",
                 choices=voices.keys(),
@@ -110,7 +117,6 @@ def main(args):
                 minimum=seed_min,
                 maximum=seed_max,
             )
-            generate_audio_seed = gr.Button("随机生成音色种子", interactive=True)
             text_seed_input = gr.Number(
                 value=42,
                 label="文本种子",
@@ -118,7 +124,9 @@ def main(args):
                 minimum=seed_min,
                 maximum=seed_max,
             )
-            generate_text_seed = gr.Button("随机生成文本种子", interactive=True)
         # with gr.Row():
             # spk_emb_text = gr.Textbox(
@@ -172,7 +180,8 @@ def main(args):
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
-                                                       audio_seed_input
                                                        ],
                               outputs=[text_output,audio_output])
         # 初始化 spk_emb_text 数值
@@ -206,7 +215,8 @@ def general_chat_infer_audio(text,
                              temperature_slider,
                              top_p_slider,
                              top_k_slider,
-                             audio_seed_input):
     logger.info("========开始处理TTS模型=====")
     #音频参数设置
@@ -229,6 +239,7 @@ def general_chat_infer_audio(text,
                 skip_refine_text=False,
                 refine_text_only=True,  #仅返回优化后文本内容
                 params_refine_text=params_refine_text,
             )

                 interactive=True,
             )
         with gr.Row():
+            lang_selection = gr.Dropdown(
+                label="语种",
+                choices=["zh" , "en"],
+                value="zh",
+                interactive=True,
+                show_label=True
+            )
             voice_selection = gr.Dropdown(
                 label="Timbre",
                 choices=voices.keys(),
                 minimum=seed_min,
                 maximum=seed_max,
             )
             text_seed_input = gr.Number(
                 value=42,
                 label="文本种子",
                 minimum=seed_min,
                 maximum=seed_max,
             )
+            with gr.Column():
+                generate_audio_seed = gr.Button("随机生成音色种子", interactive=True)
+                generate_text_seed = gr.Button("随机生成文本种子", interactive=True)
         # with gr.Row():
             # spk_emb_text = gr.Textbox(
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
+                                                       audio_seed_input,
+                                                        lang_selection
                                                        ],
                               outputs=[text_output,audio_output])
         # 初始化 spk_emb_text 数值
                              temperature_slider,
                              top_p_slider,
                              top_k_slider,
+                             audio_seed_input,
+                             lang):
     logger.info("========开始处理TTS模型=====")
     #音频参数设置
                 skip_refine_text=False,
                 refine_text_only=True,  #仅返回优化后文本内容
                 params_refine_text=params_refine_text,
+                lang=lang
             )