Spaces:

k2-fsa
/

text-to-speech

Running

App Files Files Community

csukuangfj commited on Dec 4, 2025

Commit

111addf

1 Parent(s): 6142e2c

update matcha tts zh en model

Browse files

Files changed (2) hide show

model.py +72 -0
requirements.txt +2 -2

model.py CHANGED Viewed

@@ -427,6 +427,77 @@ def _get_matcha_hf_espeak(repo_id: str, speed: float) -> sherpa_onnx.OfflineTts:
     return tts
 @lru_cache(maxsize=10)
 def _get_matcha_hf(repo_id: str, speed: float) -> sherpa_onnx.OfflineTts:
     repo_id = repo_id.split("|")[0]
@@ -712,6 +783,7 @@ cantonese_models = {
 }
 chinese_english_models = {
     "csukuangfj/kokoro-multi-lang-v1_1|103 speakers": _get_kokoro,
     "csukuangfj/kokoro-multi-lang-v1_0|53 speakers": _get_kokoro,
     "csukuangfj/vits-melo-tts-zh_en|1": _get_vits_hf,  # 1

     return tts
+@lru_cache(maxsize=10)
+def _get_matcha_zh_en(repo_id: str, speed: float) -> sherpa_onnx.OfflineTts:
+    repo_id = repo_id.split("|")[0]
+    assert repo_id in ("csukuangfj/matcha-icefall-zh-en",), repo_id
+    if repo_id == "csukuangfj/matcha-icefall-zh-en":
+        acoustic_model = "model-steps-3.onnx"
+    acoustic_model = get_file(
+        repo_id=repo_id,
+        filename=acoustic_model,
+        subfolder=".",
+    )
+    vocoder = get_file(
+        repo_id="csukuangfj/sherpa-onnx-vocoders",
+        filename="vocos-16khz-univ.onnx",
+        subfolder=".",
+    )
+    lexicon = get_file(
+        repo_id=repo_id,
+        filename="lexicon.txt",
+        subfolder=".",
+    )
+    tokens = get_file(
+        repo_id=repo_id,
+        filename="tokens.txt",
+        subfolder=".",
+    )
+    rule_fars = ""
+    rule_fsts = ["phone-zh.fst", "date-zh.fst", "number-zh.fst"]
+    rule_fsts = [
+        get_file(
+            repo_id=repo_id,
+            filename=f,
+            subfolder=".",
+        )
+        for f in rule_fsts
+    ]
+    rule_fsts = ",".join(rule_fsts)
+    data_dir = "/tmp/espeak-ng-data"
+    tts_config = sherpa_onnx.OfflineTtsConfig(
+        model=sherpa_onnx.OfflineTtsModelConfig(
+            vits=sherpa_onnx.OfflineTtsVitsModelConfig(),
+            matcha=sherpa_onnx.OfflineTtsMatchaModelConfig(
+                acoustic_model=acoustic_model,
+                vocoder=vocoder,
+                lexicon=lexicon,
+                tokens=tokens,
+                data_dir=data_dir,
+                length_scale=1.0 / speed,
+            ),
+            provider="cpu",
+            debug=True,
+            num_threads=2,
+        ),
+        rule_fsts=rule_fsts,
+        rule_fars=rule_fars,
+        max_num_sentences=1,
+    )
+    tts = sherpa_onnx.OfflineTts(tts_config)
+    return tts
 @lru_cache(maxsize=10)
 def _get_matcha_hf(repo_id: str, speed: float) -> sherpa_onnx.OfflineTts:
     repo_id = repo_id.split("|")[0]
 }
 chinese_english_models = {
+    "csukuangfj/csukuangfj/matcha-icefall-zh-en|1": _get_matcha_zh_en,
     "csukuangfj/kokoro-multi-lang-v1_1|103 speakers": _get_kokoro,
     "csukuangfj/kokoro-multi-lang-v1_0|53 speakers": _get_kokoro,
     "csukuangfj/vits-melo-tts-zh_en|1": _get_vits_hf,  # 1

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-# https://huggingface.co/csukuangfj/sherpa-onnx-wheels/resolve/main/cpu/1.12.11/sherpa_onnx-1.12.11-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl
-sherpa-onnx>=1.12.15
 soundfile

+https://huggingface.co/csukuangfj/sherpa-onnx-wheels/resolve/main/cpu/1.12.18/sherpa_onnx-1.12.18-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl
+#sherpa-onnx>=1.12.15
 soundfile