Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Nov 13

Commit

8c27967

1 Parent(s): b1d5bcd

Add omnilingual ASR

Browse files

Files changed (2) hide show

model.py +41 -0
requirements.txt +1 -1

model.py CHANGED Viewed

@@ -174,6 +174,10 @@ def get_pretrained_model(
         return multi_lingual_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
     elif repo_id in twenty_five_languages_models:
         return twenty_five_languages_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
@@ -1364,6 +1368,36 @@ def _get_streaming_vosk_pre_trained_model(
     return recognizer
 @lru_cache(maxsize=10)
 def _get_sherpa_onnx_nemo_transducer_models_int8(
     repo_id: str,
@@ -2218,6 +2252,11 @@ english_models = {
     "csukuangfj/wenet-english-model": _get_wenet_model,
 }
 twenty_five_languages_models = {
     "csukuangfj/sherpa-onnx-nemo-parakeet-tdt-0.6b-v3-int8": _get_sherpa_onnx_nemo_transducer_models_int8,
 }
@@ -2326,6 +2365,7 @@ portuguese_brazlian_models = {
 all_models = {
     **twenty_five_languages_models,
     **multi_lingual_models,
     **sichuan_models,
@@ -2349,6 +2389,7 @@ all_models = {
 }
 language_to_models = {
     "25 European languages": list(twenty_five_languages_models.keys()),
     "Multi-lingual (east aisa)": list(multi_lingual_models.keys()),
     "超多种中文方言": list(chinese_dialect_models.keys()),

         return multi_lingual_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
+    elif repo_id in more_than_1600_languages_models:
+        return more_than_1600_languages_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
     elif repo_id in twenty_five_languages_models:
         return twenty_five_languages_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
     return recognizer
+@lru_cache(maxsize=10)
+def _get_sherpa_onnx_omnilingual_asr_models(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-omnilingual-asr-1600-languages-300M-ctc-2025-11-12",
+        "csukuangfj/sherpa-onnx-omnilingual-asr-1600-languages-300M-ctc-int8-2025-11-12",
+    ], repo_id
+    is_int8 = "int8" in repo_id
+    model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx" if is_int8 else "model.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_omnilingual_asr_ctc(
+        tokens=tokens,
+        model=model,
+        num_threads=2,
+    )
+    return recognizer
 @lru_cache(maxsize=10)
 def _get_sherpa_onnx_nemo_transducer_models_int8(
     repo_id: str,
     "csukuangfj/wenet-english-model": _get_wenet_model,
 }
+more_than_1600_languages_models = {
+    "csukuangfj/sherpa-onnx-omnilingual-asr-1600-languages-300M-ctc-int8-2025-11-12": _get_sherpa_onnx_omnilingual_asr_models,
+    "csukuangfj/sherpa-onnx-omnilingual-asr-1600-languages-300M-ctc-2025-11-12": _get_sherpa_onnx_omnilingual_asr_models,
+}
 twenty_five_languages_models = {
     "csukuangfj/sherpa-onnx-nemo-parakeet-tdt-0.6b-v3-int8": _get_sherpa_onnx_nemo_transducer_models_int8,
 }
 all_models = {
+    **more_than_1600_languages_models,
     **twenty_five_languages_models,
     **multi_lingual_models,
     **sichuan_models,
 }
 language_to_models = {
+    "1600+ languages": list(more_than_1600_languages_models.keys()),
     "25 European languages": list(twenty_five_languages_models.keys()),
     "Multi-lingual (east aisa)": list(multi_lingual_models.keys()),
     "超多种中文方言": list(chinese_dialect_models.keys()),

requirements.txt CHANGED Viewed

@@ -10,6 +10,6 @@ numpy<2
 huggingface_hub
-https://huggingface.co/csukuangfj/sherpa-onnx-wheels/resolve/main/cpu/1.12.11/sherpa_onnx-1.12.11-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl
 #sherpa-onnx>=1.12.6

 huggingface_hub
+https://huggingface.co/csukuangfj/sherpa-onnx-wheels/resolve/main/cpu/1.12.15/sherpa_onnx-1.12.15-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl
 #sherpa-onnx>=1.12.6