Spaces:

phamhapa101
/

CUTPRO

Sleeping

App Files Files Community

phamhapa101 commited on Feb 8

Commit

27c4115

verified ·

1 Parent(s): 27c91e3

Upload 13 files

Browse files

Files changed (13) hide show

app.py +207 -0
config(1).json +2000 -0
decode.py +121 -0
decoder-epoch-20-avg-10.int8.onnx +3 -0
decoder-epoch-20-avg-10.onnx +3 -0
encoder-epoch-20-avg-10.int8.onnx +3 -0
encoder-epoch-20-avg-10.onnx +3 -0
examples.py +544 -0
joiner-epoch-20-avg-10.int8.onnx +3 -0
joiner-epoch-20-avg-10.onnx +3 -0
model.py +2199 -0
packages.txt +1 -0
requirements.txt +5 -0

app.py ADDED Viewed

	@@ -0,0 +1,207 @@

+import gradio as gr
+import os
+import shutil
+import zipfile
+import sherpa_onnx
+import csv
+import numpy as np
+import gc
+import re
+from pydub import AudioSegment, effects
+from huggingface_hub import hf_hub_download
+import urllib.request
+# --- CẤU HÌNH ---
+MY_REPO_ID = "hoanglinhn0/DATASET-01"
+ENCODER_FILENAME = "encoder-epoch-20-avg-10.onnx"
+DECODER_FILENAME = "decoder-epoch-20-avg-10.onnx"
+JOINER_FILENAME  = "joiner-epoch-20-avg-10.onnx"
+TOKENS_FILENAME  = "config.json"
+ASR_SAMPLE_RATE = 16000
+# --- BIẾN TOÀN CỤC ---
+recognizer = None
+model_status = ""
+def load_asr_model():
+    global recognizer, model_status
+    try:
+        print("⏳ Đang tải ASR model...")
+        encoder = hf_hub_download(repo_id=MY_REPO_ID, filename=ENCODER_FILENAME, repo_type="space")
+        decoder = hf_hub_download(repo_id=MY_REPO_ID, filename=DECODER_FILENAME, repo_type="space")
+        joiner = hf_hub_download(repo_id=MY_REPO_ID, filename=JOINER_FILENAME, repo_type="space")
+        tokens_raw = hf_hub_download(repo_id=MY_REPO_ID, filename=TOKENS_FILENAME, repo_type="space")
+        tokens_clean_path = "tokens_fixed.txt"
+        with open(tokens_raw, 'r', encoding='utf-8') as f_in:
+            lines = f_in.readlines()
+        with open(tokens_clean_path, 'w', encoding='utf-8') as f_out:
+            f_out.writelines(lines)
+        recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+            encoder=encoder, decoder=decoder, joiner=joiner,
+            tokens=tokens_clean_path, num_threads=4,
+            sample_rate=ASR_SAMPLE_RATE, decoding_method="greedy_search"
+        )
+        return "OK"
+    except Exception as e:
+        return str(e)
+model_status = load_asr_model()
+def process_audio_vad(audio_files, min_speech_duration, min_silence_duration, buffer_seconds):
+    if model_status != "OK":
+        return None, f"❌ Lỗi ASR Model: {model_status}"
+    if not audio_files:
+        return None, "Vui lòng chọn ít nhất một file audio."
+    temp_dir = "piper_dataset_final"
+    if os.path.exists(temp_dir): shutil.rmtree(temp_dir)
+    os.makedirs(temp_dir, exist_ok=True)
+    logs = []
+    csv_data = []
+    file_counter = 0
+    skipped_short = 0
+    try:
+        logs.append(f"📂 Đã chọn {len(audio_files)} file. Xử lý theo thứ tự...")
+        vad_path = "silero_vad.onnx"
+        if not os.path.exists(vad_path):
+            logs.append("⏳ Đang tải silero_vad.onnx...")
+            urllib.request.urlretrieve(
+                "https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/silero_vad.onnx",
+                vad_path
+            )
+            logs.append("✅ Tải VAD xong.")
+        else:
+            logs.append("✅ VAD model đã có sẵn.")
+        vad_config = sherpa_onnx.VadModelConfig()
+        vad_config.silero_vad.model = vad_path
+        vad_config.silero_vad.min_speech_duration = min_speech_duration
+        vad_config.silero_vad.min_silence_duration = min_silence_duration
+        vad_config.sample_rate = ASR_SAMPLE_RATE
+        vad_engine = sherpa_onnx.VoiceActivityDetector(vad_config, buffer_size_in_seconds=60)
+        buffer_samples = int(buffer_seconds * ASR_SAMPLE_RATE)
+        for idx, audio_file in enumerate(audio_files, 1):
+            original_name = os.path.splitext(os.path.basename(audio_file))[0]
+            original_name = re.sub(r'[^a-zA-Z0-9_-]', '_', original_name)
+            logs.append(f"🔄 File {idx}/{len(audio_files)}: {original_name}")
+            sound = AudioSegment.from_file(audio_file).set_frame_rate(ASR_SAMPLE_RATE).set_channels(1)
+            full_samples = np.array(sound.get_array_of_samples()).astype(np.float32) / 32768.0
+            padding = np.zeros(int(ASR_SAMPLE_RATE * 1.0), dtype=np.float32)
+            samples = np.concatenate((full_samples, padding))
+            window_size = vad_config.silero_vad.window_size
+            i = 0
+            total_len = len(samples)
+            while i < total_len:
+                chunk = samples[i : i + window_size]
+                vad_engine.accept_waveform(chunk)
+                i += len(chunk)
+            speech_segments = []
+            while not vad_engine.empty():
+                segment_samples = np.array(vad_engine.front.samples, dtype=np.float32)
+                speech_segments.append(segment_samples)
+                vad_engine.pop()
+            for chunk_samples in speech_segments:
+                duration = len(chunk_samples) / ASR_SAMPLE_RATE
+                if duration < min_speech_duration:
+                    skipped_short += 1
+                    continue
+                # === THÊM BUFFER AN TOÀN ===
+                chunk_with_buffer = np.concatenate([
+                    np.zeros(buffer_samples, dtype=np.float32),
+                    chunk_samples,
+                    np.zeros(buffer_samples, dtype=np.float32)
+                ])
+                # Chuyển sang pydub để trim silence đầu/cuối
+                chunk_audio = AudioSegment(
+                    (chunk_with_buffer * 32767).astype(np.int16).tobytes(),
+                    frame_rate=ASR_SAMPLE_RATE,
+                    sample_width=2,
+                    channels=1
+                ).set_frame_rate(22050)
+                # Trim silence đầu/cuối (ngưỡng -50dB)
+                chunk_audio = effects.strip_silence(chunk_audio, silence_thresh=-50, padding=0)
+                # Nhận dạng văn bản
+                final_samples = np.array(chunk_audio.get_array_of_samples()).astype(np.float32) / 32767.0
+                s = recognizer.create_stream()
+                s.accept_waveform(ASR_SAMPLE_RATE, final_samples)
+                recognizer.decode_stream(s)
+                text = s.result.text.strip()
+                if text and len(text) > 2:
+                    filename = f"{original_name}_{file_counter:05d}.wav"
+                    filepath = os.path.join(temp_dir, filename)
+                    chunk_audio.export(filepath, format="wav")
+                    csv_data.append([filename, text])
+                    file_counter += 1
+        csv_path = os.path.join(temp_dir, "metadata.csv")
+        with open(csv_path, mode='w', encoding='utf-8-sig', newline='') as f:
+            writer = csv.writer(f, delimiter='|')
+            writer.writerows(csv_data)
+        zip_path = "dataset_piper_vad_v2.zip"
+        if os.path.exists(zip_path): os.remove(zip_path)
+        with zipfile.ZipFile(zip_path, 'w', zipfile.ZIP_DEFLATED) as zipf:
+            for root, _, files in os.walk(temp_dir):
+                for file in files:
+                    zipf.write(os.path.join(root, file), arcname=file)
+        logs.append(f"🎉 HOÀN TẤT! Tạo {file_counter} đoạn ≥ {min_speech_duration}s (đã thêm buffer {buffer_seconds}s)")
+        if skipped_short > 0:
+            logs.append(f"   (Bỏ qua {skipped_short} đoạn ngắn hơn {min_speech_duration}s)")
+        return zip_path, "\n".join(logs)
+    except Exception as e:
+        return None, f"❌ Lỗi: {str(e)}"
+    finally:
+        gc.collect()
+# --- UI ---
+with gr.Blocks(theme=gr.themes.Soft(primary_hue="green")) as demo:
+    gr.Markdown("# 🎙️ Piper Dataset Maker - VAD V2 (Có Buffer chống cắt giữa từ)")
+    gr.Markdown("""
+    **Để tránh cắt giữa từ:**
+    - Tăng **Khoảng lặng tối thiểu** lên 1.8–2.5 giây
+    - Dùng **Buffer an toàn** (mặc định 0.3 giây) để thêm đệm trước/sau đoạn
+    """)
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.File(
+                label="📁 Chọn nhiều file audio (Ctrl + click)",
+                file_count="multiple",
+                type="filepath"
+            )
+            with gr.Row():
+                min_speech = gr.Slider(1.0, 5.0, value=2.0, step=0.1, label="Độ dài câu tối thiểu (giây)")
+                min_silence = gr.Slider(0.5, 4.0, value=1.8, step=0.1, label="Khoảng lặng tối thiểu để cắt (giây) ← tăng để tránh cắt giữa từ")
+                buffer_sec = gr.Slider(0.0, 0.8, value=0.3, step=0.1, label="Buffer an toàn trước/sau đoạn (giây)")
+            btn_run = gr.Button("🚀 BẮT ĐẦU TRÍCH XUẤT", variant="primary")
+        with gr.Column():
+            logs = gr.Textbox(label="Nhật ký hệ thống", lines=15)
+            file_output = gr.File(label="📥 Tải bộ Dataset ZIP")
+    btn_run.click(process_audio_vad,
+                  inputs=[audio_input, min_speech, min_silence, buffer_sec],
+                  outputs=[file_output, logs])
+if __name__ == "__main__":
+    demo.launch()

config(1).json ADDED Viewed

	@@ -0,0 +1,2000 @@

+<blk> 0
+<sos/eos> 1
+<unk> 2
+▁HAI 3
+▁KHÔNG 4
+▁TRĂM 5
+▁MỘT 6
+▁BA 7
+▁MƯƠI 8
+▁LÀ 9
+▁NĂM 10
+▁VÀ 11
+▁CỦA 12
+▁CHÍN 13
+▁SÁU 14
+▁TÁM 15
+▁BỐN 16
+▁CÓ 17
+N 18
+I 19
+▁CÁC 20
+▁TRONG 21
+T 22
+NG 23
+▁ĐƯỢC 24
+▁CHO 25
+▁VỚI 26
+▁NGƯỜI 27
+▁ĐÃ 28
+M 29
+▁MƯỜI 30
+▁NGHÌN 31
+▁NGÀY 32
+O 33
+▁NGÀN 34
+▁BẢY 35
+▁BẨY 36
+U 37
+▁NÀY 38
+▁NHỮNG 39
+▁CÔNG 40
+▁RA 41
+C 42
+▁Ở 43
+▁ĐỂ 44
+▁TRÊN 45
+▁ĐÓ 46
+▁KHI 47
+▁TẠI 48
+▁ĐẾN 49
+Y 50
+P 51
+▁THÌ 52
+▁SẼ 53
+▁VỀ 54
+▁CŨNG 55
+▁NHƯ 56
+A 57
+▁MÀ 58
+▁TỪ 59
+▁THÁNG 60
+▁MÌNH 61
+▁CÁI 62
+▁GIỜ 63
+▁VÀO 64
+▁PHẨY 65
+▁ANH 66
+▁THỂ 67
+▁THÀNH 68
+▁NAM 69
+▁ÂM 70
+▁ĐỒNG 71
+▁SỐ 72
+▁LẠI 73
+▁BỊ 74
+▁NHÀ 75
+▁QUỐC 76
+▁ĐẦU 77
+▁HIỆN 78
+▁NHIỀU 79
+▁LÀM 80
+▁B 81
+▁ĐI 82
+S 83
+▁PHẢI 84
+▁SỰ 85
+▁VIỆT 86
+▁ÔNG 87
+▁THEO 88
+▁ 89
+▁TÔI 90
+▁EM 91
+▁SAU 92
+▁VIỆC 93
+▁CHÍNH 94
+▁TRIỆU 95
+▁NƯỚC 96
+▁TA 97
+▁NHÂN 98
+▁A 99
+▁BẠN 100
+▁CON 101
+▁ĐỘNG 102
+▁BỘ 103
+▁S 104
+▁CHẤM 105
+▁GIA 106
+▁HÀNG 107
+▁CHỈ 108
+▁THÔNG 109
+▁THẾ 110
+▁M 111
+▁MỐT 112
+▁QUAN 113
+E 114
+▁NÓ 115
+▁BIẾT 116
+▁NHƯNG 117
+▁ĐÂY 118
+▁V 119
+▁TRUNG 120
+▁HƠN 121
+▁ĐANG 122
+▁CÒN 123
+▁TƯ 124
+▁TỚI 125
+▁ĐỊNH 126
+▁VIÊN 127
+▁NHẤT 128
+▁RẤT 129
+▁MỚI 130
+▁TRƯỚC 131
+▁CA 132
+▁CHÚNG 133
+▁QUA 134
+▁C 135
+G 136
+H 137
+▁CƠ 138
+▁ĐIỀU 139
+▁THỜI 140
+▁HỌC 141
+▁TRƯỜNG 142
+▁DÂN 143
+▁GIÁ 144
+▁TIN 145
+▁CẢ 146
+▁PHÁT 147
+▁HỘI 148
+▁I 149
+▁CÙNG 150
+▁L 151
+▁NÓI 152
+▁ẢNH 153
+▁RỒI 154
+▁R 155
+▁AN 156
+▁LÊN 157
+NH 158
+▁SINH 159
+▁THỰC 160
+▁TH 161
+▁HÀNH 162
+▁NHẬN 163
+▁VỤ 164
+▁HÌNH 165
+▁ĐỐI 166
+▁HỢP 167
+▁NGANG 168
+▁VÌ 169
+▁DO 170
+D 171
+▁MỸ 172
+▁TẾ 173
+▁THẤY 174
+▁XE 175
+▁CUỘC 176
+▁Đ 177
+▁CHỦ 178
+▁G 179
+R 180
+▁TIẾP 181
+▁N 182
+▁ĐỀ 183
+▁THỦ 184
+▁CÔ 185
+▁HÀ 186
+▁ĐẠI 187
+▁LINH 188
+▁H 189
+▁CAO 190
+▁ĐỘ 191
+▁SẢN 192
+▁BÁO 193
+▁KẾT 194
+▁CÁCH 195
+▁T 196
+▁NAY 197
+▁LIÊN 198
+▁D 199
+▁NÊN 200
+▁XUẤT 201
+▁GẠCH 202
+▁E 203
+▁DỤNG 204
+▁DỰ 205
+▁NÀO 206
+▁LÝ 207
+▁CHỨC 208
+▁TRÌNH 209
+▁THỊ 210
+▁GÌ 211
+▁LƯỢNG 212
+▁BẢN 213
+▁GIỚI 214
+▁O 215
+▁MÉT 216
+▁TỔNG 217
+▁RẰNG 218
+▁KHÁC 219
+▁ĐƯỜNG 220
+▁PHÚT 221
+▁TÌNH 222
+▁HỌ 223
+▁NGHIỆP 224
+▁THỐNG 225
+B 226
+▁TĂNG 227
+▁U 228
+▁ĐIỂM 229
+▁CHỊ 230
+- 231
+▁TIỀN 232
+▁VẪN 233
+ER 234
+▁NỘI 235
+▁TÀI 236
+▁PHẦN 237
+▁KINH 238
+K 239
+CH 240
+▁BÌNH 241
+▁PHỐ 242
+▁GIẢI 243
+▁KHU 244
+▁NG 245
+▁TÁC 246
+▁VẬY 247
+▁CẦU 248
+▁LẺ 249
+▁HAY 250
+▁CH 251
+▁NH 252
+▁CHÉO 253
+▁THỨ 254
+AN 255
+▁LỰC 256
+▁TÂM 257
+Ế 258
+▁PHÒNG 259
+▁TỰ 260
+▁GIAO 261
+▁TOÀN 262
+▁LẦN 263
+▁VĂN 264
+▁BẢO 265
+▁MẶT 266
+▁MINH 267
+▁NĂNG 268
+▁THƯƠNG 269
+▁VỊ 270
+▁GIÂY 271
+▁Ý 272
+▁TỔ 273
+▁DIỄN 274
+▁CẤP 275
+▁BÀ 276
+▁BỐ 277
+▁X 278
+RA 279
+▁ĐIỆN 280
+▁ĐỘI 281
+▁BÊN 282
+▁DỊCH 283
+▁LỚN 284
+L 285
+▁TẬP 286
+▁PHÁP 287
+▁MÁY 288
+▁BỆNH 289
+Á 290
+▁ĂN 291
+▁TUỔI 292
+▁QUÁ 293
+▁KHOẢNG 294
+▁CHƯA 295
+▁SAO 296
+▁DOANH 297
+▁NẾU 298
+▁THU 299
+▁NGOÀI 300
+▁HỆ 301
+▁VI 302
+▁VỪA 303
+▁BẰNG 304
+▁TIÊN 305
+Ả 306
+▁CẢM 307
+▁CẢNH 308
+▁TRIỂN 309
+▁CHIẾN 310
+▁XÃ 311
+▁QUY 312
+▁CẦN 313
+▁TRỪ 314
+▁BAN 315
+V 316
+▁THANH 317
+▁QUÂN 318
+▁K 319
+▁GIAN 320
+▁BẮT 321
+▁THƯỜNG 322
+▁NHIÊN 323
+▁LĂM 324
+▁KI 325
+▁ÁN 326
+▁THI 327
+▁PHƯƠNG 328
+▁KHÁCH 329
+▁ĐƯA 330
+▁TẠO 331
+▁TR 332
+▁TÍNH 333
+▁P 334
+▁SỬ 335
+Ắ 336
+Ạ 337
+▁Y 338
+▁TRA 339
+▁GẦN 340
+▁KỲ 341
+▁TRỞ 342
+▁LO 343
+▁TRANG 344
+Ô 345
+▁QUẢ 346
+▁CỘNG 347
+▁Ạ 348
+▁TỈNH 349
+Ố 350
+▁SÁT 351
+RI 352
+▁MUỐN 353
+▁TRỌNG 354
+IN 355
+▁SĨ 356
+▁CHÍ 357
+▁HÓA 358
+▁Á 359
+▁QUYẾT 360
+. 361
+▁TRƯỞNG 362
+▁BÁN 363
+▁YÊU 364
+▁THỨC 365
+▁SỐNG 366
+▁TRỊ 367
+▁MI 368
+▁TY 369
+▁NHĂM 370
+▁CHI 371
+▁HIỆU 372
+▁VỰC 373
+▁NGUYỄN 374
+▁ĐẠO 375
+▁SỞ 376
+X 377
+▁THAM 378
+▁F 379
+▁LÚC 380
+RO 381
+▁SO 382
+▁ĐỊA 383
+▁GIÚP 384
+▁BẤT 385
+▁MẠNH 386
+▁TIÊU 387
+▁TÊN 388
+▁TỤC 389
+▁HÔM 390
+▁NỮA 391
+Ấ 392
+▁GA 393
+RE 394
+▁CÁ 395
+Ê 396
+▁LI 397
+EN 398
+▁HỒ 399
+▁CHUYỂN 400
+▁CHIẾC 401
+▁MA 402
+▁LÔ 403
+▁CHIA 404
+▁GI 405
+▁PHẨM 406
+Z 407
+Ọ 408
+▁KIỂM 409
+▁HOẠT 410
+LE 411
+▁CHẤT 412
+▁HOA 413
+▁NỮ 414
+▁TIẾN 415
+▁LUÔN 416
+▁ĐẤU 417
+▁TAY 418
+W 419
+LA 420
+▁VẤN 421
+▁LOẠI 422
+▁HOÀN 423
+▁ĐÔNG 424
+▁BAY 425
+▁NGHỆ 426
+▁TÌM 427
+▁TIẾNG 428
+▁NHAU 429
+▁KHIẾN 430
+▁HẾT 431
+▁KHÓ 432
+▁BIỆT 433
+Ệ 434
+▁GIẢM 435
+▁ĐẶC 436
+▁ĐÁNH 437
+▁TUY 438
+/ 439
+▁MUA 440
+▁ĐỔI 441
+▁THÊM 442
+▁TRẬN 443
+▁DI 444
+▁THIẾT 445
+▁ĐÚNG 446
+NA 447
+▁QUYỀN 448
+▁CHUYỆN 449
+▁SÁNG 450
+▁MỨC 451
+▁ĐÌNH 452
+AR 453
+▁NGA 454
+Â 455
+ON 456
+▁GIỮA 457
+▁CỔ 458
+Ồ 459
+▁CÂU 460
+▁THÂN 461
+▁MẸ 462
+▁LỜI 463
+Ò 464
+▁MỌI 465
+▁VÒNG 466
+▁MANG 467
+▁ÉP 468
+▁CỨU 469
+F 470
+Ù 471
+▁NGÂN 472
+▁KHAI 473
+▁ĐẤT 474
+▁MẠNG 475
+▁DÙNG 476
+À 477
+▁TƯỢNG 478
+▁BAO 479
+▁ĐOÀN 480
+▁ĐỀU 481
+LI 482
+▁KIẾN 483
+▁TRÍ 484
+▁TRẺ 485
+▁TỐT 486
+▁AI 487
+▁PHẠM 488
+▁NHẬP 489
+▁TRUYỀN 490
+▁DẪN 491
+▁XEM 492
+▁CHƯƠNG 493
+Ộ 494
+▁ỨNG 495
+▁TẤN 496
+EL 497
+▁QUÝ 498
+▁TRỢ 499
+▁LẬP 500
+▁NGUYÊN 501
+▁TÍCH 502
+▁VIỆN 503
+▁VÔ 504
+▁PHỦ 505
+▁GÂY 506
+▁GIẢ 507
+▁THÁI 508
+▁NGHỊ 509
+▁BỎ 510
+ES 511
+▁KẾ 512
+▁GỌI 513
+▁GIÁO 514
+▁BIỂN 515
+▁NGAY 516
+▁LA 517
+▁CHUNG 518
+▁NHẬT 519
+▁SÁCH 520
+▁GẶP 521
+▁CHÂU 522
+▁TỪNG 523
+ST 524
+É 525
+▁DU 526
+▁KH 527
+▁CỨ 528
+▁ĐƠN 529
+▁CỐ 530
+▁HOẶC 531
+▁TỬ 532
+▁XÁC 533
+▁HẢI 534
+▁ĐĂNG 535
+▁ĐẸP 536
+▁DIỆN 537
+▁ĐÁ 538
+▁CUỐI 539
+▁SỨC 540
+▁ĐẤY 541
+▁CHẾ 542
+▁THÔI 543
+Ã 544
+▁BÀN 545
+▁NGUỒN 546
+▁XOẸT 547
+▁HỘ 548
+▁XUỘC 549
+▁CHỨNG 550
+▁NHIỆM 551
+AL 552
+▁GIỮ 553
+▁TẤT 554
+▁LỊCH 555
+▁BÓNG 556
+▁MỖI 557
+▁GỜ 558
+▁ẤY 559
+▁VŨ 560
+▁BỞI 561
+▁PHỤ 562
+▁KHÍ 563
+Ầ 564
+▁VỆ 565
+▁CÁO 566
+▁THUỘC 567
+▁TI 568
+▁DA 569
+▁HỒI 570
+▁NHÌN 571
+▁HÒA 572
+▁THÍCH 573
+▁THAY 574
+LO 575
+▁SA 576
+IA 577
+▁KHỐI 578
+▁VẬT 579
+CO 580
+▁XÂY 581
+▁HOÀNG 582
+▁MỜ 583
+Ớ 584
+▁HA 585
+▁DÙ 586
+▁VÊ 587
+▁BIỂU 588
+▁HỎI 589
+▁HO 590
+▁TO 591
+▁DỰNG 592
+▁BÂY 593
+▁MỞ 594
+▁PHÍA 595
+▁ĐÊ 596
+▁SÂN 597
+▁KÝ 598
+▁ĐOẠN 599
+▁PHỤC 600
+▁CHÚ 601
+▁NGOẠI 602
+▁LAN 603
+▁ĐỒ 604
+▁TÀU 605
+▁LỜ 606
+▁DANH 607
+▁BIẾN 608
+▁ĐẠT 609
+▁DÀI 610
+Ư 611
+▁KHẨU 612
+▁NƠI 613
+▁HƯỚNG 614
+J 615
+▁RỜ 616
+▁LUẬT 617
+▁CHUYÊN 618
+▁TRANH 619
+▁ĐÂU 620
+▁NỜ 621
+▁NGHĨ 622
+▁DÉT 623
+OR 624
+▁KHÁ 625
+Ỡ 626
+▁BÉ 627
+▁MẤT 628
+▁GÁI 629
+▁QUẢN 630
+▁HẠN 631
+▁LỘ 632
+▁DẠ 633
+▁XIN 634
+Ú 635
+▁KHOA 636
+▁NHÓM 637
+▁ĐÔ 638
+HA 639
+▁GHI 640
+▁PH 641
+Ơ 642
+▁HUYỆN 643
+▁GIÁM 644
+▁ĐỨC 645
+TE 646
+TA 647
+▁CHƠI 648
+▁SANG 649
+▁KỂ 650
+▁THẬT 651
+▁LIỆU 652
+▁PHIM 653
+▁THOẠI 654
+▁XUỐNG 655
+▁TRẢ 656
+▁LỢI 657
+▁LẤY 658
+▁Ô 659
+▁KHOẢN 660
+▁MẮT 661
+▁KIỆN 662
+▁CO 663
+▁ĐẶT 664
+▁CHỌN 665
+▁OÁT 666
+▁VẬN 667
+▁LUYỆN 668
+▁THẮNG 669
+▁HỮU 670
+▁TỜ 671
+▁CHỐNG 672
+▁TUẦN 673
+MA 674
+▁TƯƠNG 675
+▁BÀI 676
+▁ĐA 677
+▁HẬU 678
+▁NHỎ 679
+▁PHÁ 680
+▁KHẢ 681
+▁HỖ 682
+▁W 683
+▁BẮC 684
+▁MỤC 685
+▁CỬA 686
+▁RÕ 687
+Ă 688
+▁À 689
+▁NẠN 690
+▁MẪU 691
+▁NỔI 692
+▁TƯỚNG 693
+▁VÀNG 694
+▁TỊCH 695
+▁LÃNH 696
+▁XI 697
+▁ĐỜI 698
+▁USD 699
+▁SẺ 700
+▁ỦY 701
+Ó 702
+▁TU 703
+▁NA 704
+▁XỬ 705
+▁SE 706
+NE 707
+CK 708
+▁DƯƠNG 709
+▁DƯỚI 710
+▁TIẾT 711
+▁XẢY 712
+▁RO 713
+▁ÍT 714
+▁SƯ 715
+▁NGHE 716
+▁QU 717
+▁CHUẨN 718
+▁VÙNG 719
+▁TRÁI 720
+▁THUẬT 721
+▁NINH 722
+▁HÁT 723
+▁BÁC 724
+▁TỐ 725
+▁NGHIỆM 726
+▁HIỂU 727
+▁TRÒ 728
+▁NGHĨA 729
+TH 730
+▁VÍ 731
+▁CHA 732
+▁CỤ 733
+▁BÊ 734
+▁VUÔNG 735
+▁NHA 736
+▁ĐỦ 737
+▁MÃ 738
+TI 739
+Í 740
+Ụ 741
+▁THƯ 742
+▁PHONG 743
+▁ÁP 744
+▁TRỰC 745
+▁VỢ 746
+LL 747
+▁PHÓ 748
+▁PHÂN 749
+▁CUNG 750
+▁TÂY 751
+▁ÍCH 752
+US 753
+▁PHÍ 754
+Ở 755
+▁GỒM 756
+DA 757
+TO 758
+▁CHÂN 759
+▁KIM 760
+▁TRÚ 761
+▁PHI 762
+▁LUẬN 763
+▁HOẠCH 764
+▁TẢI 765
+▁NHANH 766
+▁HUẤN 767
+NI 768
+SS 769
+▁ĐÁNG 770
+▁TỨC 771
+▁CHẾT 772
+▁CỰC 773
+▁NHẰM 774
+▁VỌNG 775
+▁HUY 776
+▁TỐI 777
+▁TUYÊN 778
+▁BÍ 779
+▁HƯỞNG 780
+BA 781
+▁VỐN 782
+▁NGHIÊN 783
+▁LƯU 784
+▁CÂY 785
+▁LÒNG 786
+▁BƯỚC 787
+▁HẠ 788
+▁LỄ 789
+▁ĐÀN 790
+▁CỬ 791
+▁BỜ 792
+▁MÊ 793
+▁TINH 794
+Ì 795
+▁CHỒNG 796
+ET 797
+▁THUẬN 798
+▁CHU 799
+▁TUYỂN 800
+▁THẦN 801
+▁TÔ 802
+▁ĐỐC 803
+▁MÀU 804
+UR 805
+▁CẠNH 806
+▁SẮC 807
+▁SƠN 808
+▁NHẠC 809
+▁NÔNG 810
+DE 811
+ỀN 812
+▁QUẢNG 813
+▁ĐÓNG 814
+▁VUI 815
+▁ĐỨNG 816
+▁TRẦN 817
+▁LAO 818
+▁ẤN 819
+▁PHIÊN 820
+▁XÊ 821
+▁ĐẢO 822
+▁XÉT 823
+▁KHỎI 824
+▁CHỨ 825
+▁SU 826
+▁NGÀNH 827
+▁HY 828
+▁PHÓNG 829
+▁PHÉP 830
+▁CHẠY 831
+▁HÀN 832
+▁MÙA 833
+▁MẠI 834
+CE 835
+Ứ 836
+▁ĐÀO 837
+▁CÀNG 838
+▁CHIỀU 839
+VI 840
+▁MẶC 841
+▁CHẮC 842
+CA 843
+▁RIÊNG 844
+▁VỜ 845
+▁TRAI 846
+▁GIỐNG 847
+▁BI 848
+▁NHỚ 849
+▁YẾU 850
+▁GỬI 851
+▁TRÁCH 852
+▁IN 853
+▁DUNG 854
+▁DUY 855
+DI 856
+▁BIÊN 857
+▁XA 858
+▁ĐỘC 859
+▁CƯ 860
+▁TỶ 861
+▁NGHI 862
+▁TRẠNG 863
+▁NẰM 864
+▁PHẢN 865
+▁MÙNG 866
+ND 867
+Ợ 868
+▁CĂN 869
+▁VIDEO 870
+▁CỜ 871
+Ự 872
+▁TƯỞNG 873
+▁DẦU 874
+▁ĐẢM 875
+▁ÁO 876
+Ề 877
+▁HÃNG 878
+▁TÙ 879
+▁QUAY 880
+TER 881
+▁DỄ 882
+▁Z 883
+SE 884
+▁LỆ 885
+▁DÀNH 886
+▁LE 887
+▁LẠ 888
+▁MÔ 889
+▁ĐÊM 890
+▁NGUY 891
+▁QUẬN 892
+▁XEN 893
+▁TỎ 894
+▁LẠC 895
+Ổ 896
+▁MO 897
+▁ĐÔI 898
+▁HIỆP 899
+▁KỶ 900
+▁PA 901
+IL 902
+SA 903
+Ẩ 904
+▁TÊ 905
+▁LỬA 906
+▁BUỔI 907
+▁ĐẦY 908
+▁KỸ 909
+▁& 910
+▁HU 911
+▁MỒNG 912
+▁CỤC 913
+▁NGÔI 914
+▁DỤC 915
+Ỗ 916
+▁LÊ 917
+▁THỬ 918
+▁NGỜ 919
+Ặ 920
+▁Ờ 921
+▁RỘNG 922
+▁KHĂN 923
+Ủ 924
+▁TRỜI 925
+▁SOÁT 926
+▁MÓN 927
+▁NI 928
+Ỉ 929
+▁NGỌC 930
+ME 931
+▁HI 932
+▁LONG 933
+▁TUYẾN 934
+▁LÂU 935
+▁CƯỜNG 936
+▁MAI 937
+▁XUÂN 938
+▁THẢO 939
+GE 940
+È 941
+▁THÚC 942
+▁THIÊN 943
+▁KHO 944
+▁PHÚC 945
+▁TRÀ 946
+▁ÉT 947
+▁ĐÀI 948
+▁THUỐC 949
+▁TỘI 950
+▁NIÊN 951
+▁CHUYẾN 952
+▁ĐẮP 953
+OL 954
+▁CHỖ 955
+▁GÓP 956
+▁MẤY 957
+▁ĐẢNG 958
+▁QUÁN 959
+▁VAI 960
+▁THIẾU 961
+▁TRI 962
+Ũ 963
+▁SIÊU 964
+▁GIAI 965
+▁KHẲNG 966
+▁THIỆN 967
+▁TOÁN 968
+▁TÒA 969
+▁TRAO 970
+▁KÉP 971
+▁JO 972
+▁TỈ 973
+▁THẦY 974
+▁ÂU 975
+▁CHỊU 976
+▁AL 977
+▁PHÚ 978
+▁TÁ 979
+▁LÁ 980
+KI 981
+▁CHẤP 982
+▁ĐÀ 983
+▁CẬU 984
+Ẫ 985
+▁SỜ 986
+▁KIẾM 987
+▁NỀN 988
+▁HÃY 989
+▁VƯỢT 990
+▁ƠI 991
+▁ĐẨY 992
+▁CAN 993
+▁CHẲNG 994
+▁XÚC 995
+▁ĐỜ 996
+▁DÊ 997
+▁PHỐI 998
+▁THỦY 999
+▁TRIỀU 1000
+Ẹ 1001
+▁LU 1002
+▁KÉO 1003
+Ỏ 1004
+▁TRỤ 1005
+▁CÀ 1006
+▁MÔI 1007
+▁SƠ 1008
+▁XONG 1009
+▁KHỞI 1010
+▁LAI 1011
+▁LIU 1012
+VE 1013
+SI 1014
+▁LĨNH 1015
+▁VIẾT 1016
+▁KHỦNG 1017
+▁THĂM 1018
+▁PỜ 1019
+▁PÊ 1020
+▁NGỒI 1021
+▁LỚP 1022
+GA 1023
+▁KHỎE 1024
+▁XỜ 1025
+▁NHỜ 1026
+▁PHẠT 1027
+▁BẠC 1028
+SH 1029
+▁HÔN 1030
+▁TÂN 1031
+▁NEW 1032
+▁HƯƠNG 1033
+BI 1034
+▁VÂNG 1035
+▁HIỂM 1036
+▁QUỜ 1037
+▁LẮM 1038
+VA 1039
+▁QUANG 1040
+▁TAI 1041
+▁BẢNG 1042
+▁HỒNG 1043
+▁ƠN 1044
+▁CÚ 1045
+▁NỖ 1046
+▁MỘ 1047
+▁MỐI 1048
+▁KÍCH 1049
+▁BO 1050
+▁BẦU 1051
+ÁN 1052
+▁BUỘC 1053
+▁NẶNG 1054
+▁COI 1055
+▁MU 1056
+▁NÂNG 1057
+▁BỨC 1058
+▁HẠI 1059
+▁HỌP 1060
+▁DÒNG 1061
+▁UỐNG 1062
+▁SỢ 1063
+▁THÚ 1064
+▁BE 1065
+▁THÍ 1066
+▁JA 1067
+▁MONG 1068
+▁PHIẾU 1069
+Ẻ 1070
+▁SYRIA 1071
+Ờ 1072
+▁MIỀN 1073
+▁MAR 1074
+▁HẠT 1075
+▁GIẤY 1076
+▁THẤT 1077
+ƯƠNG 1078
+▁VẺ 1079
+▁SUẤT 1080
+▁HÚT 1081
+▁KA 1082
+▁KHÁN 1083
+▁NO 1084
+▁SAI 1085
+BO 1086
+▁BÁNH 1087
+▁TRUMP 1088
+Ị 1089
+▁SỚM 1090
+▁CẬP 1091
+NO 1092
+▁MẬT 1093
+▁HẢ 1094
+▁MÀY 1095
+▁KIA 1096
+▁SÂU 1097
+▁CHÁU 1098
+▁YÊN 1099
+IS 1100
+▁TÍN 1101
+▁KHỔ 1102
+KA 1103
+▁XUYÊN 1104
+▁THIỆT 1105
+▁THỤ 1106
+▁THE 1107
+▁BỔ 1108
+▁TỐC 1109
+▁MỜI 1110
+▁VA 1111
+▁TRẮNG 1112
+▁CLIP 1113
+▁CHỜ 1114
+▁GIÀNH 1115
+0 1116
+▁TE 1117
+DO 1118
+▁CHÁY 1119
+▁ĐỎ 1120
+▁SONG 1121
+▁ỔN 1122
+▁HE 1123
+KE 1124
+ING 1125
+▁THỔ 1126
+▁CẢI 1127
+▁THẬM 1128
+▁PHỔ 1129
+▁TRÌ 1130
+▁THUẾ 1131
+▁NHU 1132
+FF 1133
+▁MÔN 1134
+▁NHIỄM 1135
+UL 1136
+▁THẤP 1137
+▁XANH 1138
+RY 1139
+▁PHÙ 1140
+AD 1141
+▁LƯƠNG 1142
+▁TẠM 1143
+▁ĐAU 1144
+▁MẮC 1145
+1 1146
+▁HẠNG 1147
+▁LY 1148
+▁NHÁ 1149
+▁SI 1150
+Q 1151
+YA 1152
+▁MAY 1153
+▁GIANG 1154
+KO 1155
+▁CHÀO 1156
+▁KIỂU 1157
+▁NGHIÊM 1158
+ENT 1159
+▁THƠ 1160
+▁MÀN 1161
+▁GAM 1162
+▁PHƯỜNG 1163
+▁MAN 1164
+▁TIM 1165
+▁THƯỞNG 1166
+▁CHỤP 1167
+▁SUY 1168
+▁NGHỈ 1169
+▁DỤ 1170
+▁DẤU 1171
+▁CẦM 1172
+▁VÀI 1173
+ED 1174
+▁ME 1175
+▁SÔNG 1176
+▁DƯ 1177
+▁CHIẾM 1178
+▁THẲNG 1179
+Ĩ 1180
+▁KÍ 1181
+▁CAM 1182
+▁TIỆN 1183
+▁DE 1184
+▁XẾP 1185
+▁TẦNG 1186
+▁HƠI 1187
+▁NỐI 1188
+▁ĐÀM 1189
+▁LÍT 1190
+▁CÁNH 1191
+▁QUANH 1192
+▁LỖI 1193
+RU 1194
+▁QUEN 1195
+▁LƯỢT 1196
+ARD 1197
+2 1198
+▁RÚT 1199
+▁THỎA 1200
+▁THAO 1201
+▁TRẢI 1202
+▁ĐỌC 1203
+MO 1204
+▁SẴN 1205
+▁NGỦ 1206
+▁MÁU 1207
+▁THẺ 1208
+▁LÁI 1209
+▁NÓNG 1210
+▁BINH 1211
+▁LOẠT 1212
+▁KHÓA 1213
+SHI 1214
+▁LÂM 1215
+▁ƯỚC 1216
+▁NHIỆT 1217
+▁THƯỢNG 1218
+▁ĐỔ 1219
+▁FACEBOOK 1220
+▁PE 1221
+Ẽ 1222
+▁ÁNH 1223
+▁SẮP 1224
+▁QUẦN 1225
+▁CHÚT 1226
+▁TẦM 1227
+PA 1228
+▁NUÔI 1229
+▁TRUY 1230
+▁HÙNG 1231
+▁PHÊ 1232
+▁NGHỀ 1233
+▁WE 1234
+▁LẼ 1235
+▁PO 1236
+▁GAME 1237
+▁HẠNH 1238
+WA 1239
+> 1240
+▁ĐÁP 1241
+▁CẬN 1242
+PE 1243
+BER 1244
+▁KHẮC 1245
+▁ĐỪNG 1246
+▁TỤ 1247
+▁HỜ 1248
+▁CÁN 1249
+▁BIỆN 1250
+ƯỚC 1251
+▁TIỂU 1252
+▁ĐỨA 1253
+▁ĐEN 1254
+▁TẾT 1255
+▁LỆNH 1256
+▁LỰA 1257
+▁SUỐT 1258
+▁ỦNG 1259
+▁CHỨA 1260
+▁BÀY 1261
+▁THÙ 1262
+▁CẮT 1263
+▁KẺ 1264
+▁GIÀ 1265
+Ễ 1266
+▁TRƯƠNG 1267
+▁NIỆM 1268
+PH 1269
+▁CHẮN 1270
+ONE 1271
+▁NHẤN 1272
+▁HẮT 1273
+▁TUẤN 1274
+▁BÁ 1275
+▁VE 1276
+▁SÓNG 1277
+▁NỔ 1278
+▁ĐỘT 1279
+▁ĐƯƠNG 1280
+▁GIÁC 1281
+INE 1282
+▁THỪA 1283
+▁CUP 1284
+▁CHĂM 1285
+▁VONG 1286
+▁KÊU 1287
+VN 1288
+▁ƯU 1289
+▁TAO 1290
+▁TẢ 1291
+▁TRÁNH 1292
+▁TÚ 1293
+▁SÚNG 1294
+▁NHẸ 1295
+▁THÔN 1296
+▁TÁI 1297
+▁XUNG 1298
+▁NỢ 1299
+▁RE 1300
+▁PHÁN 1301
+▁HÉC 1302
+▁KHÁM 1303
+BE 1304
+▁CHỮ 1305
+SON 1306
+▁SỨ 1307
+▁DẠNG 1308
+▁INTERNET 1309
+▁CỰU 1310
+▁DƯỠNG 1311
+▁VINH 1312
+▁IRAN 1313
+TON 1314
+▁IS 1315
+▁CÂN 1316
+▁HỌA 1317
+UNK 1318
+▁RƠI 1319
+▁PHA 1320
+▁CHỮA 1321
+▁ĐỊCH 1322
+▁LỤC 1323
+▁QUÊ 1324
+▁THỊT 1325
+▁MƯA 1326
+▁TẶNG 1327
+▁CŨ 1328
+▁LƯỢC 1329
+▁TUYỆT 1330
+▁PHAN 1331
+▁CUỐN 1332
+MAN 1333
+▁NGẠI 1334
+▁DỪNG 1335
+▁DŨNG 1336
+▁BẮN 1337
+▁RI 1338
+▁THIỆU 1339
+▁KHÁNH 1340
+▁NẴNG 1341
+▁KÍNH 1342
+▁NGĂN 1343
+▁TẠ 1344
+▁CHÓNG 1345
+▁CHỈNH 1346
+▁TỘC 1347
+▁KHOÁN 1348
+▁DÂY 1349
+▁DỮ 1350
+▁ƯƠNG 1351
+▁DÕI 1352
+GO 1353
+▁ĐÁM 1354
+▁VÉ 1355
+▁CHẶN 1356
+▁TÚY 1357
+▁CHỢ 1358
+▁KHÚC 1359
+▁NE 1360
+▁TẠP 1361
+▁GIẢN 1362
+▁KE 1363
+▁BẠI 1364
+▁NHẮC 1365
+▁SÀNG 1366
+▁XỨ 1367
+Ể 1368
+▁CHỞ 1369
+▁UKRAINE 1370
+▁XU 1371
+▁MỪNG 1372
+▁TÔN 1373
+▁HẤP 1374
+▁DẦN 1375
+▁TẬN 1376
+▁JU 1377
+▁KHẢO 1378
+▁BĂNG 1379
+▁TỆ 1380
+▁SỸ 1381
+▁KHÔ 1382
+▁GO 1383
+▁JE 1384
+▁NGÔN 1385
+▁NHẮN 1386
+▁PHẬN 1387
+▁BẬT 1388
+▁DỊP 1389
+▁GẮNG 1390
+▁FAN 1391
+▁YẾN 1392
+▁TẮC 1393
+▁RỜI 1394
+▁GẮN 1395
+▁MỎ 1396
+▁THUÊ 1397
+Đ 1398
+▁VƯƠNG 1399
+▁CẶP 1400
+▁BUỒN 1401
+▁XẤU 1402
+▁ĐỢI 1403
+▁WA 1404
+▁Q 1405
+▁QUÊN 1406
+Ừ 1407
+▁TRẤN 1408
+▁NÈ 1409
+▁SÀI 1410
+▁CẤM 1411
+▁NÚI 1412
+▁NGẮN 1413
+LAND 1414
+▁THẨM 1415
+▁CƯỜI 1416
+▁GIÀU 1417
+▁BEN 1418
+▁GỐC 1419
+▁TỒN 1420
+▁SUNG 1421
+▁SÓC 1422
+▁RÀNG 1423
+▁PHẬT 1424
+▁THÁC 1425
+▁BÓ 1426
+▁NGƯỢC 1427
+▁THOÁT 1428
+ZA 1429
+▁SỬA 1430
+BANK 1431
+▁NGON 1432
+▁ĐOÁN 1433
+VER 1434
+▁PHE 1435
+▁FA 1436
+▁Ừ 1437
+▁NIỀM 1438
+▁LIỀN 1439
+▁VAY 1440
+▁RỪNG 1441
+▁IPHONE 1442
+▁ĐÍCH 1443
+▁VÂN 1444
+FI 1445
+LLA 1446
+SK 1447
+▁QUỸ 1448
+▁DẠY 1449
+▁KÊNH 1450
+▁HẦU 1451
+Ằ 1452
+▁LẠNH 1453
+▁GE 1454
+▁NHIÊU 1455
+▁GÒN 1456
+▁THUA 1457
+▁MALAYSIA 1458
+FA 1459
+▁CHẶT 1460
+▁HẸN 1461
+▁GÀ 1462
+▁NGÃ 1463
+▁CHÀNG 1464
+▁TÓC 1465
+▁XÔ 1466
+▁HƯNG 1467
+▁VIETNAM 1468
+▁ĐEM 1469
+▁HỦY 1470
+▁TẤM 1471
+▁TRỐN 1472
+▁KÉM 1473
+▁MON 1474
+▁CƯỚI 1475
+▁ĐỈNH 1476
+▁NẮM 1477
+▁VÕ 1478
+▁INDONESIA 1479
+▁BÁT 1480
+▁Ơ 1481
+▁NỬA 1482
+▁KỊP 1483
+▁BÈ 1484
+▁BÃO 1485
+▁BOM 1486
+▁CHỤC 1487
+▁PHILIPPINES 1488
+DER 1489
+▁ĐỢT 1490
+▁ONLINE 1491
+▁THUYẾT 1492
+▁NHÉ 1493
+Õ 1494
+▁NÔ 1495
+▁XĂNG 1496
+▁CĂNG 1497
+▁SỮA 1498
+▁VĨNH 1499
+▁NGHÈO 1500
+▁GIÓ 1501
+▁VIRUS 1502
+▁LÃI 1503
+▁ASEAN 1504
+▁ĐỠ 1505
+▁BUÔN 1506
+▁VỮNG 1507
+▁PARK 1508
+▁LẮNG 1509
+▁BỮA 1510
+▁THƯA 1511
+▁SẠCH 1512
+▁MÁI 1513
+▁WORLD 1514
+▁CHE 1515
+▁HÂM 1516
+▁QUÀ 1517
+▁HÈ 1518
+▁KHUYẾN 1519
+▁EURO 1520
+▁GIẾT 1521
+▁KÊ 1522
+▁SÀN 1523
+▁NGƯ 1524
+▁LIỆT 1525
+▁KHA 1526
+▁MIỄN 1527
+▁KIÊN 1528
+▁KHIỂN 1529
+▁TRỒNG 1530
+▁GƯƠNG 1531
+▁NGỪNG 1532
+▁THĂNG 1533
+▁CHIẾU 1534
+▁TÚI 1535
+▁KHẮP 1536
+▁MẼ 1537
+▁MƠ 1538
+▁TRƯNG 1539
+▁TĨNH 1540
+▁CƯỚP 1541
+▁REUTERS 1542
+▁KỊCH 1543
+▁CẤU 1544
+▁DÀNG 1545
+▁NÀNG 1546
+▁THAI 1547
+▁KÌ 1548
+▁ĐỖ 1549
+▁THÁCH 1550
+▁HỀ 1551
+▁SINGAPORE 1552
+3 1553
+▁APPLE 1554
+▁GÓC 1555
+▁NGỤ 1556
+▁GÓI 1557
+▁CHÓ 1558
+▁DẬY 1559
+LD 1560
+▁DỊ 1561
+▁NÊU 1562
+▁CHẤN 1563
+▁NGUYỆN 1564
+▁LŨ 1565
+▁CHẠM 1566
+▁ĐÒI 1567
+▁LEAGUE 1568
+▁DỌA 1569
+▁GẤP 1570
+▁DÁNG 1571
+▁KHUÔN 1572
+▁GIỌNG 1573
+▁ĐIỂN 1574
+▁MỀM 1575
+▁MẠCH 1576
+▁Ư 1577
+▁SẠN 1578
+▁LƯỚI 1579
+IÊN 1580
+▁RƯỢU 1581
+▁ĐUA 1582
+▁CAMERA 1583
+▁ĐÈN 1584
+▁HOẢNG 1585
+▁ĐẠN 1586
+▁LOÀI 1587
+▁CAMPUCHIA 1588
+▁TRÙNG 1589
+▁MẮN 1590
+▁THẬP 1591
+▁HƯ 1592
+▁XẾ 1593
+▁LỒ 1594
+▁AUSTRALIA 1595
+▁SẮT 1596
+▁NHĨ 1597
+▁PHƯỚC 1598
+▁NGOÁI 1599
+▁BÃI 1600
+▁NGỮ 1601
+▁TÍ 1602
+▁ĐUỔI 1603
+▁< 1604
+▁NGẠC 1605
+▁TƯƠI 1606
+▁FOR 1607
+▁LẪN 1608
+▁REAL 1609
+▁ẨN 1610
+▁THẰNG 1611
+▁TIÊM 1612
+▁DONALD 1613
+▁KHẨN 1614
+▁BẠO 1615
+▁XƯA 1616
+▁LỐI 1617
+▁ISRAEL 1618
+▁TRỘM 1619
+▁GỠ 1620
+▁DUYÊN 1621
+▁GHẾ 1622
+Ử 1623
+▁MẠC 1624
+5 1625
+Ý 1626
+Ỷ 1627
+4 1628
+: 1629
+9 1630
+Ỵ 1631
+7 1632
+8 1633
+6 1634
+Ữ 1635
+Ỳ 1636
+Ẳ 1637
+, 1638
+_ 1639
+Ỹ 1640
+Ẵ 1641
+@ 1642
+% 1643
+' 1644
+& 1645
+$ 1646
+ˈ 1647
+° 1648
+Ə 1649
+Ɪ 1650
+< 1651
+า 1652
+" 1653
+= 1654
+Ë 1655
+Ā 1656
+น 1657
+Ö 1658
+Æ 1659
+! 1660
+Ï 1661
+А 1662
+ม 1663
+Е 1664
+่ 1665
+้ 1666
+– 1667
+ร 1668
+Н 1669
++ 1670
+ː 1671
+Ü 1672
+И 1673
+ย 1674
+Î 1675
+ั 1676
+ิ 1677
+ง 1678
+ต 1679
+Ʃ 1680
+ก 1681
+К 1682
+Л 1683
+Ɡ 1684
+Ī 1685
+Ɔ 1686
+Р 1687
+เ 1688
+อ 1689
+ห 1690
+О 1691
+จ 1692
+В 1693
+ี 1694
+С 1695
+ว 1696
+บ 1697
+Ō 1698
+Ő 1699
+Θ 1700
+ด 1701
+Š 1702
+Ä 1703
+Ʌ 1704
+Т 1705
+М 1706
+ไ 1707
+Ŋ 1708
+ɘ 1709
+Α 1710
+Β 1711
+ท 1712
+Ɑ 1713
+\ 1714
+` 1715
+Č 1716
+Д 1717
+ค 1718
+* 1719
+× 1720
+Ø 1721
+ɚ 1722
+ล 1723
+Я 1724
+ا 1725
+ะ 1726
+ل 1727
+ي 1728
+Й 1729
+У 1730
+ป 1731
+์ 1732
+Г 1733
+Ǐ 1734
+ˌ 1735
+− 1736
+พ 1737
+ข 1738
+ฟ 1739
+Ɦ 1740
+ุ 1741
+ส 1742
+Б 1743
+ن 1744
+; 1745
+} 1746
+Û 1747
+Ɒ 1748
+Ɜ 1749
+ช 1750
+| 1751
+ 1752
+Ě 1753
+Ǒ 1754
+َ 1755
+ب 1756
+所 1757
+ه 1758
+Μ 1759
+Ч 1760
+ر 1761
+ธ 1762
+🎵 1763
+П 1764
+ہ 1765
+ภ 1766
+و 1767
+Ş 1768
+你 1769
+的 1770
+Ğ 1771
+Ό 1772
+Π 1773
+Ω 1774
+Ь 1775
+ถ 1776
+ผ 1777
+ึ 1778
+没 1779
+超 1780
+還 1781
+́ 1782
+โ 1783
+ณ 1784
+Ი 1785
+З 1786
+ت 1787
+ـ 1788
+Ū 1789
+ฮ 1790
+有 1791
+« 1792
+± 1793
+» 1794
+Å 1795
+Ƙ 1796
+Ǔ 1797
+ɝ 1798
+ɳ 1799
+̀ 1800
+̉ 1801
+̣ 1802
+ج 1803
+س 1804
+م 1805
+ู 1806
+็ 1807
+ី 1808
+Ḅ 1809
+— 1810
+• 1811
+′ 1812
+⃣ 1813
+⊙ 1814
+⋆ 1815
+以 1816
+可 1817
+炒 1818
+秦 1819
+몰 1820
+소 1821
+참 1822
+취 1823
+️ 1824
+💕 1825
+🤣 1826
+Ł 1827
+¿ 1828
+ش 1829
+们 1830
+Ʂ 1831
+不 1832
+国 1833
+美 1834
+轻 1835
+能 1836
+Ვ 1837
+沒 1838
+果 1839
+如 1840
+咱 1841
+務 1842
+任 1843
+♥ 1844
+Ლ 1845
+ฤ 1846
+ک 1847
+Ы 1848
+Ш 1849
+Γ 1850
+̄ 1851
+❤ 1852
+ّ 1853
+ُ 1854
+ع 1855
+Ю 1856
+ɾ 1857
+⌒ 1858
+ษ 1859
+ศ 1860
+Х 1861
+ʤ 1862
+⁄ 1863
+แ 1864
+Λ 1865
+ᄒ 1866
+Ć 1867
+{ 1868
+̬ 1869
+Ʒ 1870
+ื 1871
+Ð 1872
+ใ 1873
+Ǎ 1874
+ํ 1875
+Ñ 1876
+̆ 1877
+Ʊ 1878
+Œ 1879
+̂ 1880
+Ç 1881
+ق 1882
+ً 1883
+Ś 1884
+ʻ 1885
+ز 1886
+丁 1887
+为 1888
+卻 1889
+拍 1890
+腐 1891
+花 1892
+^ 1893
+o 1894
+Þ 1895
+Ň 1896
+Ɗ 1897
+Ƣ 1898
+Ǹ 1899
+ʔ 1900
+ʕ 1901
+Δ 1902
+Ρ 1903
+Ё 1904
+Ѵ 1905
+آ 1906
+ئ 1907
+ث 1908
+ح 1909
+ى 1910
+ْ 1911
+ٰ 1912
+ٹ 1913
+ڡ 1914
+ۉ 1915
+ی 1916
+ے 1917
+ฐ 1918
+ฬ 1919
+๋ 1920
+ភ 1921
+ម 1922
+យ 1923
+រ 1924
+ស 1925
+ឡ 1926
+ា 1927
+្ 1928
+Ქ 1929
+Ṇ 1930
+Ἰ 1931
+Ὶ 1932
+∇ 1933
+≥ 1934
+≦ 1935
+≧ 1936
+♛ 1937
+♡ 1938
+✪ 1939
+❖ 1940
+『 1941
+』 1942
+中 1943
+丹 1944
+丽 1945
+么 1946
+享 1947
+人 1948
+什 1949
+他 1950
+会 1951
+位 1952
+其 1953
+准 1954
+几 1955
+分 1956
+到 1957
+剣 1958
+华 1959
+協 1960
+变 1961
+哪 1962
+單 1963
+备 1964
+外 1965
+失 1966
+察 1967
+對 1968
+小 1969
+幾 1970
+我 1971
+手 1972
+拿 1973
+探 1974
+敗 1975
+方 1976
+普 1977
+朗 1978
+样 1979
+法 1980
+滿 1981
+版 1982
+特 1983
+白 1984
+索 1985
+组 1986
+被 1987
+警 1988
+議 1989
+‪ 1990
+د 1991
+Ṭ 1992
+ฝ 1993
+Ა 1994
+Ე 1995
+Თ 1996
+Რ 1997
+Შ 1998
+Ậ 1999

decode.py ADDED Viewed

	@@ -0,0 +1,121 @@

+# Copyright      2022  Xiaomi Corp.        (authors: Fangjun Kuang)
+#
+# Copied from https://github.com/k2-fsa/sherpa/blob/master/sherpa/bin/conformer_rnnt/decode.py
+#
+# See LICENSE for clarification regarding multiple authors
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import math
+from typing import List
+import torch
+from sherpa import RnntConformerModel, greedy_search, modified_beam_search
+from torch.nn.utils.rnn import pad_sequence
+LOG_EPS = math.log(1e-10)
+@torch.no_grad()
+def run_model_and_do_greedy_search(
+    model: RnntConformerModel,
+    features: List[torch.Tensor],
+) -> List[List[int]]:
+    """Run RNN-T model with the given features and use greedy search
+    to decode the output of the model.
+    Args:
+      model:
+        The RNN-T model.
+      features:
+        A list of 2-D tensors. Each entry is of shape
+        (num_frames, feature_dim).
+    Returns:
+      Return a list-of-list containing the decoding token IDs.
+    """
+    features_length = torch.tensor(
+        [f.size(0) for f in features],
+        dtype=torch.int64,
+    )
+    features = pad_sequence(
+        features,
+        batch_first=True,
+        padding_value=LOG_EPS,
+    )
+    device = model.device
+    features = features.to(device)
+    features_length = features_length.to(device)
+    encoder_out, encoder_out_length = model.encoder(
+        features=features,
+        features_length=features_length,
+    )
+    hyp_tokens = greedy_search(
+        model=model,
+        encoder_out=encoder_out,
+        encoder_out_length=encoder_out_length.cpu(),
+    )
+    return hyp_tokens
+@torch.no_grad()
+def run_model_and_do_modified_beam_search(
+    model: RnntConformerModel,
+    features: List[torch.Tensor],
+    num_active_paths: int,
+) -> List[List[int]]:
+    """Run RNN-T model with the given features and use greedy search
+    to decode the output of the model.
+    Args:
+      model:
+        The RNN-T model.
+      features:
+        A list of 2-D tensors. Each entry is of shape
+        (num_frames, feature_dim).
+      num_active_paths:
+        Used only when decoding_method is modified_beam_search.
+        It specifies number of active paths for each utterance. Due to
+        merging paths with identical token sequences, the actual number
+        may be less than "num_active_paths".
+    Returns:
+      Return a list-of-list containing the decoding token IDs.
+    """
+    features_length = torch.tensor(
+        [f.size(0) for f in features],
+        dtype=torch.int64,
+    )
+    features = pad_sequence(
+        features,
+        batch_first=True,
+        padding_value=LOG_EPS,
+    )
+    device = model.device
+    features = features.to(device)
+    features_length = features_length.to(device)
+    encoder_out, encoder_out_length = model.encoder(
+        features=features,
+        features_length=features_length,
+    )
+    hyp_tokens = modified_beam_search(
+        model=model,
+        encoder_out=encoder_out,
+        encoder_out_length=encoder_out_length.cpu(),
+        num_active_paths=num_active_paths,
+    )
+    return hyp_tokens

decoder-epoch-20-avg-10.int8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b491630c33e76146b7296ab68cee5ae3a8d572732d36a552ee231d4419e06d32
+size 1308690

decoder-epoch-20-avg-10.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf2aa385b82c9d5d40cd29c3188af52d0249b3b78f0d4b7eb84ad502d50c7e7f
+size 5165084

encoder-epoch-20-avg-10.int8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ef5286dd427eb108055c2ddc1982aa31e544706072d5ea228729292dacade68
+size 27699063

encoder-epoch-20-avg-10.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0daa9842a1f39d146e57d6e951edc8910ddd234cbb00e9b5015a5280a5ba221
+size 92184132

examples.py ADDED Viewed

	@@ -0,0 +1,544 @@

+#!/usr/bin/env python3
+#
+# Copyright      2022  Xiaomi Corp.        (authors: Fangjun Kuang)
+#
+# See LICENSE for clarification regarding multiple authors
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+examples = [
+    [
+        "Chinese+English",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/tal_csasr/0.wav",
+    ],
+    [
+        "Chinese+English+Cantonese",
+        "csukuangfj/sherpa-onnx-paraformer-trilingual-zh-cantonese-en",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/cantonese/2.wav",
+    ],
+    [
+        "Chinese+English+Cantonese+Japanese+Korean",
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/sense_voice/yue.wav",
+    ],
+    [
+        "Cantonese",
+        "zrjin/icefall-asr-mdcc-zipformer-2024-03-11",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/cantonese/1.wav",
+    ],
+    [
+        "English",
+        "whisper-base.en",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/librispeech/1089-134686-0001.wav",
+    ],
+    [
+        "Chinese",
+        "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09",
+        "greedy_search",
+        4,
+        "Yes",
+        "./test_wavs/paraformer-zh/四川话.wav",
+    ],
+    [
+        "Japanese",
+        "reazon-research/reazonspeech-k2-v2",
+        "greedy_search",
+        4,
+        "No",
+        "./test_wavs/japanese/1.wav",
+    ],
+    [
+        "Korean",
+        "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24",
+        "greedy_search",
+        4,
+        "No",
+        "./test_wavs/korean/0.wav",
+    ],
+    [
+        "Russian",
+        "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-russian-2024-10-24",
+        "greedy_search",
+        4,
+        "No",
+        "./test_wavs/russian/russian-i-love-you.wav",
+    ],
+    [
+        "Thai",
+        "yfyeung/icefall-asr-gigaspeech2-th-zipformer-2024-06-20",
+        "greedy_search",
+        4,
+        "No",
+        "./test_wavs/thai/0.wav",
+    ],
+    #  [
+    #      "Russian",
+    #      "alphacep/vosk-model-ru",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/russian/test.wav",
+    #  ],
+    #  [
+    #      "German",
+    #      "csukuangfj/wav2vec2.0-torchaudio",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/german/20170517-0900-PLENARY-16-de_20170517.wav",
+    #  ],
+    #  [
+    #      "Arabic",
+    #      "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/arabic/a.wav",
+    #  ],
+    #  [
+    #      "Tibetan",
+    #      "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/tibetan/a_0_cacm-A70_31117.wav",
+    #  ],
+    #  [
+    #      "French",
+    #      "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/french/common_voice_fr_19364697.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/alimeeting/R8003_M8001-8004-165.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/paraformer-zh/天津话.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/paraformer-zh/郑州话.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/alimeeting/R8008_M8013-8049-74.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/alimeeting/R8009_M8020_N_SPK8026-8026-209.wav",
+    #  ],
+    #  [
+    #      "English",
+    #      "videodanchik/icefall-asr-tedlium3-conformer-ctc2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/tedlium3/DanBarber_2010-219.wav",
+    #  ],
+    #  [
+    #      "English",
+    #      "whisper-base.en",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/tedlium3/DanielKahneman_2010-157.wav",
+    #  ],
+    #  [
+    #      "English",
+    #      "videodanchik/icefall-asr-tedlium3-conformer-ctc2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/tedlium3/RobertGupta_2010U-15.wav",
+    #  ],
+    #  # librispeech
+    #  # https://huggingface.co/csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless5-2022-05-13/tree/main/test_wavs
+    #  [
+    #      "English",
+    #      "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/librispeech/1089-134686-0001.wav",
+    #  ],
+    #  [
+    #      "English",
+    #      "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/librispeech/1221-135766-0001.wav",
+    #  ],
+    #  [
+    #      "English",
+    #      "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/librispeech/1221-135766-0002.wav",
+    #  ],
+    #  # gigaspeech
+    #  [
+    #      "English",
+    #      "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/gigaspeech/1-minute-audiobook.opus",
+    #  ],
+    #  [
+    #      "English",
+    #      "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/gigaspeech/100-seconds-podcast.opus",
+    #  ],
+    #  [
+    #      "English",
+    #      "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/gigaspeech/100-seconds-youtube.opus",
+    #  ],
+    #  # wenetspeech
+    #  # https://huggingface.co/luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2/tree/main/test_wavs
+    #  [
+    #      "Chinese",
+    #      "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/wenetspeech/DEV_T0000000000.opus",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/wenetspeech/DEV_T0000000001.opus",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/wenetspeech/DEV_T0000000002.opus",
+    #  ],
+    #  # aishell2-A
+    #  # https://huggingface.co/yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12/tree/main/test_wavs
+    #  [
+    #      "Chinese",
+    #      "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aishell2/ID0012W0030.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aishell2/ID0012W0162.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aishell2/ID0012W0215.wav",
+    #  ],
+    #  # aishell2-B
+    #  # https://huggingface.co/yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12/tree/main/test_wavs
+    #  [
+    #      "Chinese",
+    #      "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aishell2/ID0012W0030.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aishell2/ID0012W0162.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aishell2/ID0012W0215.wav",
+    #  ],
+    #  # aishell2-B
+    #  # https://huggingface.co/luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2/tree/main/test_wavs
+    #  [
+    #      "Chinese",
+    #      "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aidatatang_200zh/T0055G0036S0002.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aidatatang_200zh/T0055G0036S0003.wav",
+    #  ],
+    #  [
+    #      "Chinese",
+    #      "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/aidatatang_200zh/T0055G0036S0004.wav",
+    #  ],
+    #  # tal_csasr
+    #  [
+    #      "Chinese+English",
+    #      "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/tal_csasr/210_36476_210_8341_1_1533271973_7057520_132.wav",
+    #  ],
+    #  [
+    #      "Chinese+English",
+    #      "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/tal_csasr/210_36476_210_8341_1_1533271973_7057520_138.wav",
+    #  ],
+    #  [
+    #      "Chinese+English",
+    #      "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/tal_csasr/210_36476_210_8341_1_1533271973_7057520_145.wav",
+    #  ],
+    #  [
+    #      "Tibetan",
+    #      "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/tibetan/a_0_cacm-A70_31116.wav",
+    #  ],
+    #  [
+    #      "Tibetan",
+    #      "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/tibetan/a_0_cacm-A70_31118.wav",
+    #  ],
+    #  # arabic
+    #  [
+    #      "Arabic",
+    #      "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/arabic/b.wav",
+    #  ],
+    #  [
+    #      "Arabic",
+    #      "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/arabic/c.wav",
+    #  ],
+    #  [
+    #      "German",
+    #      "csukuangfj/wav2vec2.0-torchaudio",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/german/20120315-0900-PLENARY-14-de_20120315.wav",
+    #  ],
+    #  [
+    #      "French",
+    #      "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/french/common_voice_fr_19738183.wav",
+    #  ],
+    #  [
+    #      "French",
+    #      "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/french/common_voice_fr_27024649.wav",
+    #  ],
+    #  [
+    #      "Korean",
+    #      "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/korean/1.wav",
+    #  ],
+    #  [
+    #      "Korean",
+    #      "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/korean/2.wav",
+    #  ],
+    #  [
+    #      "Korean",
+    #      "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/korean/3.wav",
+    #  ],
+    #  [
+    #      "Thai",
+    #      "yfyeung/icefall-asr-gigaspeech2-th-zipformer-2024-06-20",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/thai/1.wav",
+    #  ],
+    #  [
+    #      "Thai",
+    #      "yfyeung/icefall-asr-gigaspeech2-th-zipformer-2024-06-20",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/thai/2.wav",
+    #  ],
+    #  [
+    #      "Chinese+English+Cantonese+Japanese+Korean",
+    #      "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/sense_voice/zh.wav",
+    #  ],
+    #  [
+    #      "Chinese+English+Cantonese+Japanese+Korean",
+    #      "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/sense_voice/en.wav",
+    #  ],
+    #  [
+    #      "Chinese+English+Cantonese+Japanese+Korean",
+    #      "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/sense_voice/ja.wav",
+    #  ],
+    #  [
+    #      "Chinese+English+Cantonese+Japanese+Korean",
+    #      "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+    #      "greedy_search",
+    #      4,
+    #      "Yes",
+    #      "./test_wavs/sense_voice/ko.wav",
+    #  ],
+    #  [
+    #      "Japanese",
+    #      "reazon-research/reazonspeech-k2-v2",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/japanese/2.wav",
+    #  ],
+    #  [
+    #      "Japanese",
+    #      "reazon-research/reazonspeech-k2-v2",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/japanese/3.wav",
+    #  ],
+    #  [
+    #      "Japanese",
+    #      "reazon-research/reazonspeech-k2-v2",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/japanese/4.wav",
+    #  ],
+    #  [
+    #      "Japanese",
+    #      "reazon-research/reazonspeech-k2-v2",
+    #      "greedy_search",
+    #      4,
+    #      "No",
+    #      "./test_wavs/japanese/5.wav",
+    #  ],
+]

joiner-epoch-20-avg-10.int8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7311d2e17b810ecea515d79c71cc4668af8759256a06fa01d27047772320c821
+size 1033417

joiner-epoch-20-avg-10.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d861afe55f7ff43c90069cad0a5d07261a408be5c7fd2aac8c84b1f3225da021
+size 4104465

model.py ADDED Viewed

	@@ -0,0 +1,2199 @@

+# Copyright      2022  Xiaomi Corp.        (authors: Fangjun Kuang)
+#
+# See LICENSE for clarification regarding multiple authors
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import os
+from functools import lru_cache
+from typing import Union
+import torch
+import torchaudio
+from huggingface_hub import hf_hub_download
+os.system("find / -name libk2*.so 2>/dev/null")
+os.system(
+    "cp -v /usr/local/lib/python3.10/site-packages/k2/lib/*.so //usr/local/lib/python3.10/site-packages/sherpa/lib/"
+)
+os.system(
+    "cp -v /home/user/.local/lib/python3.10/site-packages/k2/lib/*.so /home/user/.local/lib/python3.10/site-packages/sherpa/lib/"
+)
+import k2  # noqa
+import sherpa
+import sherpa_onnx
+import numpy as np
+from typing import Tuple
+import wave
+sample_rate = 16000
+def read_wave(wave_filename: str) -> Tuple[np.ndarray, int]:
+    """
+    Args:
+      wave_filename:
+        Path to a wave file. It should be single channel and each sample should
+        be 16-bit. Its sample rate does not need to be 16kHz.
+    Returns:
+      Return a tuple containing:
+       - A 1-D array of dtype np.float32 containing the samples, which are
+       normalized to the range [-1, 1].
+       - sample rate of the wave file
+    """
+    with wave.open(wave_filename) as f:
+        assert f.getnchannels() == 1, f.getnchannels()
+        assert f.getsampwidth() == 2, f.getsampwidth()  # it is in bytes
+        num_samples = f.getnframes()
+        samples = f.readframes(num_samples)
+        samples_int16 = np.frombuffer(samples, dtype=np.int16)
+        samples_float32 = samples_int16.astype(np.float32)
+        samples_float32 = samples_float32 / 32768
+        return samples_float32, f.getframerate()
+def decode_offline_recognizer(
+    recognizer: sherpa.OfflineRecognizer,
+    filename: str,
+) -> str:
+    s = recognizer.create_stream()
+    s.accept_wave_file(filename)
+    recognizer.decode_stream(s)
+    text = s.result.text.strip()
+    #  return text.lower()
+    return text
+def decode_online_recognizer(
+    recognizer: sherpa.OnlineRecognizer,
+    filename: str,
+) -> str:
+    samples, actual_sample_rate = torchaudio.load(filename)
+    assert sample_rate == actual_sample_rate, (
+        sample_rate,
+        actual_sample_rate,
+    )
+    samples = samples[0].contiguous()
+    s = recognizer.create_stream()
+    tail_padding = torch.zeros(int(sample_rate * 0.3), dtype=torch.float32)
+    s.accept_waveform(sample_rate, samples)
+    s.accept_waveform(sample_rate, tail_padding)
+    s.input_finished()
+    while recognizer.is_ready(s):
+        recognizer.decode_stream(s)
+    text = recognizer.get_result(s).text
+    #  return text.strip().lower()
+    return text.strip()
+def decode_offline_recognizer_sherpa_onnx(
+    recognizer: sherpa_onnx.OfflineRecognizer,
+    filename: str,
+) -> str:
+    s = recognizer.create_stream()
+    samples, sample_rate = read_wave(filename)
+    s.accept_waveform(sample_rate, samples)
+    recognizer.decode_stream(s)
+    #  return s.result.text.lower()
+    return s.result.text
+def decode_online_recognizer_sherpa_onnx(
+    recognizer: sherpa_onnx.OnlineRecognizer,
+    filename: str,
+) -> str:
+    s = recognizer.create_stream()
+    samples, sample_rate = read_wave(filename)
+    s.accept_waveform(sample_rate, samples)
+    tail_paddings = np.zeros(int(0.3 * sample_rate), dtype=np.float32)
+    s.accept_waveform(sample_rate, tail_paddings)
+    s.input_finished()
+    while recognizer.is_ready(s):
+        recognizer.decode_stream(s)
+    #  return recognizer.get_result(s).lower()
+    return recognizer.get_result(s)
+def decode(
+    recognizer: Union[
+        sherpa.OfflineRecognizer,
+        sherpa.OnlineRecognizer,
+        sherpa_onnx.OfflineRecognizer,
+        sherpa_onnx.OnlineRecognizer,
+    ],
+    filename: str,
+) -> str:
+    if isinstance(recognizer, sherpa.OfflineRecognizer):
+        return decode_offline_recognizer(recognizer, filename)
+    elif isinstance(recognizer, sherpa.OnlineRecognizer):
+        return decode_online_recognizer(recognizer, filename)
+    elif isinstance(recognizer, sherpa_onnx.OfflineRecognizer):
+        return decode_offline_recognizer_sherpa_onnx(recognizer, filename)
+    elif isinstance(recognizer, sherpa_onnx.OnlineRecognizer):
+        return decode_online_recognizer_sherpa_onnx(recognizer, filename)
+    else:
+        raise ValueError(f"Unknown recognizer type {type(recognizer)}")
+@lru_cache(maxsize=30)
+def get_pretrained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> Union[sherpa.OfflineRecognizer, sherpa.OnlineRecognizer]:
+    if repo_id in multi_lingual_models:
+        return multi_lingual_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in chinese_models:
+        return chinese_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in chinese_dialect_models:
+        return chinese_dialect_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in english_models:
+        return english_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in chinese_english_mixed_models:
+        return chinese_english_mixed_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in chinese_cantonese_english_models:
+        return chinese_cantonese_english_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in chinese_cantonese_english_japanese_korean_models:
+        return chinese_cantonese_english_japanese_korean_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in cantonese_models:
+        return cantonese_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in tibetan_models:
+        return tibetan_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in arabic_models:
+        return arabic_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in german_models:
+        return german_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in french_models:
+        return french_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in japanese_models:
+        return japanese_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in russian_models:
+        return russian_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in korean_models:
+        return korean_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in thai_models:
+        return thai_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in vietnamese_models:
+        return vietnamese_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    elif repo_id in portuguese_brazlian_models:
+        return portuguese_brazlian_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
+    else:
+        raise ValueError(f"Unsupported repo_id: {repo_id}")
+def _get_nn_model_filename(
+    repo_id: str,
+    filename: str,
+    subfolder: str = "exp",
+) -> str:
+    nn_model_filename = hf_hub_download(
+        repo_id=repo_id,
+        filename=filename,
+        subfolder=subfolder,
+    )
+    return nn_model_filename
+def _get_bpe_model_filename(
+    repo_id: str,
+    filename: str = "bpe.model",
+    subfolder: str = "data/lang_bpe_500",
+) -> str:
+    bpe_model_filename = hf_hub_download(
+        repo_id=repo_id,
+        filename=filename,
+        subfolder=subfolder,
+    )
+    return bpe_model_filename
+def _get_token_filename(
+    repo_id: str,
+    filename: str = "tokens.txt",
+    subfolder: str = "data/lang_char",
+) -> str:
+    token_filename = hf_hub_download(
+        repo_id=repo_id,
+        filename=filename,
+        subfolder=subfolder,
+    )
+    return token_filename
+@lru_cache(maxsize=10)
+def _get_aishell2_pretrained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa.OfflineRecognizer:
+    assert repo_id in [
+        # context-size 1
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12",  # noqa
+        # context-size 2
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12",  # noqa
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="cpu_jit.pt",
+    )
+    tokens = _get_token_filename(repo_id=repo_id)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_offline_pre_trained_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in (
+        "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24",
+        "reazon-research/reazonspeech-k2-v2",
+    ), repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-99-avg-1.int8.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-99-avg-1.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-99-avg-1.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_vietnamese_pretrained_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    # assert repo_id in (
+    #     "csukuangfj/sherpa-onnx-zipformer-vi-int8-2025-04-20",
+    #     "csukuangfj/sherpa-onnx-zipformer-vi-2025-04-20",
+    # ), repo_id
+    # decoder_model = _get_nn_model_filename(
+    #     repo_id=repo_id,
+    #     filename="decoder-epoch-12-avg-8.onnx",
+    #     subfolder=".",
+    # )
+    decoder_model = "decoder-epoch-20-avg-10.onnx"
+    if repo_id == "hynt/sherpa-onnx-zipformer-vi-int8-2025-10-16":
+        # encoder_model = _get_nn_model_filename(
+        #     repo_id=repo_id,
+        #     filename="encoder-epoch-12-avg-8.int8.onnx",
+        #     subfolder=".",
+        # )
+        encoder_model = "encoder-epoch-20-avg-10.int8.onnx"
+        # joiner_model = _get_nn_model_filename(
+        #     repo_id=repo_id,
+        #     filename="joiner-epoch-12-avg-8.int8.onnx",
+        #     subfolder=".",
+        # )
+        joiner_model = "joiner-epoch-20-avg-10.int8.onnx"
+    elif repo_id == "hynt/sherpa-onnx-zipformer-vi-2025-10-16":
+        # encoder_model = _get_nn_model_filename(
+        #     repo_id=repo_id,
+        #     filename="encoder-epoch-12-avg-8.onnx",
+        #     subfolder=".",
+        # )
+        encoder_model = "encoder-epoch-20-avg-10.onnx"
+        # joiner_model = _get_nn_model_filename(
+        #     repo_id=repo_id,
+        #     filename="joiner-epoch-12-avg-8.onnx",
+        #     subfolder=".",
+        # )
+        joiner_model = "joiner-epoch-20-avg-10.onnx"
+    else:
+        raise ValueError(f"repo_id: {repo_id}")
+    # tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    tokens = "config.json"
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_yifan_thai_pretrained_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in (
+        "yfyeung/icefall-asr-gigaspeech2-th-zipformer-2024-06-20",
+    ), repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-12-avg-5.int8.onnx",
+        subfolder="exp",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-12-avg-5.onnx",
+        subfolder="exp",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-12-avg-5.int8.onnx",
+        subfolder="exp",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="data/lang_bpe_2000")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_zrjin_cantonese_pre_trained_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in ("zrjin/icefall-asr-mdcc-zipformer-2024-03-11",), repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-45-avg-35.int8.onnx",
+        subfolder="exp",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-45-avg-35.onnx",
+        subfolder="exp",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-45-avg-35.int8.onnx",
+        subfolder="exp",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="data/lang_char")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_russian_pre_trained_model_ctc(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in (
+        "csukuangfj/sherpa-onnx-nemo-ctc-giga-am-russian-2024-10-24",
+        "csukuangfj/sherpa-onnx-nemo-ctc-giga-am-v2-russian-2025-04-19",
+    ), repo_id
+    model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_nemo_ctc(
+        model=model,
+        tokens=tokens,
+        num_threads=2,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_russian_pre_trained_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in (
+        "alphacep/vosk-model-ru",
+        "alphacep/vosk-model-small-ru",
+        "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-russian-2024-10-24",
+        "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-v2-russian-2025-04-19",
+    ), repo_id
+    if repo_id == "alphacep/vosk-model-ru":
+        model_dir = "am-onnx"
+        encoder = "encoder.onnx"
+        model_type = "transducer"
+    elif repo_id == "alphacep/vosk-model-small-ru":
+        model_dir = "am"
+        encoder = "encoder.onnx"
+        model_type = "transducer"
+    elif repo_id in (
+        "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-russian-2024-10-24",
+        "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-v2-russian-2025-04-19",
+    ):
+        model_dir = "."
+        encoder = "encoder.int8.onnx"
+        model_type = "nemo_transducer"
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=encoder,
+        subfolder=model_dir,
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder.onnx",
+        subfolder=model_dir,
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner.onnx",
+        subfolder=model_dir,
+    )
+    if repo_id in (
+        "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-russian-2024-10-24",
+        "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-v2-russian-2025-04-19",
+    ):
+        tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    else:
+        tokens = _get_token_filename(repo_id=repo_id, subfolder="lang")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        model_type=model_type,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_moonshine_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in ("moonshine-tiny", "moonshine-base"), repo_id
+    if repo_id == "moonshine-tiny":
+        full_repo_id = "csukuangfj/sherpa-onnx-moonshine-tiny-en-int8"
+    elif repo_id == "moonshine-base":
+        full_repo_id = "csukuangfj/sherpa-onnx-moonshine-base-en-int8"
+    else:
+        raise ValueError(f"Unknown repo_id: {repo_id}")
+    preprocessor = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"preprocess.onnx",
+        subfolder=".",
+    )
+    encoder = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"encode.int8.onnx",
+        subfolder=".",
+    )
+    uncached_decoder = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"uncached_decode.int8.onnx",
+        subfolder=".",
+    )
+    cached_decoder = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"cached_decode.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(
+        repo_id=full_repo_id,
+        subfolder=".",
+        filename="tokens.txt",
+    )
+    recognizer = sherpa_onnx.OfflineRecognizer.from_moonshine(
+        preprocessor=preprocessor,
+        encoder=encoder,
+        uncached_decoder=uncached_decoder,
+        cached_decoder=cached_decoder,
+        tokens=tokens,
+        num_threads=2,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_whisper_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    name = repo_id.split("-")[1]
+    assert name in ("tiny.en", "base.en", "small.en", "medium.en"), repo_id
+    full_repo_id = "csukuangfj/sherpa-onnx-whisper-" + name
+    encoder = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"{name}-encoder.int8.onnx",
+        subfolder=".",
+    )
+    decoder = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"{name}-decoder.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(
+        repo_id=full_repo_id, subfolder=".", filename=f"{name}-tokens.txt"
+    )
+    recognizer = sherpa_onnx.OfflineRecognizer.from_whisper(
+        encoder=encoder,
+        decoder=decoder,
+        tokens=tokens,
+        num_threads=2,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_gigaspeech_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa.OfflineRecognizer:
+    # assert repo_id in [
+    #     "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2",
+    # ], repo_id
+    assert repo_id in (
+        "csukuangfj/sherpa-onnx-zipformer-vi-int8-2025-04-20",
+        "csukuangfj/sherpa-onnx-zipformer-vi-2025-04-20",
+    ), repo_id
+    nn_model = "jit_script.pt"
+    tokens = "tokens.txt"
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_english_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa.OfflineRecognizer:
+    assert repo_id in [
+        "WeijiZhuang/icefall-asr-librispeech-pruned-transducer-stateless8-2022-12-02",  # noqa
+        "yfyeung/icefall-asr-multidataset-pruned_transducer_stateless7-2023-05-04",  # noqa
+        "yfyeung/icefall-asr-finetune-mux-pruned_transducer_stateless7-2023-05-19",  # noqa
+        "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13",  # noqa
+        "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless7-2022-11-11",  # noqa
+        "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless8-2022-11-14",  # noqa
+        "Zengwei/icefall-asr-librispeech-zipformer-large-2023-05-16",  # noqa
+        "Zengwei/icefall-asr-librispeech-zipformer-2023-05-15",  # noqa
+        "Zengwei/icefall-asr-librispeech-zipformer-small-2023-05-16",  # noqa
+        "videodanchik/icefall-asr-tedlium3-conformer-ctc2",
+        "pkufool/icefall_asr_librispeech_conformer_ctc",
+        "WayneWiser/icefall-asr-librispeech-conformer-ctc2-jit-bpe-500-2022-07-21",
+    ], repo_id
+    filename = "cpu_jit.pt"
+    if (
+        repo_id
+        == "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless7-2022-11-11"
+    ):
+        filename = "cpu_jit-torch-1.10.0.pt"
+    if (
+        repo_id
+        == "WeijiZhuang/icefall-asr-librispeech-pruned-transducer-stateless8-2022-12-02"
+    ):
+        filename = "cpu_jit-torch-1.10.pt"
+    if (
+        repo_id
+        == "yfyeung/icefall-asr-multidataset-pruned_transducer_stateless7-2023-05-04"
+    ):
+        filename = "cpu_jit-epoch-30-avg-4.pt"
+    if (
+        repo_id
+        == "yfyeung/icefall-asr-finetune-mux-pruned_transducer_stateless7-2023-05-19"
+    ):
+        filename = "cpu_jit-epoch-20-avg-5.pt"
+    if repo_id in (
+        "Zengwei/icefall-asr-librispeech-zipformer-large-2023-05-16",
+        "Zengwei/icefall-asr-librispeech-zipformer-2023-05-15",
+        "Zengwei/icefall-asr-librispeech-zipformer-small-2023-05-16",
+    ):
+        filename = "jit_script.pt"
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=filename,
+    )
+    subfolder = "data/lang_bpe_500"
+    if repo_id in (
+        "videodanchik/icefall-asr-tedlium3-conformer-ctc2",
+        "pkufool/icefall_asr_librispeech_conformer_ctc",
+    ):
+        subfolder = "data/lang_bpe"
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=subfolder)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_wenetspeech_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="cpu_jit_epoch_10_avg_2_torch_1.7.1.pt",
+    )
+    tokens = _get_token_filename(repo_id=repo_id)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=1)
+def _get_fire_red_asr_models(repo_id: str, decoding_method: str, num_active_paths: int):
+    assert repo_id in (
+        "csukuangfj/sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16",
+    ), repo_id
+    encoder = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder.int8.onnx",
+        subfolder=".",
+    )
+    decoder = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="tokens.txt",
+        subfolder=".",
+    )
+    return sherpa_onnx.OfflineRecognizer.from_fire_red_asr(
+        encoder=encoder,
+        decoder=decoder,
+        tokens=tokens,
+        num_threads=2,
+    )
+@lru_cache(maxsize=10)
+def _get_chinese_english_mixed_model_onnx(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "zrjin/icefall-asr-zipformer-multi-zh-en-2023-11-22",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-34-avg-19.int8.onnx",
+        subfolder="exp",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-34-avg-19.onnx",
+        subfolder="exp",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-34-avg-19.int8.onnx",
+        subfolder="exp",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="data/lang_bbpe_2000")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_chinese_english_mixed_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa.OfflineRecognizer:
+    assert repo_id in [
+        "luomingshuang/icefall_asr_tal-csasr_pruned_transducer_stateless5",
+        "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh",
+    ], repo_id
+    if repo_id == "luomingshuang/icefall_asr_tal-csasr_pruned_transducer_stateless5":
+        filename = "cpu_jit.pt"
+        subfolder = "data/lang_char"
+    elif repo_id == "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh":
+        filename = "cpu_jit-epoch-11-avg-1.pt"
+        subfolder = "data/lang_char_bpe"
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=filename,
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=subfolder)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_alimeeting_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
+        "luomingshuang/icefall_asr_alimeeting_pruned_transducer_stateless2",
+    ], repo_id
+    if repo_id == "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7":
+        filename = "cpu_jit.pt"
+    elif repo_id == "luomingshuang/icefall_asr_alimeeting_pruned_transducer_stateless2":
+        filename = "cpu_jit_torch_1.7.1.pt"
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=filename,
+    )
+    tokens = _get_token_filename(repo_id=repo_id)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=4)
+def _get_dolphin_ctc_models(repo_id: str, decoding_method: str, num_active_paths: int):
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-dolphin-base-ctc-multi-lang-int8-2025-04-02",
+        "csukuangfj/sherpa-onnx-dolphin-small-ctc-multi-lang-int8-2025-04-02",
+        "csukuangfj/sherpa-onnx-dolphin-base-ctc-multi-lang-2025-04-02",
+        "csukuangfj/sherpa-onnx-dolphin-small-ctc-multi-lang-2025-04-02",
+    ], repo_id
+    if repo_id in [
+        "csukuangfj/sherpa-onnx-dolphin-base-ctc-multi-lang-int8-2025-04-02",
+        "csukuangfj/sherpa-onnx-dolphin-small-ctc-multi-lang-int8-2025-04-02",
+    ]:
+        use_int8 = True
+    else:
+        use_int8 = False
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx" if use_int8 else "model.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(
+        repo_id=repo_id,
+        filename="tokens.txt",
+        subfolder=".",
+    )
+    recognizer = sherpa_onnx.OfflineRecognizer.from_dolphin_ctc(
+        tokens=tokens,
+        model=nn_model,
+        num_threads=2,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_wenet_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "csukuangfj/wenet-chinese-model",
+        "csukuangfj/wenet-english-model",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="final.zip",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(
+        repo_id=repo_id,
+        filename="units.txt",
+        subfolder=".",
+    )
+    feat_config = sherpa.FeatureConfig(normalize_samples=False)
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_aidatatang_200zh_pretrained_mode(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="cpu_jit_torch.1.7.1.pt",
+    )
+    tokens = _get_token_filename(repo_id=repo_id)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_tibetan_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless5-2022-11-29",
+    ], repo_id
+    filename = "cpu_jit.pt"
+    if (
+        repo_id
+        == "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless5-2022-11-29"
+    ):
+        filename = "cpu_jit-epoch-28-avg-23-torch-1.10.0.pt"
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=filename,
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="data/lang_bpe_500")
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_arabic_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="cpu_jit.pt",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="data/lang_bpe_5000")
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_german_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    assert repo_id in [
+        "csukuangfj/wav2vec2.0-torchaudio",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="voxpopuli_asr_base_10k_de.pt",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(
+        repo_id=repo_id,
+        filename="tokens-de.txt",
+        subfolder=".",
+    )
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model,
+        tokens=tokens,
+        use_gpu=False,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_french_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OnlineRecognizer:
+    assert repo_id in [
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-29-avg-9-with-averaged-model.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-29-avg-9-with-averaged-model.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-29-avg-9-with-averaged-model.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OnlineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_sherpa_onnx_nemo_transducer_models_int8(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-nemo-parakeet-tdt-0.6b-v2-int8",
+        "csukuangfj/sherpa-onnx-nemo-transducer-stt_de_fastconformer_hybrid_large_pc-int8",
+        "csukuangfj/sherpa-onnx-nemo-transducer-stt_pt_fastconformer_hybrid_large_pc-int8",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder.int8.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder.int8.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,  # no used
+        model_type="nemo_transducer",
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_sherpa_onnx_nemo_transducer_models(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-nemo-parakeet_tdt_transducer_110m-en-36000",
+        "csukuangfj/sherpa-onnx-nemo-transducer-stt_de_fastconformer_hybrid_large_pc",
+        "csukuangfj/sherpa-onnx-nemo-transducer-stt_pt_fastconformer_hybrid_large_pc",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        model_type="nemo_transducer",
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_sherpa_onnx_nemo_ctc_models(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-nemo-parakeet_tdt_ctc_110m-en-36000",
+        "csukuangfj/sherpa-onnx-nemo-stt_pt_fastconformer_hybrid_large_pc",
+        "csukuangfj/sherpa-onnx-nemo-stt_pt_fastconformer_hybrid_large_pc-int8",
+        "csukuangfj/sherpa-onnx-nemo-stt_de_fastconformer_hybrid_large_pc",
+        "csukuangfj/sherpa-onnx-nemo-stt_de_fastconformer_hybrid_large_pc-int8",
+    ], repo_id
+    if "int8" in repo_id:
+        model = _get_nn_model_filename(
+            repo_id=repo_id,
+            filename="model.int8.onnx",
+            subfolder=".",
+        )
+    else:
+        model = _get_nn_model_filename(
+            repo_id=repo_id,
+            filename="model.onnx",
+            subfolder=".",
+        )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_nemo_ctc(
+        tokens=tokens,
+        model=model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_sherpa_onnx_offline_zipformer_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-large",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-medium",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-small",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-large-punct-case",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-medium-punct-case",
+        "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-small-punct-case",
+    ], repo_id
+    if repo_id == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-large":
+        epoch = 16
+        avg = 3
+    elif repo_id == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-medium":
+        epoch = 60
+        avg = 20
+    elif repo_id == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-small":
+        epoch = 90
+        avg = 20
+    elif (
+        repo_id
+        == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-large-punct-case"
+    ):
+        epoch = 16
+        avg = 2
+    elif (
+        repo_id
+        == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-medium-punct-case"
+    ):
+        epoch = 50
+        avg = 15
+    elif (
+        repo_id
+        == "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-small-punct-case"
+    ):
+        epoch = 88
+        avg = 41
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"encoder-epoch-{epoch}-avg-{avg}.int8.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"decoder-epoch-{epoch}-avg-{avg}.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"joiner-epoch-{epoch}-avg-{avg}.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_streaming_zipformer_ctc_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OnlineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-int8-2025-06-30",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-2025-06-30",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-fp16-2025-06-30",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-xlarge-int8-2025-06-30",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-xlarge-fp16-2025-06-30",
+    ], repo_id
+    if repo_id in (
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-int8-2025-06-30",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-xlarge-int8-2025-06-30",
+    ):
+        model = _get_nn_model_filename(
+            repo_id=repo_id,
+            filename="model.int8.onnx",
+            subfolder=".",
+        )
+    elif repo_id in (
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-fp16-2025-06-30",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-xlarge-fp16-2025-06-30",
+    ):
+        model = _get_nn_model_filename(
+            repo_id=repo_id,
+            filename="model.fp16.onnx",
+            subfolder=".",
+        )
+    elif repo_id in ("csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-2025-06-30",):
+        model = _get_nn_model_filename(
+            repo_id=repo_id,
+            filename="model.onnx",
+            subfolder=".",
+        )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OnlineRecognizer.from_zipformer2_ctc(
+        tokens=tokens,
+        model=model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_non_streaming_zipformer_ctc_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-zipformer-ctc-zh-int8-2025-07-03",
+        "csukuangfj/sherpa-onnx-zipformer-ctc-zh-2025-07-03",
+        "csukuangfj/sherpa-onnx-zipformer-ctc-small-zh-int8-2025-07-16",
+    ], repo_id
+    if "int8" in repo_id:
+        model = _get_nn_model_filename(
+            repo_id=repo_id,
+            filename="model.int8.onnx",
+            subfolder=".",
+        )
+    else:
+        model = _get_nn_model_filename(
+            repo_id=repo_id,
+            filename="model.onnx",
+            subfolder=".",
+        )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_zipformer_ctc(
+        tokens=tokens,
+        model=model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_streaming_zipformer_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OnlineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20",
+        "k2-fsa/sherpa-onnx-streaming-zipformer-korean-2024-06-16",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-99-avg-1.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-99-avg-1.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-99-avg-1.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OnlineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_japanese_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa.OnlineRecognizer:
+    repo_id, kind = repo_id.rsplit("-", maxsplit=1)
+    assert repo_id in [
+        "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208"
+    ], repo_id
+    assert kind in ("fluent", "disfluent"), kind
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id, filename="encoder_jit_trace.pt", subfolder=f"exp_{kind}"
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id, filename="decoder_jit_trace.pt", subfolder=f"exp_{kind}"
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id, filename="joiner_jit_trace.pt", subfolder=f"exp_{kind}"
+    )
+    tokens = _get_token_filename(repo_id=repo_id)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OnlineRecognizerConfig(
+        nn_model="",
+        encoder_model=encoder_model,
+        decoder_model=decoder_model,
+        joiner_model=joiner_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+        chunk_size=32,
+    )
+    recognizer = sherpa.OnlineRecognizer(config)
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_gigaspeech_pre_trained_model_onnx(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "yfyeung/icefall-asr-gigaspeech-zipformer-2023-10-17",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-30-avg-9.onnx",
+        subfolder="exp",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-30-avg-9.onnx",
+        subfolder="exp",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-30-avg-9.onnx",
+        subfolder="exp",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="data/lang_bpe_500")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_streaming_paraformer_zh_yue_en_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OnlineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder.int8.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OnlineRecognizer.from_paraformer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_paraformer_en_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "yujinqiu/sherpa-onnx-paraformer-en-2023-10-24",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(
+        repo_id=repo_id, filename="new_tokens.txt", subfolder="."
+    )
+    recognizer = sherpa_onnx.OfflineRecognizer.from_paraformer(
+        paraformer=nn_model,
+        tokens=tokens,
+        num_threads=2,
+        sample_rate=sample_rate,
+        feature_dim=80,
+        decoding_method="greedy_search",
+        debug=False,
+    )
+    return recognizer
+@lru_cache(maxsize=5)
+def _get_chinese_dialect_models(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_telespeech_ctc(
+        model=nn_model,
+        tokens=tokens,
+        num_threads=2,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_sense_voice_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_sense_voice(
+        model=nn_model,
+        tokens=tokens,
+        num_threads=2,
+        sample_rate=sample_rate,
+        feature_dim=80,
+        decoding_method="greedy_search",
+        debug=True,
+        use_itn=True,
+    )
+    return recognizer
+@lru_cache(maxsize=10)
+def _get_paraformer_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-paraformer-zh-2023-03-28",
+        "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09",
+        "csukuangfj/sherpa-onnx-paraformer-zh-small-2024-03-09",
+        "csukuangfj/sherpa-onnx-paraformer-trilingual-zh-cantonese-en",
+        "csukuangfj/sherpa-onnx-paraformer-en-2024-03-09",
+    ], repo_id
+    nn_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="model.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_paraformer(
+        paraformer=nn_model,
+        tokens=tokens,
+        num_threads=2,
+        sample_rate=sample_rate,
+        feature_dim=80,
+        decoding_method="greedy_search",
+        debug=False,
+    )
+    return recognizer
+def _get_aishell_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in (
+        "zrjin/icefall-asr-aishell-zipformer-large-2023-10-24",
+        "zrjin/icefall-asr-aishell-zipformer-small-2023-10-24",
+        "zrjin/icefall-asr-aishell-zipformer-2023-10-24",
+    ), repo_id
+    if repo_id == "zrjin/icefall-asr-aishell-zipformer-large-2023-10-24":
+        epoch = 56
+        avg = 23
+    elif repo_id == "zrjin/icefall-asr-aishell-zipformer-small-2023-10-24":
+        epoch = 55
+        avg = 21
+    elif repo_id == "zrjin/icefall-asr-aishell-zipformer-2023-10-24":
+        epoch = 55
+        avg = 17
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"encoder-epoch-{epoch}-avg-{avg}.onnx",
+        subfolder="exp",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"decoder-epoch-{epoch}-avg-{avg}.onnx",
+        subfolder="exp",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename=f"joiner-epoch-{epoch}-avg-{avg}.onnx",
+        subfolder="exp",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="data/lang_char")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+@lru_cache(maxsize=2)
+def get_punct_model() -> sherpa_onnx.OfflinePunctuation:
+    model = _get_nn_model_filename(
+        repo_id="csukuangfj/sherpa-onnx-punct-ct-transformer-zh-en-vocab272727-2024-04-12",
+        filename="model.onnx",
+        subfolder=".",
+    )
+    config = sherpa_onnx.OfflinePunctuationConfig(
+        model=sherpa_onnx.OfflinePunctuationModelConfig(ct_transformer=model),
+    )
+    punct = sherpa_onnx.OfflinePunctuation(config)
+    return punct
+def _get_multi_zh_hans_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in ("zrjin/sherpa-onnx-zipformer-multi-zh-hans-2023-9-2",), repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder-epoch-20-avg-1.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder-epoch-20-avg-1.onnx",
+        subfolder=".",
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner-epoch-20-avg-1.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OfflineRecognizer.from_transducer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
+chinese_dialect_models = {
+    "csukuangfj/sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04": _get_chinese_dialect_models,
+}
+chinese_models = {
+    "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-int8-2025-06-30": _get_streaming_zipformer_ctc_pre_trained_model,
+    "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-2025-06-30": _get_streaming_zipformer_ctc_pre_trained_model,
+    #  "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-fp16-2025-06-30": _get_streaming_zipformer_ctc_pre_trained_model,
+    "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-xlarge-int8-2025-06-30": _get_streaming_zipformer_ctc_pre_trained_model,
+    #  "csukuangfj/sherpa-onnx-streaming-zipformer-ctc-zh-xlarge-fp16-2025-06-30": _get_streaming_zipformer_ctc_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-ctc-zh-int8-2025-07-03": _get_non_streaming_zipformer_ctc_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-ctc-zh-2025-07-03": _get_non_streaming_zipformer_ctc_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-ctc-small-zh-int8-2025-07-16": _get_non_streaming_zipformer_ctc_pre_trained_model,
+    "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09": _get_paraformer_pre_trained_model,
+    "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2": _get_wenetspeech_pre_trained_model,  # noqa
+    "csukuangfj/sherpa-onnx-paraformer-zh-small-2024-03-09": _get_paraformer_pre_trained_model,
+    "zrjin/sherpa-onnx-zipformer-multi-zh-hans-2023-9-2": _get_multi_zh_hans_pre_trained_model,  # noqa
+    "zrjin/icefall-asr-aishell-zipformer-large-2023-10-24": _get_aishell_pre_trained_model,  # noqa
+    "zrjin/icefall-asr-aishell-zipformer-small-2023-10-24": _get_aishell_pre_trained_model,  # noqa
+    "zrjin/icefall-asr-aishell-zipformer-2023-10-24": _get_aishell_pre_trained_model,  # noqa
+    "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7": _get_alimeeting_pre_trained_model,
+    "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12": _get_aishell2_pretrained_model,  # noqa
+    "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12": _get_aishell2_pretrained_model,  # noqa
+    "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2": _get_aidatatang_200zh_pretrained_mode,  # noqa
+    "luomingshuang/icefall_asr_alimeeting_pruned_transducer_stateless2": _get_alimeeting_pre_trained_model,  # noqa
+    "csukuangfj/wenet-chinese-model": _get_wenet_model,
+    #  "csukuangfj/icefall-asr-wenetspeech-lstm-transducer-stateless-2022-10-14": _get_lstm_transducer_model,
+}
+english_models = {
+    "csukuangfj/sherpa-onnx-nemo-parakeet-tdt-0.6b-v2-int8": _get_sherpa_onnx_nemo_transducer_models_int8,
+    "whisper-tiny.en": _get_whisper_model,
+    "moonshine-tiny": _get_moonshine_model,
+    "moonshine-base": _get_moonshine_model,
+    "whisper-base.en": _get_whisper_model,
+    "whisper-small.en": _get_whisper_model,
+    "csukuangfj/sherpa-onnx-nemo-parakeet_tdt_ctc_110m-en-36000": _get_sherpa_onnx_nemo_ctc_models,
+    "csukuangfj/sherpa-onnx-nemo-parakeet_tdt_transducer_110m-en-36000": _get_sherpa_onnx_nemo_transducer_models,
+    #  "whisper-medium.en": _get_whisper_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-large": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-medium": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230926-small": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-large-punct-case": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-medium-punct-case": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-zipformer-en-libriheavy-20230830-small-punct-case": _get_sherpa_onnx_offline_zipformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-paraformer-en-2024-03-09": _get_paraformer_pre_trained_model,
+    "yfyeung/icefall-asr-gigaspeech-zipformer-2023-10-17": _get_gigaspeech_pre_trained_model_onnx,  # noqa
+    "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2": _get_gigaspeech_pre_trained_model,  # noqa
+    "yfyeung/icefall-asr-multidataset-pruned_transducer_stateless7-2023-05-04": _get_english_model,  # noqa
+    "yfyeung/icefall-asr-finetune-mux-pruned_transducer_stateless7-2023-05-19": _get_english_model,  # noqa
+    "WeijiZhuang/icefall-asr-librispeech-pruned-transducer-stateless8-2022-12-02": _get_english_model,  # noqa
+    "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless8-2022-11-14": _get_english_model,  # noqa
+    "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless7-2022-11-11": _get_english_model,  # noqa
+    "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13": _get_english_model,  # noqa
+    "yujinqiu/sherpa-onnx-paraformer-en-2023-10-24": _get_paraformer_en_pre_trained_model,
+    "Zengwei/icefall-asr-librispeech-zipformer-large-2023-05-16": _get_english_model,  # noqa
+    "Zengwei/icefall-asr-librispeech-zipformer-2023-05-15": _get_english_model,  # noqa
+    "Zengwei/icefall-asr-librispeech-zipformer-small-2023-05-16": _get_english_model,  # noqa
+    "videodanchik/icefall-asr-tedlium3-conformer-ctc2": _get_english_model,
+    "pkufool/icefall_asr_librispeech_conformer_ctc": _get_english_model,
+    "WayneWiser/icefall-asr-librispeech-conformer-ctc2-jit-bpe-500-2022-07-21": _get_english_model,
+    "csukuangfj/wenet-english-model": _get_wenet_model,
+}
+multi_lingual_models = {
+    "csukuangfj/sherpa-onnx-dolphin-base-ctc-multi-lang-int8-2025-04-02": _get_dolphin_ctc_models,
+    "csukuangfj/sherpa-onnx-dolphin-small-ctc-multi-lang-int8-2025-04-02": _get_dolphin_ctc_models,
+    "csukuangfj/sherpa-onnx-dolphin-base-ctc-multi-lang-2025-04-02": _get_dolphin_ctc_models,
+    "csukuangfj/sherpa-onnx-dolphin-small-ctc-multi-lang-2025-04-02": _get_dolphin_ctc_models,
+}
+chinese_english_mixed_models = {
+    "csukuangfj/sherpa-onnx-fire-red-asr-large-zh_en-2025-02-16": _get_fire_red_asr_models,
+    "csukuangfj/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20": _get_streaming_zipformer_pre_trained_model,
+    "zrjin/icefall-asr-zipformer-multi-zh-en-2023-11-22": _get_chinese_english_mixed_model_onnx,
+    "csukuangfj/sherpa-onnx-paraformer-zh-2023-03-28": _get_paraformer_pre_trained_model,
+    "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh": _get_chinese_english_mixed_model,
+    "luomingshuang/icefall_asr_tal-csasr_pruned_transducer_stateless5": _get_chinese_english_mixed_model,  # noqa
+}
+tibetan_models = {
+    "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02": _get_tibetan_pre_trained_model,  # noqa
+    "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless5-2022-11-29": _get_tibetan_pre_trained_model,  # noqa
+}
+arabic_models = {
+    "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06": _get_arabic_pre_trained_model,  # noqa
+}
+german_models = {
+    "csukuangfj/sherpa-onnx-nemo-transducer-stt_de_fastconformer_hybrid_large_pc": _get_sherpa_onnx_nemo_transducer_models,
+    "csukuangfj/sherpa-onnx-nemo-transducer-stt_de_fastconformer_hybrid_large_pc-int8": _get_sherpa_onnx_nemo_transducer_models_int8,
+    "csukuangfj/sherpa-onnx-nemo-stt_de_fastconformer_hybrid_large_pc": _get_sherpa_onnx_nemo_ctc_models,
+    "csukuangfj/sherpa-onnx-nemo-stt_de_fastconformer_hybrid_large_pc-int8": _get_sherpa_onnx_nemo_ctc_models,
+    "csukuangfj/wav2vec2.0-torchaudio": _get_german_pre_trained_model,
+}
+french_models = {
+    "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14": _get_french_pre_trained_model,
+}
+japanese_models = {
+    "reazon-research/reazonspeech-k2-v2": _get_offline_pre_trained_model,
+    #  "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-fluent": _get_japanese_pre_trained_model,
+    #  "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent": _get_japanese_pre_trained_model,
+}
+russian_models = {
+    "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-v2-russian-2025-04-19": _get_russian_pre_trained_model,
+    "csukuangfj/sherpa-onnx-nemo-ctc-giga-am-v2-russian-2025-04-19": _get_russian_pre_trained_model_ctc,
+    "csukuangfj/sherpa-onnx-nemo-transducer-giga-am-russian-2024-10-24": _get_russian_pre_trained_model,
+    "csukuangfj/sherpa-onnx-nemo-ctc-giga-am-russian-2024-10-24": _get_russian_pre_trained_model_ctc,
+    "alphacep/vosk-model-ru": _get_russian_pre_trained_model,
+    "alphacep/vosk-model-small-ru": _get_russian_pre_trained_model,
+}
+chinese_cantonese_english_models = {
+    "csukuangfj/sherpa-onnx-paraformer-trilingual-zh-cantonese-en": _get_paraformer_pre_trained_model,
+    "csukuangfj/sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en": _get_streaming_paraformer_zh_yue_en_pre_trained_model,
+}
+chinese_cantonese_english_japanese_korean_models = {
+    "csukuangfj/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17": _get_sense_voice_pre_trained_model,
+}
+cantonese_models = {
+    "zrjin/icefall-asr-mdcc-zipformer-2024-03-11": _get_zrjin_cantonese_pre_trained_model,
+}
+korean_models = {
+    "k2-fsa/sherpa-onnx-zipformer-korean-2024-06-24": _get_offline_pre_trained_model,
+    "k2-fsa/sherpa-onnx-streaming-zipformer-korean-2024-06-16": _get_streaming_zipformer_pre_trained_model,
+}
+thai_models = {
+    "yfyeung/icefall-asr-gigaspeech2-th-zipformer-2024-06-20": _get_yifan_thai_pretrained_model,
+}
+vietnamese_models = {
+    "hynt/sherpa-onnx-zipformer-vi-int8-2025-10-16": _get_vietnamese_pretrained_model,
+    "hynt/sherpa-onnx-zipformer-vi-2025-10-16": _get_vietnamese_pretrained_model,
+}
+portuguese_brazlian_models = {
+    "csukuangfj/sherpa-onnx-nemo-stt_pt_fastconformer_hybrid_large_pc": _get_sherpa_onnx_nemo_ctc_models,
+    "csukuangfj/sherpa-onnx-nemo-stt_pt_fastconformer_hybrid_large_pc-int8": _get_sherpa_onnx_nemo_ctc_models,
+    "csukuangfj/sherpa-onnx-nemo-transducer-stt_pt_fastconformer_hybrid_large_pc": _get_sherpa_onnx_nemo_transducer_models,
+    "csukuangfj/sherpa-onnx-nemo-transducer-stt_pt_fastconformer_hybrid_large_pc-int8": _get_sherpa_onnx_nemo_transducer_models_int8,
+}
+all_models = {
+    **multi_lingual_models,
+    **chinese_models,
+    **english_models,
+    **chinese_english_mixed_models,
+    **chinese_cantonese_english_models,
+    **chinese_cantonese_english_japanese_korean_models,
+    **cantonese_models,
+    **japanese_models,
+    **tibetan_models,
+    **arabic_models,
+    **german_models,
+    **french_models,
+    **russian_models,
+    **korean_models,
+    **thai_models,
+    **vietnamese_models,
+    **portuguese_brazlian_models,
+}
+language_to_models = {
+    # "Multi-lingual (east aisa)": list(multi_lingual_models.keys()),
+    # "超多种中文方言": list(chinese_dialect_models.keys()),
+    # "Chinese": list(chinese_models.keys()),
+    # "English": list(english_models.keys()),
+    # "Chinese+English": list(chinese_english_mixed_models.keys()),
+    # "Chinese+English+Cantonese": list(chinese_cantonese_english_models.keys()),
+    # "Chinese+English+Cantonese+Japanese+Korean": list(
+    #     chinese_cantonese_english_japanese_korean_models.keys()
+    # ),
+    # "Arabic": list(arabic_models.keys()),
+    # "Cantonese": list(cantonese_models.keys()),
+    # "French": list(french_models.keys()),
+    # "German": list(german_models.keys()),
+    # "Japanese": list(japanese_models.keys()),
+    # "Korean": list(korean_models.keys()),
+    # "Portuguese (Brazil)": list(portuguese_brazlian_models.keys()),
+    # "Russian": list(russian_models.keys()),
+    # "Thai": list(thai_models.keys()),
+    # "Tibetan": list(tibetan_models.keys()),
+    "Vietnamese": list(vietnamese_models.keys()),
+}

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio
+pydub
+sherpa-onnx
+numpy
+huggingface_hub