--- license: mit language: - ru base_model: - ai-sage/GigaAM-v3 pipeline_tag: automatic-speech-recognition --- # Kairos Automatic Speech Recognition (Hugging Face) [GitHub: Alenkar/kairos-asr](https://github.com/Alenkar/kairos-asr) ## πŸ“„ ОписаниС **Kairos ASR** β€” Π²Ρ‹ΡΠΎΠΊΠΎΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½Π°Ρ Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° распознавания русской Ρ€Π΅Ρ‡ΠΈ Π½Π° Π±Π°Π·Π΅ [GigaAM-style RNN-T](https://github.com/salute-developers/GigaAM) ΠΈ **ONNX**. Ѐокус: ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Ρ‚ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΈ простая интСграция Π² микросСрвисы ΠΈ дСсктопы. ΠžΡΠ½ΠΎΠ²Π½Ρ‹Π΅ возмоТности: - ΠžΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ONNX-инфСрСнс - **CPU** ΠΈ **GPU (CUDA, extra `[gpu]`)** - Π’Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΊΠΈ (**word-level**, **sentence-level**) - Π˜Ρ‚Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½Π°Ρ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ° с прогрСссом ΠΈ ETA - ВстроСнный **Voice-Activity-Detection (VAD)** - ΠŸΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Π°ΡƒΠ΄ΠΈΠΎ - ΠŸΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° **Windows** ΠΈ **Linux** ## πŸ“¦ Π€Π°ΠΉΠ»Ρ‹ Π² этом Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ HF ΠœΠΎΠ΄Π΅Π»ΡŒΠ½Ρ‹ΠΉ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ `Alenkar/KairosASR` содСрТит: - `kairos_asr_encoder.onnx` - `kairos_asr_decoder.onnx` - `kairos_asr_joint.onnx` - `kairos_asr_tokenizer.model` `kairos-asr` Π·Π°Π³Ρ€ΡƒΠΆΠ°Π΅Ρ‚ эти Ρ„Π°ΠΉΠ»Ρ‹ Ρ‡Π΅Ρ€Π΅Π· `huggingface_hub` автоматичСски. МоТно ΡΠΊΠ°Ρ‡Π°Ρ‚ΡŒ Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ: ```python from huggingface_hub import hf_hub_download path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx") print(path) ``` ## ⚑ Быстрый старт ```bash pip install kairos-asr[cpu] # для GPU: pip install kairos-asr[gpu] ``` Если Π½ΡƒΠΆΠ½Π° конкрСтная сборка Torch ΠΏΠΎΠ΄ Π²Π°ΡˆΡƒ CUDA: ```bash # ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΏΠΎΠ΄ CUDA 12.1/12.2 (cu121) pip install torch==2.6.0 torchaudio==2.6.0 \ --index-url https://download.pytorch.org/whl/cu121 --upgrade ``` ## πŸš€ ИспользованиС (Python) ΠœΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΈΠΌΠ΅Ρ€: ```python from kairos_asr import KairosASR asr = KairosASR() # Π°Π²Ρ‚ΠΎ-Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° вСсов с HF result = asr.transcribe(wav_file="audio.wav") print(result.full_text) ``` ВрСбования ΠΊ Π°ΡƒΠ΄ΠΈΠΎ: - Π›ΡŽΠ±Ρ‹Π΅ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Ρ‹, ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅ΠΌΡ‹Π΅ `ffmpeg`; рСсСмплинг Π΄ΠΎ 16 kHz. - WAV PCM 16-bit mono (рСкомСндуСтся); стСрСо приводится ΠΊ ΠΌΠΎΠ½ΠΎ. - Π”Π»ΠΈΠ½Π½Ρ‹Π΅ записи рСТутся Silero VAD Π½Π° ~15–25 c (Тёсткий Π»ΠΈΠΌΠΈΡ‚ ~30 c) ΠΈ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ΡΡ. ## πŸ–₯️ ИспользованиС (CLI) УстановитС ΠΏΠ°ΠΊΠ΅Ρ‚, Π·Π°Ρ‚Π΅ΠΌ: ```bash # ΠŸΡ€ΠΎΠ²Π΅Ρ€ΠΈΡ‚ΡŒ ΠΎΠΊΡ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ kairos-asr doctor # Бписок Π»ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹Ρ…/доступных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ kairos-asr list # Π‘ΠΊΠ°Ρ‡Π°Ρ‚ΡŒ всС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π°Ρ€Π°Π½Π΅Π΅ kairos-asr download # ΠŸΠ΅Ρ€Π΅Π²Π΅ΡΡ‚ΠΈ Ρ„Π°ΠΉΠ» Π² тСкст kairos-asr transcribe ``` ## βš™οΈ БистСмныС трСбования - `ffmpeg` Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ доступСн Π² `PATH` (Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΈ рСсСмплинг Π°ΡƒΠ΄ΠΈΠΎ). - Доступ Π² ΠΈΠ½Ρ‚Π΅Ρ€Π½Π΅Ρ‚ ΠΏΡ€ΠΈ ΠΏΠ΅Ρ€Π²ΠΎΠΌ запускС: скачиваниС вСсов ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. Для ускорСния ΠΈ избСТания Π»ΠΈΠΌΠΈΡ‚ΠΎΠ² Π·Π°Π΄Π°ΠΉΡ‚Π΅ `HF_TOKEN` (`huggingface-cli login` ΠΈΠ»ΠΈ экспорт ΠΏΠ΅Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ окруТСния). ## Π‘ΠΎΠ»ΡŒΡˆΠ΅ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Для получСния Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎΠ± исходной ΠΌΠΎΠ΄Π΅Π»ΠΈ смотритС Π΅Π΅ [ΠΊΠ°Ρ€Ρ‚ΠΎΡ‡ΠΊΡƒ ΠΌΠΎΠ΄Π΅Π»ΠΈ](https://huggingface.co/ai-sage/GigaAM-v3).