---
license: mit
language:
- ru
base_model:
- ai-sage/GigaAM-v3
pipeline_tag: automatic-speech-recognition
---
# Kairos Automatic Speech Recognition (Hugging Face)
[GitHub: Alenkar/kairos-asr](https://github.com/Alenkar/kairos-asr)
## π ΠΠΏΠΈΡΠ°Π½ΠΈΠ΅
**Kairos ASR** β Π²ΡΡΠΎΠΊΠΎΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½Π°Ρ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ° ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡ ΡΡΡΡΠΊΠΎΠΉ ΡΠ΅ΡΠΈ Π½Π° Π±Π°Π·Π΅ [GigaAM-style RNN-T](https://github.com/salute-developers/GigaAM) ΠΈ **ONNX**. Π€ΠΎΠΊΡΡ: ΡΠΊΠΎΡΠΎΡΡΡ, ΡΠΎΡΠ½ΠΎΡΡΡ ΠΈ ΠΏΡΠΎΡΡΠ°Ρ ΠΈΠ½ΡΠ΅Π³ΡΠ°ΡΠΈΡ Π² ΠΌΠΈΠΊΡΠΎΡΠ΅ΡΠ²ΠΈΡΡ ΠΈ Π΄Π΅ΡΠΊΡΠΎΠΏΡ.
ΠΡΠ½ΠΎΠ²Π½ΡΠ΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠΈ:
- ΠΠΏΡΠΈΠΌΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½ΡΠΉ ONNX-ΠΈΠ½ΡΠ΅ΡΠ΅Π½Ρ
- **CPU** ΠΈ **GPU (CUDA, extra `[gpu]`)**
- ΠΡΠ΅ΠΌΠ΅Π½Π½ΡΠ΅ ΠΌΠ΅ΡΠΊΠΈ (**word-level**, **sentence-level**)
- ΠΡΠ΅ΡΠ°ΡΠΈΠ²Π½Π°Ρ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠ° Ρ ΠΏΡΠΎΠ³ΡΠ΅ΡΡΠΎΠΌ ΠΈ ETA
- ΠΡΡΡΠΎΠ΅Π½Π½ΡΠΉ **Voice-Activity-Detection (VAD)**
- ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° Π΄Π»ΠΈΠ½Π½ΡΡ
Π°ΡΠ΄ΠΈΠΎ
- ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ° **Windows** ΠΈ **Linux**
## π¦ Π€Π°ΠΉΠ»Ρ Π² ΡΡΠΎΠΌ ΡΠ΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΠΈ HF
ΠΠΎΠ΄Π΅Π»ΡΠ½ΡΠΉ ΡΠ΅ΠΏΠΎΠ·ΠΈΡΠΎΡΠΈΠΉ `Alenkar/KairosASR` ΡΠΎΠ΄Π΅ΡΠΆΠΈΡ:
- `kairos_asr_encoder.onnx`
- `kairos_asr_decoder.onnx`
- `kairos_asr_joint.onnx`
- `kairos_asr_tokenizer.model`
`kairos-asr` Π·Π°Π³ΡΡΠΆΠ°Π΅Ρ ΡΡΠΈ ΡΠ°ΠΉΠ»Ρ ΡΠ΅ΡΠ΅Π· `huggingface_hub` Π°Π²ΡΠΎΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈ. ΠΠΎΠΆΠ½ΠΎ ΡΠΊΠ°ΡΠ°ΡΡ Π²ΡΡΡΠ½ΡΡ:
```python
from huggingface_hub import hf_hub_download
path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx")
print(path)
```
## β‘ ΠΡΡΡΡΡΠΉ ΡΡΠ°ΡΡ
```bash
pip install kairos-asr[cpu]
# Π΄Π»Ρ GPU: pip install kairos-asr[gpu]
```
ΠΡΠ»ΠΈ Π½ΡΠΆΠ½Π° ΠΊΠΎΠ½ΠΊΡΠ΅ΡΠ½Π°Ρ ΡΠ±ΠΎΡΠΊΠ° Torch ΠΏΠΎΠ΄ Π²Π°ΡΡ CUDA:
```bash
# ΠΏΡΠΈΠΌΠ΅Ρ ΠΏΠΎΠ΄ CUDA 12.1/12.2 (cu121)
pip install torch==2.6.0 torchaudio==2.6.0 \
--index-url https://download.pytorch.org/whl/cu121 --upgrade
```
## π ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ (Python)
ΠΠΈΠ½ΠΈΠΌΠ°Π»ΡΠ½ΡΠΉ ΠΏΡΠΈΠΌΠ΅Ρ:
```python
from kairos_asr import KairosASR
asr = KairosASR() # Π°Π²ΡΠΎ-Π·Π°Π³ΡΡΠ·ΠΊΠ° Π²Π΅ΡΠΎΠ² Ρ HF
result = asr.transcribe(wav_file="audio.wav")
print(result.full_text)
```
Π’ΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡ ΠΊ Π°ΡΠ΄ΠΈΠΎ:
- ΠΡΠ±ΡΠ΅ ΡΠΎΡΠΌΠ°ΡΡ, ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΈΠ²Π°Π΅ΠΌΡΠ΅ `ffmpeg`; ΡΠ΅ΡΠ΅ΠΌΠΏΠ»ΠΈΠ½Π³ Π΄ΠΎ 16 kHz.
- WAV PCM 16-bit mono (ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡΠ΅ΡΡΡ); ΡΡΠ΅ΡΠ΅ΠΎ ΠΏΡΠΈΠ²ΠΎΠ΄ΠΈΡΡΡ ΠΊ ΠΌΠΎΠ½ΠΎ.
- ΠΠ»ΠΈΠ½Π½ΡΠ΅ Π·Π°ΠΏΠΈΡΠΈ ΡΠ΅ΠΆΡΡΡΡ Silero VAD Π½Π° ~15β25 c (ΠΆΡΡΡΠΊΠΈΠΉ Π»ΠΈΠΌΠΈΡ ~30 c) ΠΈ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΡΡΡΡΡ.
## π₯οΈ ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ (CLI)
Π£ΡΡΠ°Π½ΠΎΠ²ΠΈΡΠ΅ ΠΏΠ°ΠΊΠ΅Ρ, Π·Π°ΡΠ΅ΠΌ:
```bash
# ΠΡΠΎΠ²Π΅ΡΠΈΡΡ ΠΎΠΊΡΡΠΆΠ΅Π½ΠΈΠ΅
kairos-asr doctor
# Π‘ΠΏΠΈΡΠΎΠΊ Π»ΠΎΠΊΠ°Π»ΡΠ½ΡΡ
/Π΄ΠΎΡΡΡΠΏΠ½ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
kairos-asr list
# Π‘ΠΊΠ°ΡΠ°ΡΡ Π²ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ Π·Π°ΡΠ°Π½Π΅Π΅
kairos-asr download
# ΠΠ΅ΡΠ΅Π²Π΅ΡΡΠΈ ΡΠ°ΠΉΠ» Π² ΡΠ΅ΠΊΡΡ
kairos-asr transcribe
```
## βοΈ Π‘ΠΈΡΡΠ΅ΠΌΠ½ΡΠ΅ ΡΡΠ΅Π±ΠΎΠ²Π°Π½ΠΈΡ
- `ffmpeg` Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±ΡΡΡ Π΄ΠΎΡΡΡΠΏΠ΅Π½ Π² `PATH` (Π·Π°Π³ΡΡΠ·ΠΊΠ° ΠΈ ΡΠ΅ΡΠ΅ΠΌΠΏΠ»ΠΈΠ½Π³ Π°ΡΠ΄ΠΈΠΎ).
- ΠΠΎΡΡΡΠΏ Π² ΠΈΠ½ΡΠ΅ΡΠ½Π΅Ρ ΠΏΡΠΈ ΠΏΠ΅ΡΠ²ΠΎΠΌ Π·Π°ΠΏΡΡΠΊΠ΅: ΡΠΊΠ°ΡΠΈΠ²Π°Π½ΠΈΠ΅ Π²Π΅ΡΠΎΠ² ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ΠΠ»Ρ ΡΡΠΊΠΎΡΠ΅Π½ΠΈΡ ΠΈ ΠΈΠ·Π±Π΅ΠΆΠ°Π½ΠΈΡ Π»ΠΈΠΌΠΈΡΠΎΠ² Π·Π°Π΄Π°ΠΉΡΠ΅ `HF_TOKEN` (`huggingface-cli login` ΠΈΠ»ΠΈ ΡΠΊΡΠΏΠΎΡΡ ΠΏΠ΅ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΎΠΊΡΡΠΆΠ΅Π½ΠΈΡ).
## ΠΠΎΠ»ΡΡΠ΅ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ
ΠΠ»Ρ ΠΏΠΎΠ»ΡΡΠ΅Π½ΠΈΡ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΠΎΠΉ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΎΠ± ΠΈΡΡ
ΠΎΠ΄Π½ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΠΌΠΎΡΡΠΈΡΠ΅ Π΅Π΅ [ΠΊΠ°ΡΡΠΎΡΠΊΡ ΠΌΠΎΠ΄Π΅Π»ΠΈ](https://huggingface.co/ai-sage/GigaAM-v3).