KairosASR / README.md
Alenkar's picture
Update README.md
b544a1a verified
metadata
license: mit
language:
  - ru
base_model:
  - ai-sage/GigaAM-v3
pipeline_tag: automatic-speech-recognition

Kairos Automatic Speech Recognition (Hugging Face)

GitHub: Alenkar/kairos-asr

📄 Описание

Kairos ASR — высокопроизводительная библиотека распознавания русской речи на базе GigaAM-style RNN-T и ONNX. Фокус: скорость, точность и простая интеграция в микросервисы и десктопы.

Основные возможности:

  • Оптимизированный ONNX-инференс
  • CPU и GPU (CUDA, extra [gpu])
  • Временные метки (word-level, sentence-level)
  • Итеративная обработка с прогрессом и ETA
  • Встроенный Voice-Activity-Detection (VAD)
  • Поддержка длинных аудио
  • Поддержка Windows и Linux

📦 Файлы в этом репозитории HF

Модельный репозиторий Alenkar/KairosASR содержит:

  • kairos_asr_encoder.onnx
  • kairos_asr_decoder.onnx
  • kairos_asr_joint.onnx
  • kairos_asr_tokenizer.model

kairos-asr загружает эти файлы через huggingface_hub автоматически. Можно скачать вручную:

from huggingface_hub import hf_hub_download

path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx")
print(path)

⚡ Быстрый старт

pip install kairos-asr[cpu]
# для GPU: pip install kairos-asr[gpu]

Если нужна конкретная сборка Torch под вашу CUDA:

# пример под CUDA 12.1/12.2 (cu121)
pip install torch==2.6.0 torchaudio==2.6.0 \
  --index-url https://download.pytorch.org/whl/cu121 --upgrade

🚀 Использование (Python)

Минимальный пример:

from kairos_asr import KairosASR

asr = KairosASR()  # авто-загрузка весов с HF
result = asr.transcribe(wav_file="audio.wav")
print(result.full_text)

Требования к аудио:

  • Любые форматы, поддерживаемые ffmpeg; ресемплинг до 16 kHz.
  • WAV PCM 16-bit mono (рекомендуется); стерео приводится к моно.
  • Длинные записи режутся Silero VAD на ~15–25 c (жёсткий лимит ~30 c) и объединяются.

🖥️ Использование (CLI)

Установите пакет, затем:

# Проверить окружение
kairos-asr doctor

# Список локальных/доступных моделей
kairos-asr list

# Скачать все модели заранее
kairos-asr download

# Перевести файл в текст
kairos-asr transcribe <wav_file>

⚙️ Системные требования

  • ffmpeg должен быть доступен в PATH (загрузка и ресемплинг аудио).
  • Доступ в интернет при первом запуске: скачивание весов моделей. Для ускорения и избежания лимитов задайте HF_TOKEN (huggingface-cli login или экспорт переменной окружения).

Больше информации

Для получения дополнительной информации об исходной модели смотрите ее карточку модели.