KairosASR / README.md

Alenkar

Update README.md

b544a1a verified 2 months ago

preview code

raw

history blame contribute delete

3.75 kB

metadata

license: mit
language:
  - ru
base_model:
  - ai-sage/GigaAM-v3
pipeline_tag: automatic-speech-recognition

Kairos Automatic Speech Recognition (Hugging Face)

GitHub: Alenkar/kairos-asr

📄 Описание

Kairos ASR — высокопроизводительная библиотека распознавания русской речи на базе GigaAM-style RNN-T и ONNX. Фокус: скорость, точность и простая интеграция в микросервисы и десктопы.

Основные возможности:

Оптимизированный ONNX-инференс
CPU и GPU (CUDA, extra [gpu])
Временные метки (word-level, sentence-level)
Итеративная обработка с прогрессом и ETA
Встроенный Voice-Activity-Detection (VAD)
Поддержка длинных аудио
Поддержка Windows и Linux

📦 Файлы в этом репозитории HF

Модельный репозиторий Alenkar/KairosASR содержит:

kairos_asr_encoder.onnx
kairos_asr_decoder.onnx
kairos_asr_joint.onnx
kairos_asr_tokenizer.model

kairos-asr загружает эти файлы через huggingface_hub автоматически. Можно скачать вручную:

from huggingface_hub import hf_hub_download

path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx")
print(path)

⚡ Быстрый старт

pip install kairos-asr[cpu]
# для GPU: pip install kairos-asr[gpu]

Если нужна конкретная сборка Torch под вашу CUDA:

# пример под CUDA 12.1/12.2 (cu121)
pip install torch==2.6.0 torchaudio==2.6.0 \
  --index-url https://download.pytorch.org/whl/cu121 --upgrade

🚀 Использование (Python)

Минимальный пример:

from kairos_asr import KairosASR

asr = KairosASR()  # авто-загрузка весов с HF
result = asr.transcribe(wav_file="audio.wav")
print(result.full_text)

Требования к аудио:

Любые форматы, поддерживаемые ffmpeg; ресемплинг до 16 kHz.
WAV PCM 16-bit mono (рекомендуется); стерео приводится к моно.
Длинные записи режутся Silero VAD на ~15–25 c (жёсткий лимит ~30 c) и объединяются.

🖥️ Использование (CLI)

Установите пакет, затем:

# Проверить окружение
kairos-asr doctor

# Список локальных/доступных моделей
kairos-asr list

# Скачать все модели заранее
kairos-asr download

# Перевести файл в текст
kairos-asr transcribe <wav_file>

⚙️ Системные требования

ffmpeg должен быть доступен в PATH (загрузка и ресемплинг аудио).
Доступ в интернет при первом запуске: скачивание весов моделей. Для ускорения и избежания лимитов задайте HF_TOKEN (huggingface-cli login или экспорт переменной окружения).

Больше информации

Для получения дополнительной информации об исходной модели смотрите ее карточку модели.