Update README.md

b544a1a verified 2 months ago

3.75 kB

	---
	license: mit
	language:
	- ru
	base_model:
	- ai-sage/GigaAM-v3
	pipeline_tag: automatic-speech-recognition
	---

	<img src="logo_resize.png"/>

	# Kairos Automatic Speech Recognition (Hugging Face)

	[GitHub: Alenkar/kairos-asr](https://github.com/Alenkar/kairos-asr)

	## 📄 Описание

	Kairos ASR — высокопроизводительная библиотека распознавания русской речи на базе [GigaAM-style RNN-T](https://github.com/salute-developers/GigaAM) и ONNX. Фокус: скорость, точность и простая интеграция в микросервисы и десктопы.

	Основные возможности:
	- Оптимизированный ONNX-инференс
	- CPU и GPU (CUDA, extra `[gpu]`)
	- Временные метки (word-level, sentence-level)
	- Итеративная обработка с прогрессом и ETA
	- Встроенный Voice-Activity-Detection (VAD)
	- Поддержка длинных аудио
	- Поддержка Windows и Linux

	## 📦 Файлы в этом репозитории HF

	Модельный репозиторий `Alenkar/KairosASR` содержит:
	- `kairos_asr_encoder.onnx`
	- `kairos_asr_decoder.onnx`
	- `kairos_asr_joint.onnx`
	- `kairos_asr_tokenizer.model`

	`kairos-asr` загружает эти файлы через `huggingface_hub` автоматически. Можно скачать вручную:

	```python
	from huggingface_hub import hf_hub_download

	path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx")
	print(path)
	```

	## ⚡ Быстрый старт

	```bash
	pip install kairos-asr[cpu]
	# для GPU: pip install kairos-asr[gpu]
	```

	Если нужна конкретная сборка Torch под вашу CUDA:

	```bash
	# пример под CUDA 12.1/12.2 (cu121)
	pip install torch==2.6.0 torchaudio==2.6.0 \
	--index-url https://download.pytorch.org/whl/cu121 --upgrade
	```

	## 🚀 Использование (Python)

	Минимальный пример:

	```python
	from kairos_asr import KairosASR

	asr = KairosASR() # авто-загрузка весов с HF
	result = asr.transcribe(wav_file="audio.wav")
	print(result.full_text)
	```

	Требования к аудио:
	- Любые форматы, поддерживаемые `ffmpeg`; ресемплинг до 16 kHz.
	- WAV PCM 16-bit mono (рекомендуется); стерео приводится к моно.
	- Длинные записи режутся Silero VAD на ~15–25 c (жёсткий лимит ~30 c) и объединяются.

	## 🖥️ Использование (CLI)

	Установите пакет, затем:

	```bash
	# Проверить окружение
	kairos-asr doctor

	# Список локальных/доступных моделей
	kairos-asr list

	# Скачать все модели заранее
	kairos-asr download

	# Перевести файл в текст
	kairos-asr transcribe <wav_file>
	```

	## ⚙️ Системные требования
	- `ffmpeg` должен быть доступен в `PATH` (загрузка и ресемплинг аудио).
	- Доступ в интернет при первом запуске: скачивание весов моделей. Для ускорения и избежания лимитов задайте `HF_TOKEN` (`huggingface-cli login` или экспорт переменной окружения).

	## Больше информации

	Для получения дополнительной информации об исходной модели смотрите ее [карточку модели](https://huggingface.co/ai-sage/GigaAM-v3).