Automatic Speech Recognition
Transformers
Safetensors
Russian
wav2vec2
speech
phoneme-recognition
russian
Instructions to use ViktorR-BarreL/phonoscopic with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use ViktorR-BarreL/phonoscopic with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("automatic-speech-recognition", model="ViktorR-BarreL/phonoscopic")# Load model directly from transformers import AutoProcessor, AutoModelForCTC processor = AutoProcessor.from_pretrained("ViktorR-BarreL/phonoscopic") model = AutoModelForCTC.from_pretrained("ViktorR-BarreL/phonoscopic") - Notebooks
- Google Colab
- Kaggle
Phonoscopic Wav2Vec2 Model (Russian)
Данная модель представляет собой дообученную версию wav2vec2 для фонемной транскрипции русской речи. Модель используется в приложении [ф]оноскоп.
Описание
Модель обучена распознавать фонемы русского языка (включая гласные, согласные и их мягкие/твердые варианты). Ожидаемый формат входных данных — 16kHz WAV аудио.
Использование с библиотекой Transformers
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch
# Загрузка модели
model_name = "ViktorR-BarreL/phonoscopic"
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)
# Пример обработки аудио (y - массив numpy, sr=16000)
inputs = processor(y, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
logits = model(inputs.input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
# Декодирование
transcription = processor.decode(predicted_ids[0])
print(transcription)
Информация об обучении
- Язык: Русский
- Задачи: Фонемное выравнивание (Alignment)
- Архитектура: Wav2Vec2ForCTC
- Downloads last month
- 5