Phonoscopic Wav2Vec2 Model (Russian)

Данная модель представляет собой дообученную версию wav2vec2 для фонемной транскрипции русской речи. Модель используется в приложении [ф]оноскоп.

Описание

Модель обучена распознавать фонемы русского языка (включая гласные, согласные и их мягкие/твердые варианты). Ожидаемый формат входных данных — 16kHz WAV аудио.

Использование с библиотекой Transformers

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch

# Загрузка модели
model_name = "ViktorR-BarreL/phonoscopic"
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)

# Пример обработки аудио (y - массив numpy, sr=16000)
inputs = processor(y, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
    logits = model(inputs.input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)

# Декодирование
transcription = processor.decode(predicted_ids[0])
print(transcription)

Информация об обучении

Язык: Русский
Задачи: Фонемное выравнивание (Alignment)
Архитектура: Wav2Vec2ForCTC

Downloads last month: 5

Safetensors

Model size

0.3B params

Tensor type

F32