Phonoscopic Wav2Vec2 Model (Russian)

Данная модель представляет собой дообученную версию wav2vec2 для фонемной транскрипции русской речи. Модель используется в приложении [ф]оноскоп.

Описание

Модель обучена распознавать фонемы русского языка (включая гласные, согласные и их мягкие/твердые варианты). Ожидаемый формат входных данных — 16kHz WAV аудио.

Использование с библиотекой Transformers

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import torch

# Загрузка модели
model_name = "ViktorR-BarreL/phonoscopic"
processor = Wav2Vec2Processor.from_pretrained(model_name)
model = Wav2Vec2ForCTC.from_pretrained(model_name)

# Пример обработки аудио (y - массив numpy, sr=16000)
inputs = processor(y, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
    logits = model(inputs.input_values).logits
    predicted_ids = torch.argmax(logits, dim=-1)

# Декодирование
transcription = processor.decode(predicted_ids[0])
print(transcription)

Информация об обучении

  • Язык: Русский
  • Задачи: Фонемное выравнивание (Alignment)
  • Архитектура: Wav2Vec2ForCTC

Downloads last month
5
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support