Kinyarwanda TTS – Fine-Tuned MMS-TTS-Kin

This repository hosts enhanced version of Meta's MMS-TTS-Kin model, tailored for high-quality Kinyarwanda text-to-speech synthesis.

Model Details

The base model, facebook/mms-tts-kin, serves as the foundation for this enhanced variant.

Usage

pip install --upgrade transformers accelerate

from transformers import VitsModel, AutoTokenizer
import torch

model = VitsModel.from_pretrained("zakk249/Kinyarwanda_TTS")
tokenizer = AutoTokenizer.from_pretrained("zakk249/Kinyarwanda_TTS")

text = "text in the Kinyarwanda language"
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():
    output = model(**inputs).waveform

import scipy

scipy.io.wavfile.write("file.wav", rate=model.config.sampling_rate, data=output)

Or displayed in a Jupyter Notebook / Google Colab:

from IPython.display import Audio

Audio(output, rate=model.config.sampling_rate)

Downloads last month: 2

Safetensors

Model size

36.3M params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support