Instructions to use ALEKAS/VoxCPM-0.5B-Russian-5600 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- VoxCPM
How to use ALEKAS/VoxCPM-0.5B-Russian-5600 with VoxCPM:
import soundfile as sf from voxcpm import VoxCPM model = VoxCPM.from_pretrained("ALEKAS/VoxCPM-0.5B-Russian-5600") wav = model.generate( text="VoxCPM is an innovative end-to-end TTS model from ModelBest, designed to generate highly expressive speech.", prompt_wav_path=None, # optional: path to a prompt speech for voice cloning prompt_text=None, # optional: reference text cfg_value=2.0, # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse inference_timesteps=10, # LocDiT inference timesteps, higher for better result, lower for fast speed normalize=True, # enable external TN tool denoise=True, # enable external Denoise tool retry_badcase=True, # enable retrying mode for some bad cases (unstoppable) retry_badcase_max_times=3, # maximum retrying times retry_badcase_ratio_threshold=6.0, # maximum length restriction for bad case detection (simple but effective), it could be adjusted for slow pace speech ) sf.write("output.wav", wav, 16000) print("saved: output.wav") - Notebooks
- Google Colab
- Kaggle
VoxCPM 0.5B: Русская версия (Fine-Tuned)
Это модель VoxCPM 0.5B, прошедшая полное дообучение (Full Fine-Tuning) на русскоязычном корпусе речи. Модель адаптирует архитектуру VoxCPM (tokenizer-free) для синтеза качественной русской речи.
Шаг чекпоинта: 5600
Установка
Убедитесь, что у вас установлен пакет voxcpm (из репозитория VoxCPM):
git clone https://github.com/OpenBMB/VoxCPM.git
cd VoxCPM
pip install -e .
Использование
Модель обучена генерировать русскую речь определенным голосом. Для получения наилучшего результата рекомендуется использовать стандартный режим генерации без подмены голоса (клонирования).
Пример кода на Python
import soundfile as sf
from voxcpm import VoxCPM
# Загрузка модели
# Модель будет автоматически скачана из Hugging Face
model = VoxCPM.from_pretrained("ALEKAS/VoxCPM-0.5B-Russian-5600", load_denoiser=False)
# Текст для озвучивания
text = "Привет! Это пример синтеза речи на русском языке с использованием модели VoxCPM."
# Генерируем аудио
# Важно: prompt_wav_path=None, чтобы модель говорила своим "родным" обученным голосом
wav = model.generate(text, prompt_wav_path=None)
# Сохраняем результат
sample_rate = model.tts_model.sample_rate
sf.write("output.wav", wav, sample_rate)
print(f"Файл output.wav сохранен с частотой {sample_rate}Гц")
- Downloads last month
- 18