Chebukkk
/

mansi-xttsv2

+---
+license: apache-2.0
+language:
+- mns
+- ru
+- en
+tags:
+- text-to-speech
+- xtts
+- mansi
+- finetuned
+pipeline_tag: text-to-speech
+---
+# XTTSv2 Fine-tuned для языка Манси
+## Компоненты модели
+Модель включает в себя:
+- **model.pth** - Основная GPT модель (fine-tuned)
+- **dvae.pth** - Discrete Variational AutoEncoder для кодирования/декодирования аудио
+- **mel_stats.pth** - Статистики для нормализации мел-спектрограмм
+- **vocab.json** - Словарь токенов с поддержкой мансийского языка
+- **config.json** - Конфигурация модели
+## Датасет
+Модель обучена на датасете Mansi TTS, содержащем:
+- **Общая продолжительность**: ~21.77 часов аудио
+- **Количество записей**: 16,367 аудио файлов
+- **Средняя длина записи**: ~4.79 секунд
+- **Частота дискретизации**: 48,000 Hz
+- **Язык**: Мансийский (mns)
+## Использование
+### Установка зависимостей
+```bash
+pip install TTS torch torchaudio
+```
+### Быстрый старт с TTS API
+```python
+from TTS.api import TTS
+# Загрузка модели
+tts = TTS("your_username/mansi-xttsv2")
+# Синтез речи
+tts.tts_to_file(
+    text="Ваш текст на мансийском языке",
+    speaker_wav="path/to/reference_audio.wav",
+    language="mns",
+    file_path="output.wav"
+)
+```
+### Продвинутое использование (ручная загрузка)
+Для более точного контроля над процессом генерации:
+```python
+import os
+import torch
+from tqdm import tqdm
+from TTS.tts.configs.xtts_config import XttsConfig
+from TTS.tts.models.xtts import Xtts
+from TTS.tts.layers.xtts.tokenizer import VoiceBpeTokenizer
+import torchaudio
+# ----------------- Настройки -----------------
+DEVICE = "cuda:0" if torch.cuda.is_available() else "cpu"
+# Пути к файлам модели (после загрузки с Hugging Face)
+MODEL_DIR = "path/to/downloaded/model"
+CHECKPOINT_PATH = os.path.join(MODEL_DIR, "model.pth")
+CONFIG_PATH = os.path.join(MODEL_DIR, "config.json")
+VOCAB_PATH = os.path.join(MODEL_DIR, "vocab.json")
+SPEAKER_FILE = "empty_speakers.pth"  # создайте пустой файл или используйте существующий
+# ----------------- Загрузка модели -----------------
+config = XttsConfig()
+config.load_json(CONFIG_PATH)
+xtts_model = Xtts.init_from_config(config)
+xtts_model.load_checkpoint(
+    config,
+    checkpoint_path=CHECKPOINT_PATH,
+    vocab_path=VOCAB_PATH,
+    speaker_file_path=SPEAKER_FILE,
+    use_deepspeed=False
+)
+xtts_model.tokenizer = VoiceBpeTokenizer(vocab_file=VOCAB_PATH)
+xtts_model.to(DEVICE)
+xtts_model.eval()
+print("✅ Model loaded successfully!")
+# ----------------- Подготовка данных -----------------
+# Текст для синтеза на мансийском языке
+tts_text = "Ты ня̄врамыт нэ̄паканыл хунь ва̄рсанум, то̄нт ла̄вве̄сум, амки нупылум воссыг ул вос хансыянум."
+# Референсное аудио (голос для клонирования)
+speaker_audio_file = "path/to/reference_audio.wav"
+# ----------------- Получение conditioning latents -----------------
+gpt_cond_latent, speaker_embedding = xtts_model.get_conditioning_latents(
+    audio_path=speaker_audio_file,
+    gpt_cond_len=xtts_model.config.gpt_cond_len,
+    max_ref_length=xtts_model.config.max_ref_len,
+    sound_norm_refs=xtts_model.config.sound_norm_refs,
+)
+# ----------------- Генерация речи -----------------
+with torch.no_grad():
+    wav_chunk = xtts_model.inference(
+        text=tts_text,
+        language="mns",  # мансийский язык
+        gpt_cond_latent=gpt_cond_latent,
+        speaker_embedding=speaker_embedding,
+        temperature=0.1,        # низкая температура для стабильности
+        length_penalty=1.0,
+        repetition_penalty=10.0, # высокий penalty против повторов
+        top_k=10,               # ограничение словаря
+        top_p=0.3,              # nucleus sampling
+    )
+# ----------------- Сохранение результата -----------------
+output_audio = torch.tensor(wav_chunk["wav"]).cpu()
+torchaudio.save("mansi_output.wav", output_audio.unsqueeze(0), 24000)
+print("✅ Audio saved as mansi_output.wav")
+```
+### Параметры генерации
+| Параметр | Рекомендуемое значение | Описание |
+|----------|----------------------|----------|
+| **temperature** | 0.1-0.3 | Низкие значения для стабильности, высокие для разнообразия |
+| **repetition_penalty** | 5.0-10.0 | Высокие значения предотвращают повторы |
+| **top_k** | 10-50 | Ограничивает выбор токенов |
+| **top_p** | 0.3-0.8 | Nucleus sampling threshold |
+| **length_penalty** | 1.0 | Контролирует длину генерируемого аудио |
+## Технические детали
+- **Архитектура**: XTTSv2 (GPT-based)
+- **Размер модели**: ~5.6 GB
+- **Поддерживаемые языки**: Мансийский (mns) + оригинальные языки XTTSv2
+- **Формат аудио**: WAV, 24kHz
+- **Максимальная длина текста**: 400 символов
+- **Максимальная длина аудио**: ~15 секунд
+## Ограничения
+- Модель оптимизирована для мансийского языка
+- Требует референсное аудио для клонирования голоса
+- Качество зависит от качества референсного аудио