🎙️ BgTTS-38M-V2 (VOX ANI)

🤝 Acknowledgments / Благодарности

  • 🏗️ Основна разработка: Огромни благодарности на beleata74 за тежката работа по модела и неговата доработка. Без неговия труд този проект нямаше да съществува.
  • 🎨 Интерфейс: От мен е добавена само оптимизацията на уеб изгледа (Gradio UI) и REST API функционалността за по-лесна интеграция.

Това е усъвършенстван модел за синтез на реч (TTS) на български език, базиран на архитектурата MioCodec. Моделът позволява както стандартен синтез с вградени гласове, така и висококачествено клониране на нови гласове чрез кратка аудио мостра (Zero-shot Voice Cloning).

✨ Характеристики

  • Високо качество: Оптимизиран за българска реч с поддръжка на английски.
  • Voice Cloning: Клониране на глас само от 2-10 секунди аудио мостра.
  • Управление на гласове: Възможност за запазване и изтриване на клонирани гласове директно през интерфейса.
  • REST API: Пълна интеграция с приложението Vox Player.
  • Сигурност: Достъпът до уеб интерфейса и API-то е защитен с ключ (API Key).

🚀 Как се използва

Уеб интерфейс (Gradio)

  1. Въведете своя API Key в полето за отключване (реалния). В app.py въведете вече Кодирания ключ
  2. Изберете таб 🔊 Синтез, за да генерирате реч.
  3. Използвайте таб 🎤 Клониране, за да добавите нов глас (качете чист аудио файл без фонов шум).

REST API Ендпойнтове

Моделът е готов за работа с външни приложения чрез следните пътища:

  • GET /synthesize?text=Здравей&voice=ani-bg-female&api_key=ВАШИЯТ_КЛЮЧ
  • GET /voices?api_key=ВАШИЯТ_КЛЮЧ (връща списък с всички вградени и клонирани гласове)
  • POST /encode_voice?api_key=ВАШИЯТ_КЛЮЧ (за създаване на гласови ембединги)

🛠️ Технически детайли

  • Параметри: ~38.2M
  • Sample Rate: 24,000 Hz
  • Codec: MioCodec V6
  • Device: Поддържа CPU и CUDA (GPU) за бърза обработка.

💾 Персистентност

Запазените гласове се съхраняват във файла voices.json. При работа в Hugging Face Space, се уверете, че сте настроили HF_TOKEN и SPACE_ID в Settings -> Variables and Secrets, за да може списъкът с гласове да се запазва автоматично при рестарт на сървъра.


🏆 Благодарности / Credits Специални благодарности на: 1. Aratako (MioCodec) – за невероятната архитектура и енкодер, които правят възможно висококачественото клониране на гласове в реално време. 2. Hugging Face – за хостинга и предоставените ресурси за изчислителна мощ (Spaces), които позволяват този модел да бъде достъпен навсякъде. 3. Общността на Vox Player – за обратната връзка, идеите и вдъхновението при разработката на българския синтез. 4. Разработчиците на PyTorch и Gradio – за стабилните инструменти, върху които е изграден този интерфейс.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Di7x/VOX-ANI-TTS-BG

Finetuned
(1)
this model