🎙️ BgTTS-38M-V2 (VOX ANI)

🤝 Acknowledgments / Благодарности

🏗️ Основна разработка: Огромни благодарности на beleata74 за тежката работа по модела и неговата доработка. Без неговия труд този проект нямаше да съществува.
🎨 Интерфейс: От мен е добавена само оптимизацията на уеб изгледа (Gradio UI) и REST API функционалността за по-лесна интеграция.

Това е усъвършенстван модел за синтез на реч (TTS) на български език, базиран на архитектурата MioCodec. Моделът позволява както стандартен синтез с вградени гласове, така и висококачествено клониране на нови гласове чрез кратка аудио мостра (Zero-shot Voice Cloning).

✨ Характеристики

Високо качество: Оптимизиран за българска реч с поддръжка на английски.
Voice Cloning: Клониране на глас само от 2-10 секунди аудио мостра.
Управление на гласове: Възможност за запазване и изтриване на клонирани гласове директно през интерфейса.
REST API: Пълна интеграция с приложението Vox Player.
Сигурност: Достъпът до уеб интерфейса и API-то е защитен с ключ (API Key).

🚀 Как се използва

Уеб интерфейс (Gradio)

Въведете своя API Key в полето за отключване (реалния). В app.py въведете вече Кодирания ключ
Изберете таб 🔊 Синтез, за да генерирате реч.
Използвайте таб 🎤 Клониране, за да добавите нов глас (качете чист аудио файл без фонов шум).

REST API Ендпойнтове

Моделът е готов за работа с външни приложения чрез следните пътища:

GET /synthesize?text=Здравей&voice=ani-bg-female&api_key=ВАШИЯТ_КЛЮЧ
GET /voices?api_key=ВАШИЯТ_КЛЮЧ (връща списък с всички вградени и клонирани гласове)
POST /encode_voice?api_key=ВАШИЯТ_КЛЮЧ (за създаване на гласови ембединги)

🛠️ Технически детайли

Параметри: ~38.2M
Sample Rate: 24,000 Hz
Codec: MioCodec V6
Device: Поддържа CPU и CUDA (GPU) за бърза обработка.

💾 Персистентност

Запазените гласове се съхраняват във файла voices.json. При работа в Hugging Face Space, се уверете, че сте настроили HF_TOKEN и SPACE_ID в Settings -> Variables and Secrets, за да може списъкът с гласове да се запазва автоматично при рестарт на сървъра.

🏆 Благодарности / Credits Специални благодарности на: 1. Aratako (MioCodec) – за невероятната архитектура и енкодер, които правят възможно висококачественото клониране на гласове в реално време. 2. Hugging Face – за хостинга и предоставените ресурси за изчислителна мощ (Spaces), които позволяват този модел да бъде достъпен навсякъде. 3. Общността на Vox Player – за обратната връзка, идеите и вдъхновението при разработката на българския синтез. 4. Разработчиците на PyTorch и Gradio – за стабилните инструменти, върху които е изграден този интерфейс.

Downloads last month: -; Downloads are not tracked for this model. How to track

Model tree for Di7x/VOX-ANI-TTS-BG

Base model

beleata74/BgTTS-38M-V2

Finetuned

(1)

this model