🎙️ BgTTS-38M-V2 (VOX ANI)
🤝 Acknowledgments / Благодарности
- 🏗️ Основна разработка: Огромни благодарности на beleata74 за тежката работа по модела и неговата доработка. Без неговия труд този проект нямаше да съществува.
- 🎨 Интерфейс: От мен е добавена само оптимизацията на уеб изгледа (Gradio UI) и REST API функционалността за по-лесна интеграция.
Това е усъвършенстван модел за синтез на реч (TTS) на български език, базиран на архитектурата MioCodec. Моделът позволява както стандартен синтез с вградени гласове, така и висококачествено клониране на нови гласове чрез кратка аудио мостра (Zero-shot Voice Cloning).
✨ Характеристики
- Високо качество: Оптимизиран за българска реч с поддръжка на английски.
- Voice Cloning: Клониране на глас само от 2-10 секунди аудио мостра.
- Управление на гласове: Възможност за запазване и изтриване на клонирани гласове директно през интерфейса.
- REST API: Пълна интеграция с приложението Vox Player.
- Сигурност: Достъпът до уеб интерфейса и API-то е защитен с ключ (API Key).
🚀 Как се използва
Уеб интерфейс (Gradio)
- Въведете своя API Key в полето за отключване (реалния). В app.py въведете вече Кодирания ключ
- Изберете таб 🔊 Синтез, за да генерирате реч.
- Използвайте таб 🎤 Клониране, за да добавите нов глас (качете чист аудио файл без фонов шум).
REST API Ендпойнтове
Моделът е готов за работа с външни приложения чрез следните пътища:
GET /synthesize?text=Здравей&voice=ani-bg-female&api_key=ВАШИЯТ_КЛЮЧGET /voices?api_key=ВАШИЯТ_КЛЮЧ(връща списък с всички вградени и клонирани гласове)POST /encode_voice?api_key=ВАШИЯТ_КЛЮЧ(за създаване на гласови ембединги)
🛠️ Технически детайли
- Параметри: ~38.2M
- Sample Rate: 24,000 Hz
- Codec: MioCodec V6
- Device: Поддържа CPU и CUDA (GPU) за бърза обработка.
💾 Персистентност
Запазените гласове се съхраняват във файла voices.json. При работа в Hugging Face Space, се уверете, че сте настроили HF_TOKEN и SPACE_ID в Settings -> Variables and Secrets, за да може списъкът с гласове да се запазва автоматично при рестарт на сървъра.
🏆 Благодарности / Credits Специални благодарности на: 1. Aratako (MioCodec) – за невероятната архитектура и енкодер, които правят възможно висококачественото клониране на гласове в реално време. 2. Hugging Face – за хостинга и предоставените ресурси за изчислителна мощ (Spaces), които позволяват този модел да бъде достъпен навсякъде. 3. Общността на Vox Player – за обратната връзка, идеите и вдъхновението при разработката на българския синтез. 4. Разработчиците на PyTorch и Gradio – за стабилните инструменти, върху които е изграден този интерфейс.
Model tree for Di7x/VOX-ANI-TTS-BG
Base model
beleata74/BgTTS-38M-V2