mainmainminavoiceclone

Running

App Files Files Community

Uniaff commited on Nov 13, 2024

Commit

88610ff

verified ·

1 Parent(s): 77e9d69

Update app.py

Browse files

Files changed (1) hide show

app.py +90 -19

app.py CHANGED Viewed

@@ -1,17 +1,22 @@
 import os
 import sys
-import uuid
 import subprocess
 import gradio as gr
 from pydub import AudioSegment
 import tempfile
 from scipy.io.wavfile import write, read
 from TTS.api import TTS
-import numpy as np  # Добавлен импорт NumPy
 # Установка переменных окружения для принятия лицензионных условий
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Глобальные переменные и настройки
 language_options = {
     "English (en)": "en",
@@ -42,6 +47,7 @@ other_language = {
     "Bulgarian": "bul",
 }
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
 # Функции для голосового клонирования
@@ -58,66 +64,132 @@ def check_audio_length(audio_path, max_duration=120):
         return False
 def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
     # Преобразование wav_data из списка в NumPy массив с типом float32
     wav_data_np = np.array(wav_data, dtype=np.float32)
     # Нормализация данных, если необходимо
     max_val = np.max(np.abs(wav_data_np))
     if max_val > 1.0:
         wav_data_np = wav_data_np / max_val
     # Масштабирование до int16 для записи в WAV файл
     wav_data_int16 = np.int16(wav_data_np * 32767)
-    tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
-    # Запись wav_data_int16 во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
-        write(temp_tts_wav_path, 22050, wav_data_int16)  # Используем массив int16
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
     # Преобразование голоса
-    tts_conversion.voice_conversion_to_file(temp_tts_wav_path, target_wav=voice_audio_path,
                                             file_path=temp_output_wav_path)
-    # Чтение преобразованного аудио из temp_output_wav_path
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
     # Удаление временных файлов
     os.remove(temp_tts_wav_path)
     os.remove(temp_output_wav_path)
     return (output_sample_rate, output_audio_data)
 def synthesize_speech(text, speaker_wav_path, language_iso, speed):
-    # Генерация речи с помощью tts и сохранение во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_output:
         temp_tts_output_path = temp_tts_output.name
-        tts.tts_to_file(text=text, file_path=temp_tts_output_path, speed=speed,
-                       speaker_wav=speaker_wav_path, language=language_iso)
-    tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
     # Преобразование голоса
-    tts_conversion.voice_conversion_to_file(temp_tts_output_path, target_wav=speaker_wav_path,
-                                           file_path=temp_output_wav_path)
-    # Чтение преобразованного аудио из temp_output_wav_path
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
     # Удаление временных файлов
     os.remove(temp_tts_output_path)
     os.remove(temp_output_wav_path)
     return (output_sample_rate, output_audio_data)
@@ -283,7 +355,6 @@ with gr.Blocks() as app:
                 generate,
                 inputs=[video, audio, checkpoint, no_smooth, resize_factor, pad_top, pad_bottom, pad_left, pad_right, save_as_video],
                 outputs=result,
-                # concurrency_limit=30
             )
     def launch_gradio():

 import os
 import sys
 import subprocess
 import gradio as gr
 from pydub import AudioSegment
 import tempfile
 from scipy.io.wavfile import write, read
 from TTS.api import TTS
+import numpy as np
+import torch
+import torchaudio
+from resemble_enhance.enhancer.inference import denoise
 # Установка переменных окружения для принятия лицензионных условий
 os.environ["COQUI_TOS_AGREED"] = "1"
+# Определение устройства (CUDA или CPU)
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # Глобальные переменные и настройки
 language_options = {
     "English (en)": "en",
     "Bulgarian": "bul",
 }
+# Инициализация модели TTS
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
 # Функции для голосового клонирования
         return False
 def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
+    # Синтез речи с помощью TTS
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
     # Преобразование wav_data из списка в NumPy массив с типом float32
     wav_data_np = np.array(wav_data, dtype=np.float32)
     # Нормализация данных, если необходимо
     max_val = np.max(np.abs(wav_data_np))
     if max_val > 1.0:
         wav_data_np = wav_data_np / max_val
     # Масштабирование до int16 для записи в WAV файл
     wav_data_int16 = np.int16(wav_data_np * 32767)
+    # Сохранение синтезированного аудио во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
+        write(temp_tts_wav_path, 22050, wav_data_int16)
+    # Загрузка синтезированного аудио
+    wav_tensor, sample_rate = torchaudio.load(temp_tts_wav_path)
+    # Преобразование в моно, если аудио стерео
+    if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
+        wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
+    # Применение денойзинга (не перемещаем wav_tensor на устройство)
+    denoised_wav_tensor, denoised_sample_rate = denoise(wav_tensor.squeeze(), sample_rate, device)
+    # Сохранение денойзенного аудио во временный файл
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_wav_file:
+        temp_denoised_wav_path = temp_denoised_wav_file.name
+        torchaudio.save(temp_denoised_wav_path, denoised_wav_tensor.unsqueeze(0).cpu(), denoised_sample_rate)
+    # Преобразование голоса с использованием денойзенного аудио
+    tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
     # Преобразование голоса
+    tts_conversion.voice_conversion_to_file(temp_denoised_wav_path, target_wav=voice_audio_path,
                                             file_path=temp_output_wav_path)
+    # Чтение преобразованного аудио
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
     # Удаление временных файлов
     os.remove(temp_tts_wav_path)
+    os.remove(temp_denoised_wav_path)
     os.remove(temp_output_wav_path)
     return (output_sample_rate, output_audio_data)
 def synthesize_speech(text, speaker_wav_path, language_iso, speed):
+    # Загрузка аудио говорящего
+    speaker_wav_tensor, speaker_sample_rate = torchaudio.load(speaker_wav_path)
+    # Преобразование в моно, если аудио стерео
+    if speaker_wav_tensor.dim() > 1 and speaker_wav_tensor.size(0) > 1:
+        speaker_wav_tensor = speaker_wav_tensor.mean(dim=0, keepdim=True)
+    # Применение денойзинга к аудио говорящего
+    denoised_speaker_wav_tensor, denoised_speaker_sample_rate = denoise(
+        speaker_wav_tensor.squeeze(), speaker_sample_rate, device
+    )
+    # Сохранение денойзенного аудио говорящего во временный файл
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_speaker_file:
+        temp_denoised_speaker_path = temp_denoised_speaker_file.name
+        torchaudio.save(
+            temp_denoised_speaker_path,
+            denoised_speaker_wav_tensor.unsqueeze(0).cpu(),
+            denoised_speaker_sample_rate
+        )
+    # Генерация речи с помощью TTS и сохранение во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_output:
         temp_tts_output_path = temp_tts_output.name
+        tts.tts_to_file(
+            text=text,
+            file_path=temp_tts_output_path,
+            speed=speed,
+            speaker_wav=temp_denoised_speaker_path,
+            language=language_iso
+        )
+    # Загрузка сгенерированного аудио
+    wav_tensor, sample_rate = torchaudio.load(temp_tts_output_path)
+    # Преобразование в моно, если аудио стерео
+    if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
+        wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
+    # Сохранение сгенерированного аудио во временный файл для voice cloning
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_vc_input_file:
+        temp_vc_input_path = temp_vc_input_file.name
+        torchaudio.save(temp_vc_input_path, wav_tensor.cpu(), sample_rate)
+    # Инициализация модели voice conversion
+    tts_conversion = TTS(
+        model_name="voice_conversion_models/multilingual/vctk/freevc24",
+        progress_bar=False
+    )
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         temp_output_wav_path = temp_output_wav_file.name
     # Преобразование голоса
+    tts_conversion.voice_conversion_to_file(
+        temp_vc_input_path,
+        target_wav=temp_denoised_speaker_path,
+        file_path=temp_output_wav_path
+    )
+    # Чтение преобразованного аудио
     output_sample_rate, output_audio_data = read(temp_output_wav_path)
     # Удаление временных файлов
+    os.remove(temp_denoised_speaker_path)
     os.remove(temp_tts_output_path)
+    os.remove(temp_vc_input_path)
     os.remove(temp_output_wav_path)
     return (output_sample_rate, output_audio_data)
                 generate,
                 inputs=[video, audio, checkpoint, no_smooth, resize_factor, pad_top, pad_bottom, pad_left, pad_right, save_as_video],
                 outputs=result,
             )
     def launch_gradio():