mainmainminavoiceclone

Running

App Files Files Community

Uniaff commited on Nov 19, 2024

Commit

6617422

verified ·

1 Parent(s): 7432451

Update app.py

Browse files

Files changed (1) hide show

app.py +68 -153

app.py CHANGED Viewed

@@ -10,8 +10,6 @@ import numpy as np
 import torch
 import torchaudio
 from resemble_enhance.enhancer.inference import denoise
-from seedvc import voice_conversion
 # Установка переменных окружения для принятия лицензионных условий
 os.environ["COQUI_TOS_AGREED"] = "1"
@@ -19,17 +17,6 @@ os.environ["COQUI_TOS_AGREED"] = "1"
 # Определение устройства (CUDA или CPU)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-def normalize_audio(wave):
-    """
-    Нормализует аудиосигнал так, чтобы максимальное абсолютное значение было <= 1.0
-    """
-    max_val = np.max(np.abs(wave))
-    if max_val > 1.0:
-        wave = wave / max_val
-    return wave
 # Глобальные переменные и настройки
 language_options = {
     "English (en)": "en",
@@ -76,52 +63,23 @@ def check_audio_length(audio_path, max_duration=120):
         print(f"Error while checking audio length: {e}")
         return False
-def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed, device='cpu'):
-    """
-    Синтезирует речь на основе текста, выполняет денойзинг для клонируемого аудио и преобразование голоса.
-    Параметры:
-    - text (str): Текст для синтеза речи.
-    - language_iso (str): ISO-код языка для TTS.
-    - voice_audio_path (str): Путь к аудио-файлу для клонирования голоса.
-    - speed (float): Скорость синтеза речи.
-    - device (str): Устройство для обработки (например, 'cpu' или 'cuda').
-    Возвращает:
-    - tuple: (частота дискретизации, numpy массив аудио данных)
-    """
-    # Загрузка аудио для клонирования
-    voice_wav_tensor, voice_sample_rate = torchaudio.load(voice_audio_path)
-    # Преобразование в моно, если аудио стерео
-    if voice_wav_tensor.dim() > 1:
-        voice_wav_tensor = voice_wav_tensor.mean(dim=0, keepdim=True)
-    # Применение денойзинга к аудио для клонирования
-    denoised_voice_wav_tensor, denoised_voice_sample_rate = denoise(
-        voice_wav_tensor.squeeze(), voice_sample_rate, device=device
-    )
-    # Сохранение денойзенного аудио во временный файл
-    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_voice_file:
-        temp_denoised_voice_path = temp_denoised_voice_file.name
-        torchaudio.save(
-            temp_denoised_voice_path,
-            denoised_voice_wav_tensor.unsqueeze(0).cpu(),
-            denoised_voice_sample_rate
-        )
-    # Синтез речи с использованием TTS
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
-    # Преобразование в NumPy массив и нормализация
     wav_data_np = np.array(wav_data, dtype=np.float32)
-    wav_data_np = wav_data_np / max(1.0, np.max(np.abs(wav_data_np)))
-    # Масштабирование до int16 и временное сохранение
     wav_data_int16 = np.int16(wav_data_np * 32767)
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
         write(temp_tts_wav_path, 22050, wav_data_int16)
@@ -129,69 +87,41 @@ def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed, de
     # Загрузка синтезированного аудио
     wav_tensor, sample_rate = torchaudio.load(temp_tts_wav_path)
-    # Преобразование в моно, если требуется
-    if wav_tensor.dim() > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
-    # Применение денойзинга
-    denoised_wav_tensor, denoised_sample_rate = denoise(wav_tensor.squeeze(), sample_rate, device=device)
-    # Преобразование денойзенного тензора в NumPy массив
-    denoised_wav_np = denoised_wav_tensor.cpu().numpy()
-    # Масштабирование денойзенного аудио до int16
-    denoised_wav_int16 = np.int16(denoised_wav_np * 32767)
     # Сохранение денойзенного аудио во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_wav_file:
         temp_denoised_wav_path = temp_denoised_wav_file.name
-        write(temp_denoised_wav_path, denoised_sample_rate, denoised_wav_int16)
-    # Параметры для voice_conversion
-    diffusion_steps = 30
-    length_adjust = 1.0
-    inference_cfg_rate = 0.6
-    f0_condition = True
-    auto_f0_adjust = True
-    pitch_shift = 0
-    # Вызов функции voice_conversion
-    output_sample_rate, output_audio_data = voice_conversion(
-        source=temp_denoised_wav_path,
-        target=temp_denoised_voice_path,
-        diffusion_steps=diffusion_steps,
-        length_adjust=length_adjust,
-        inference_cfg_rate=inference_cfg_rate,
-        f0_condition=f0_condition,
-        auto_f0_adjust=auto_f0_adjust,
-        pitch_shift=pitch_shift
-    )
-    # Очистка временных файлов
-    os.remove(temp_denoised_voice_path)
-    os.remove(temp_tts_wav_path)
-    os.remove(temp_denoised_wav_path)
-    return output_sample_rate, output_audio_data
-def synthesize_speech(text, speaker_wav_path, language_iso, speed, device='cpu'):
-    """
-    Синтезирует речь на основе текста, предварительно очищая входящее аудио от шумов
-    и выполняя преобразование голоса с помощью функции voice_conversion.
-    Параметры:
-    - text (str): Текст для синтеза речи.
-    - speaker_wav_path (str): Путь к аудио говорящего для клонирования голоса.
-    - language_iso (str): ISO-код языка для TTS.
-    - speed (float): Скорость синтеза речи.
-    - device (str): Устройство для обработки (например, 'cpu' или 'cuda').
-    Возвращает:
-    - tuple: (частота дискретизации, numpy массив аудио данных)
-    """
     # Загрузка аудио говорящего
     speaker_wav_tensor, speaker_sample_rate = torchaudio.load(speaker_wav_path)
@@ -231,37 +161,38 @@ def synthesize_speech(text, speaker_wav_path, language_iso, speed, device='cpu')
     if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
-    # Сохранение сгенерированного аудио во временный файл для voice_conversion
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_vc_input_file:
         temp_vc_input_path = temp_vc_input_file.name
         torchaudio.save(temp_vc_input_path, wav_tensor.cpu(), sample_rate)
-    # Параметры для voice_conversion
-    diffusion_steps = 30
-    length_adjust = 1.0
-    inference_cfg_rate = 0.6
-    f0_condition = True
-    auto_f0_adjust = True
-    pitch_shift = 0
-    # Вызов функции voice_conversion
-    output_sample_rate, output_audio_data = voice_conversion(
-        source=temp_vc_input_path,
-        target=temp_denoised_speaker_path,
-        diffusion_steps=diffusion_steps,
-        length_adjust=length_adjust,
-        inference_cfg_rate=inference_cfg_rate,
-        f0_condition=f0_condition,
-        auto_f0_adjust=auto_f0_adjust,
-        pitch_shift=pitch_shift
     )
     # Удаление временных файлов
     os.remove(temp_denoised_speaker_path)
     os.remove(temp_tts_output_path)
     os.remove(temp_vc_input_path)
-    return output_sample_rate, output_audio_data
 def get_language_code(selected_language):
     if selected_language in language_options:
@@ -272,46 +203,30 @@ def get_language_code(selected_language):
         return None
 def process_speech(text, speaker_wav_path, selected_language, speed):
-    """
-    Обрабатывает текст, выполняет синтез речи и голосовое клонирование,
-    а также возвращает путь к сгенерированному аудио-файлу.
-    """
     language_code = get_language_code(selected_language)
     if language_code is None:
         raise ValueError("Выбранный язык не поддерживается.")
     if speaker_wav_path is None:
-        raise ValueError("Пожалуйста, загрузите аудио файл говорящего.")
     # Проверка длины аудио
-    try:
-        audio = AudioSegment.from_file(speaker_wav_path)
-        duration = audio.duration_seconds
-        if duration > 120:
-            raise ValueError("Длина аудио превышает допустимый лимит в 2 минуты.")
-    except Exception as e:
-        raise ValueError(f"Ошибка при проверке аудио: {e}")
-    try:
-        if selected_language in other_language:
-            output_sample_rate, output_audio_data = synthesize_and_convert_voice(
-                text, language_code, speaker_wav_path, speed
-            )
-        else:
-            output_sample_rate, output_audio_data = synthesize_speech(
-                text, speaker_wav_path, language_code, speed
-            )
-        # Сохранение результата в файл для вывода
-        with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_file:
-            temp_output_path = temp_output_file.name
-            write(temp_output_path, output_sample_rate, output_audio_data)
-        return temp_output_path  # Возвращаем путь к сгенерированному аудио
-    except Exception as e:
-        raise ValueError(f"Ошибка при обработке речи: {e}")
 def restart_program():
     python = sys.executable

 import torch
 import torchaudio
 from resemble_enhance.enhancer.inference import denoise
 # Установка переменных окружения для принятия лицензионных условий
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Определение устройства (CUDA или CPU)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 # Глобальные переменные и настройки
 language_options = {
     "English (en)": "en",
         print(f"Error while checking audio length: {e}")
         return False
+def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
+    # Синтез речи с помощью TTS
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
+    # Преобразование wav_data из списка в NumPy массив с типом float32
     wav_data_np = np.array(wav_data, dtype=np.float32)
+    # Нормализация данных, если необходимо
+    max_val = np.max(np.abs(wav_data_np))
+    if max_val > 1.0:
+        wav_data_np = wav_data_np / max_val
+    # Масштабирование до int16 для записи в WAV файл
     wav_data_int16 = np.int16(wav_data_np * 32767)
+    # Сохранение синтезированного аудио во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_tts_wav_file:
         temp_tts_wav_path = temp_tts_wav_file.name
         write(temp_tts_wav_path, 22050, wav_data_int16)
     # Загрузка синтезированного аудио
     wav_tensor, sample_rate = torchaudio.load(temp_tts_wav_path)
+    # Преобразование в моно, если аудио стерео
+    if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
+    # Применение денойзинга (не перемещаем wav_tensor на устройство)
+    denoised_wav_tensor, denoised_sample_rate = denoise(wav_tensor.squeeze(), sample_rate, device)
     # Сохранение денойзенного аудио во временный файл
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_denoised_wav_file:
         temp_denoised_wav_path = temp_denoised_wav_file.name
+        torchaudio.save(temp_denoised_wav_path, denoised_wav_tensor.unsqueeze(0).cpu(), denoised_sample_rate)
+    # Преобразование голоса с использованием денойзенного аудио
+    tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
+    # Подготовка временного выходного файла
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
+        temp_output_wav_path = temp_output_wav_file.name
+    # Преобразование голоса
+    tts_conversion.voice_conversion_to_file(temp_denoised_wav_path, target_wav=voice_audio_path,
+                                            file_path=temp_output_wav_path)
+    # Чтение преобразованного аудио
+    output_sample_rate, output_audio_data = read(temp_output_wav_path)
+    # Удаление временных файлов
+    os.remove(temp_tts_wav_path)
+    os.remove(temp_denoised_wav_path)
+    os.remove(temp_output_wav_path)
+    return (output_sample_rate, output_audio_data)
+def synthesize_speech(text, speaker_wav_path, language_iso, speed):
     # Загрузка аудио говорящего
     speaker_wav_tensor, speaker_sample_rate = torchaudio.load(speaker_wav_path)
     if wav_tensor.dim() > 1 and wav_tensor.size(0) > 1:
         wav_tensor = wav_tensor.mean(dim=0, keepdim=True)
+    # Сохранение сгенерированного аудио во временный файл для voice cloning
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_vc_input_file:
         temp_vc_input_path = temp_vc_input_file.name
         torchaudio.save(temp_vc_input_path, wav_tensor.cpu(), sample_rate)
+    # Инициализация модели voice conversion
+    tts_conversion = TTS(
+        model_name="voice_conversion_models/multilingual/vctk/freevc24",
+        progress_bar=False
     )
+    # Подготовка временного выходного файла
+    with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
+        temp_output_wav_path = temp_output_wav_file.name
+    # Преобразование голоса
+    tts_conversion.voice_conversion_to_file(
+        temp_vc_input_path,
+        target_wav=temp_denoised_speaker_path,
+        file_path=temp_output_wav_path
+    )
+    # Чтение преобразованного аудио
+    output_sample_rate, output_audio_data = read(temp_output_wav_path)
     # Удаление временных файлов
     os.remove(temp_denoised_speaker_path)
     os.remove(temp_tts_output_path)
     os.remove(temp_vc_input_path)
+    os.remove(temp_output_wav_path)
+    return (output_sample_rate, output_audio_data)
 def get_language_code(selected_language):
     if selected_language in language_options:
         return None
 def process_speech(text, speaker_wav_path, selected_language, speed):
     language_code = get_language_code(selected_language)
     if language_code is None:
         raise ValueError("Выбранный язык не поддерживается.")
     if speaker_wav_path is None:
+        error_message = "Пожалуйста, загрузите аудио файл говорящего."
+        error = gr.Error(error_message, duration=5)
+        raise error
     # Проверка длины аудио
+    audio = AudioSegment.from_file(speaker_wav_path)
+    duration = audio.duration_seconds
+    if duration > 120:
+        error_message = "Длина аудио превышает допустимый лимит в 2 минуты."
+        error = gr.Error(error_message, duration=5)
+        raise error
+    if selected_language in other_language:
+        output_audio_data = synthesize_and_convert_voice(text, language_code, speaker_wav_path, speed)
+    else:
+        output_audio_data = synthesize_speech(text, speaker_wav_path, language_code, speed)
+    return output_audio_data
 def restart_program():
     python = sys.executable