Spaces:

RafaG
/

TTS-Rapido

Running

App Files Files Community

TTS-Rapido / edgeTTS.py

RafaG

Upload 2 files

4e15284 verified 5 months ago

raw

history blame contribute delete

7.06 kB

	# edgeTTS.py

	import subprocess
	import os
	import json
	import asyncio
	from pathlib import Path
	import pysrt
	from tqdm import tqdm
	import shutil

	# Importa funções do nosso arquivo de utilidades
	from utils import remove_silence, timetoms, merge_audio_files, adjust_audio_speed

	# --- Funções de Gerenciamento de Voz ---
	def load_voices():
	with open('voices.json', 'r', encoding='utf-8') as f:
	return json.load(f)

	def get_voice_options(language, voices_data):
	if language in voices_data:
	return [f"{voice['name']} \| {voice['gender']}" for voice in voices_data[language]]
	return []

	def extract_voice_name(formatted_voice):
	return formatted_voice.split(" \| ")[0]

	# --- Funções de Geração de Áudio (Edge-TTS) ---
	def generate_audio(texto, modelo_de_voz, velocidade, tom, volume):
	actual_voice = extract_voice_name(modelo_de_voz)
	rate_str = f"+{velocidade}%" if velocidade >= 0 else f"{velocidade}%"
	pitch_str = f"+{tom}Hz" if tom >= 0 else f"{tom}Hz"
	volume_str = f"+{volume}%" if volume >= 0 else f"{volume}%"

	output_dir = "output"
	os.makedirs(output_dir, exist_ok=True)
	output_file = os.path.join(output_dir, "new_audio.mp3")

	cmd = ["edge-tts", "--rate=" + rate_str, "--pitch=" + pitch_str, "--volume=" + volume_str,
	"-v", actual_voice, "-t", texto, "--write-media", output_file]

	print("Gerando áudio com Edge-TTS...")
	try:
	subprocess.run(cmd, check=True, capture_output=True, text=True)
	print("Áudio gerado com sucesso!")
	return output_file
	except subprocess.CalledProcessError as e:
	print(f"Erro ao gerar áudio: {e.stderr}")
	return None

	def generate_audio_from_file(file_path, modelo_de_voz, velocidade, tom, volume):
	actual_voice = extract_voice_name(modelo_de_voz)
	rate_str = f"+{velocidade}%" if velocidade >= 0 else f"{velocidade}%"
	pitch_str = f"+{tom}Hz" if tom >= 0 else f"{tom}Hz"
	volume_str = f"+{volume}%" if volume >= 0 else f"{volume}%"

	output_dir = "output"
	os.makedirs(output_dir, exist_ok=True)
	output_file = os.path.join(output_dir, "new_audio.mp3")

	cmd = ["edge-tts", "-f", file_path, "--rate=" + rate_str, "--pitch=" + pitch_str,
	"--volume=" + volume_str, "-v", actual_voice, "--write-media", output_file]

	print("Gerando áudio do arquivo com Edge-TTS...")
	try:
	subprocess.run(cmd, check=True, capture_output=True, text=True)
	print("Áudio gerado com sucesso!")
	return output_file
	except subprocess.CalledProcessError as e:
	print(f"Erro ao gerar áudio do arquivo: {e.stderr}")
	return None

	# --- Funções Controladoras (Edge-TTS) ---
	def controlador_generate_audio(audio_input, voice_model_input, speed, pitch, volume, cut_silence):
	audio_file = generate_audio(audio_input, voice_model_input, speed, pitch, volume)
	if audio_file and cut_silence:
	print("Removendo silêncio...")
	remove_silence(audio_file, audio_file)
	print("Silêncio removido.")
	return audio_file

	def controlador_generate_audio_from_file(file, voice_model_input, speed, pitch, volume, cut_silence):
	if not file: return None
	audio_file = generate_audio_from_file(file.name, voice_model_input, speed, pitch, volume)
	if audio_file and cut_silence:
	print("Cortando silêncio...")
	remove_silence(audio_file, audio_file)
	print("Silêncio removido com sucesso!")
	return audio_file

	# --- Lógica de Processamento de SRT (Usa Edge-TTS) ---
	async def process_srt_file(srt_file_path, voice, output_dir_str, pitch, volume, srt_temp_deleta, progress=None):
	from edge_tts import Communicate as EdgeTTS
	from pydub import AudioSegment # Adicionado para gerar silêncio

	subs = pysrt.open(srt_file_path)
	output_dir = Path(output_dir_str)
	output_dir.mkdir(parents=True, exist_ok=True)

	pitch_str = f"+{pitch}Hz" if pitch >= 0 else f"{pitch}Hz"
	volume_str = f"+{volume}%" if volume >= 0 else f"{volume}%"
	max_retries = 3 # Número de tentativas para cada legenda

	with tqdm(total=len(subs), desc="Gerando e ajustando áudios com EdgeTTS", unit="segmento") as pbar:
	for sub in subs:
	output_file = output_dir / f"{sub.index:02d}.mp3"
	temp_file = output_dir / f"{sub.index:02d}_temp.mp3"
	target_duration_ms = timetoms(sub.end) - timetoms(sub.start)

	# Só processa se o arquivo final não existir
	if not output_file.exists() or output_file.stat().st_size == 0:
	success = False
	# Loop de retentativa
	for attempt in range(max_retries):
	try:
	tts_edge = EdgeTTS(text=sub.text, voice=voice, pitch=pitch_str, volume=volume_str)
	await tts_edge.save(str(temp_file))

	# Verifica se o arquivo foi realmente criado e não está vazio
	if temp_file.exists() and temp_file.stat().st_size > 0:
	await adjust_audio_speed(str(temp_file), str(output_file), target_duration_ms)
	os.remove(temp_file)
	success = True
	break # Sai do loop de retentativa se tiver sucesso
	else:
	print(f"Aviso: Tentativa {attempt + 1} para o índice {sub.index} falhou (arquivo não criado). Retentando...")

	except Exception as e:
	print(f"Aviso: Tentativa {attempt + 1} para o índice {sub.index} falhou com erro: {e}. Retentando...")

	await asyncio.sleep(1) # Espera 1 segundo antes da próxima tentativa

	# Se todas as tentativas falharem, gera silêncio
	if not success:
	print(f"ERRO: Todas as {max_retries} tentativas falharam para o índice {sub.index}. Gerando silêncio.")
	silent_segment = AudioSegment.silent(duration=target_duration_ms)
	silent_segment.export(str(output_file), format="mp3")

	pbar.update(1)

	final_audio = await merge_audio_files(output_dir, srt_file_path)

	if srt_temp_deleta:
	shutil.rmtree(output_dir, ignore_errors=True)
	print(f"Pasta temporária {output_dir} apagada.")

	return final_audio

	def controlador_process_srt_file(srt_file, voice_model_input, pitch, volume, srt_temp_deleta, progress=None):
	if not srt_file: return None
	actual_voice = extract_voice_name(voice_model_input)
	srt_filename_stem = Path(srt_file.name).stem
	output_dir = f"output/srt_temp_{srt_filename_stem}"

	return asyncio.run(process_srt_file(srt_file.name, actual_voice, output_dir, pitch, volume, srt_temp_deleta))