avatarconvoz / app.py
Rajor78's picture
Update app.py
d3233fc verified
import gradio as gr
import os
from TTS.api import TTS
from moviepy.editor import VideoFileClip, AudioFileClip
def generar_voz(texto):
"""Genera una voz en base a un texto."""
archivo_audio = "voz_generada.wav"
tts = TTS("tts_models/es/css10/vits")
tts.tts_to_file(text=texto, file_path=archivo_audio)
return archivo_audio
def animar_avatar(imagen, video_referencia):
"""Anima la imagen usando el video de referencia con FOMM."""
video_salida = "video_animado.mp4"
comando = f"""
python first-order-model/demo.py --config first-order-model/config/vox-256.yaml \
--checkpoint first-order-model/vox-cpk.pth.tar \
--source_image {imagen} --driving_video {video_referencia} \
--result_video {video_salida} --relative --adapt_scale --cpu
"""
os.system(comando)
return video_salida
def unir_audio_video(video, audio):
"""Une el audio generado con el video animado."""
video_clip = VideoFileClip(video)
audio_clip = AudioFileClip(audio)
video_clip = video_clip.set_audio(audio_clip)
video_final = "video_final.mp4"
video_clip.write_videofile(video_final, codec="libx264", fps=25)
return video_final
def generar_avatar(texto, imagen, video):
"""Proceso completo: generar voz, animar imagen y unir todo."""
archivo_audio = generar_voz(texto)
archivo_video = animar_avatar(imagen, video)
video_final = unir_audio_video(archivo_video, archivo_audio)
return video_final
# Crear interfaz web con Gradio (corregido)
gr.Interface(
fn=generar_avatar,
inputs=[
gr.Textbox(label="Escribe el texto que dirá el avatar"),
gr.Image(type="filepath", label="Sube tu imagen"),
gr.Video(label="Sube un video de referencia"), # ✅ CORREGIDO
],
outputs=gr.Video(label="Video Final con tu Avatar"),
title="Generador de Avatar Animado con Voz",
description="Sube una imagen, un video de referencia y un texto. El sistema generará un video animado con tu voz."
).launch()