import gradio as gr import os from TTS.api import TTS from moviepy.editor import VideoFileClip, AudioFileClip def generar_voz(texto): """Genera una voz en base a un texto.""" archivo_audio = "voz_generada.wav" tts = TTS("tts_models/es/css10/vits") tts.tts_to_file(text=texto, file_path=archivo_audio) return archivo_audio def animar_avatar(imagen, video_referencia): """Anima la imagen usando el video de referencia con FOMM.""" video_salida = "video_animado.mp4" comando = f""" python first-order-model/demo.py --config first-order-model/config/vox-256.yaml \ --checkpoint first-order-model/vox-cpk.pth.tar \ --source_image {imagen} --driving_video {video_referencia} \ --result_video {video_salida} --relative --adapt_scale --cpu """ os.system(comando) return video_salida def unir_audio_video(video, audio): """Une el audio generado con el video animado.""" video_clip = VideoFileClip(video) audio_clip = AudioFileClip(audio) video_clip = video_clip.set_audio(audio_clip) video_final = "video_final.mp4" video_clip.write_videofile(video_final, codec="libx264", fps=25) return video_final def generar_avatar(texto, imagen, video): """Proceso completo: generar voz, animar imagen y unir todo.""" archivo_audio = generar_voz(texto) archivo_video = animar_avatar(imagen, video) video_final = unir_audio_video(archivo_video, archivo_audio) return video_final # Crear interfaz web con Gradio (corregido) gr.Interface( fn=generar_avatar, inputs=[ gr.Textbox(label="Escribe el texto que dirá el avatar"), gr.Image(type="filepath", label="Sube tu imagen"), gr.Video(label="Sube un video de referencia"), # ✅ CORREGIDO ], outputs=gr.Video(label="Video Final con tu Avatar"), title="Generador de Avatar Animado con Voz", description="Sube una imagen, un video de referencia y un texto. El sistema generará un video animado con tu voz." ).launch()