import gradio as gr
import os
from TTS.api import TTS
from moviepy.editor import VideoFileClip, AudioFileClip

def generar_voz(texto):
    """Genera una voz en base a un texto."""
    archivo_audio = "voz_generada.wav"
    tts = TTS("tts_models/es/css10/vits")
    tts.tts_to_file(text=texto, file_path=archivo_audio)
    return archivo_audio

def animar_avatar(imagen, video_referencia):
    """Anima la imagen usando el video de referencia con FOMM."""
    video_salida = "video_animado.mp4"
    comando = f"""
    python first-order-model/demo.py --config first-order-model/config/vox-256.yaml \
    --checkpoint first-order-model/vox-cpk.pth.tar \
    --source_image {imagen} --driving_video {video_referencia} \
    --result_video {video_salida} --relative --adapt_scale --cpu
    """
    os.system(comando)
    return video_salida

def unir_audio_video(video, audio):
    """Une el audio generado con el video animado."""
    video_clip = VideoFileClip(video)
    audio_clip = AudioFileClip(audio)
    video_clip = video_clip.set_audio(audio_clip)
    video_final = "video_final.mp4"
    video_clip.write_videofile(video_final, codec="libx264", fps=25)
    return video_final

def generar_avatar(texto, imagen, video):
    """Proceso completo: generar voz, animar imagen y unir todo."""
    archivo_audio = generar_voz(texto)
    archivo_video = animar_avatar(imagen, video)
    video_final = unir_audio_video(archivo_video, archivo_audio)
    return video_final

# Crear interfaz web con Gradio (corregido)
gr.Interface(
    fn=generar_avatar,
    inputs=[
        gr.Textbox(label="Escribe el texto que dirá el avatar"),
        gr.Image(type="filepath", label="Sube tu imagen"),
        gr.Video(label="Sube un video de referencia"),  # ✅ CORREGIDO
    ],
    outputs=gr.Video(label="Video Final con tu Avatar"),
    title="Generador de Avatar Animado con Voz",
    description="Sube una imagen, un video de referencia y un texto. El sistema generará un video animado con tu voz."
).launch()