multimodal-video-audio

Runtime error

App Files Files Community

dmsouza commited on Sep 6, 2025

Commit

69561ec

verified ·

1 Parent(s): 8e722ac

app.py

Browse files

import gradio as gr
from transformers import pipeline
import soundfile as sf
from moviepy.editor import VideoClip, AudioFileClip
from PIL import Image, ImageDraw, ImageFont
import numpy as np

# ===== Criar pipeline TTS =====
tts_model = pipeline(
"text-to-speech",
model="espnet/kan-bayashi_ljspeech_tts_train_tacotron2"
)

def gerar_video_premium(prompt_texto):
"""
Função:
1. Gera áudio via TTS
2. Cria vídeo animado com cores dinâmicas
3. Adiciona áudio
4. Retorna caminho do vídeo
"""
# ===== Gerar áudio =====
tts_output = tts_model(prompt_texto)
sf.write("audio.wav", tts_output["array"], samplerate=tts_output["sampling_rate"])
audio_clip = AudioFileClip("audio.wav")
duracao = audio_clip.duration

# ===== Função de frame animado =====
largura, altura = 1280, 720
def make_frame(t):
# Fundo animado com cores oscilando
frame = np.zeros((altura, largura, 3), dtype=np.uint8)
r = int((np.sin(t*2*np.pi/5) + 1) * 127)
g = int((np.sin(t*2*np.pi/3 + 1) + 1) * 127)
b = int((np.sin(t*2*np.pi/4 + 2) + 1) * 127)
frame[:, :, 0] = r
frame[:, :, 1] = g
frame[:, :, 2] = b

# Adicionar texto centralizado
pil_img = Image.fromarray(frame)
draw = ImageDraw.Draw(pil_img)
font = ImageFont.load_default()
text_size = draw.textsize(prompt_texto, font=font)
draw.text(
((largura - text_size[0]) / 2, (altura - text_size[1]) / 2),
prompt_texto, fill=(255, 255, 255), font=font
)
return np.array(pil_img)

# ===== Criar vídeo =====
video_clip = VideoClip(make_frame, duration=duracao).set_audio(audio_clip)

# ===== Salvar vídeo =====
video_clip.write_videofile("video_final.mp4", fps=24, codec="libx264", audio_codec="aac")

return "video_final.mp4"

# ===== Interface Gradio =====
iface = gr.Interface(
fn=gerar_video_premium,
inputs=gr.Textbox(label="Digite o prompt para gerar vídeo e áudio"),
outputs=gr.Video(label="Vídeo gerado"),
title="Gerador Premium de Vídeo + Áudio",
description="Digite qualquer prompt. O Space gera um vídeo animado profissional com TTS."
)

iface.launch()

![bolsa.webp](https://cdn-uploads.huggingface.co/production/uploads/681cd9032a7e275d9d677aa6/BRJPMtSUQlJM-WBXZrZ0Z.webp)

Files changed (1) hide show

app.py +56 -22

app.py CHANGED Viewed

@@ -1,35 +1,69 @@
 from transformers import pipeline
 import soundfile as sf
-from moviepy.editor import ImageClip, AudioFileClip, concatenate_videoclips
 from PIL import Image, ImageDraw, ImageFont
 import numpy as np
-# ===== 1️⃣ Criar TTS =====
 tts_model = pipeline(
     "text-to-speech",
     model="espnet/kan-bayashi_ljspeech_tts_train_tacotron2"
 )
-texto = "Olá! Este é um teste de geração de áudio e vídeo."
-# ===== 2️⃣ Gerar áudio =====
-output = tts_model(texto)
-sf.write("saida.wav", output["array"], samplerate=output["sampling_rate"])
-# ===== 3️⃣ Criar imagem de fundo =====
-largura, altura = 1280, 720
-img = Image.new('RGB', (largura, altura), color=(30, 30, 30))
-draw = ImageDraw.Draw(img)
-font = ImageFont.load_default()
-draw.text((50, altura//2 - 10), texto, fill=(255, 255, 255), font=font)
-img.save("background.png")
-# ===== 4️⃣ Criar clipe de vídeo =====
-audio_clip = AudioFileClip("saida.wav")
-image_clip = ImageClip("background.png").set_duration(audio_clip.duration)
-video_clip = image_clip.set_audio(audio_clip)
-# ===== 5️⃣ Salvar vídeo =====
-video_clip.write_videofile("saida.mp4", fps=24)
-print("Vídeo gerado com sucesso! Verifique o arquivo 'saida.mp4'.")

+import gradio as gr
 from transformers import pipeline
 import soundfile as sf
+from moviepy.editor import VideoClip, AudioFileClip
 from PIL import Image, ImageDraw, ImageFont
 import numpy as np
+# ===== Criar pipeline TTS =====
 tts_model = pipeline(
     "text-to-speech",
     model="espnet/kan-bayashi_ljspeech_tts_train_tacotron2"
 )
+def gerar_video_premium(prompt_texto):
+    """
+    Função:
+    1. Gera áudio via TTS
+    2. Cria vídeo animado com cores dinâmicas
+    3. Adiciona áudio
+    4. Retorna caminho do vídeo
+    """
+    # ===== Gerar áudio =====
+    tts_output = tts_model(prompt_texto)
+    sf.write("audio.wav", tts_output["array"], samplerate=tts_output["sampling_rate"])
+    audio_clip = AudioFileClip("audio.wav")
+    duracao = audio_clip.duration
+    # ===== Função de frame animado =====
+    largura, altura = 1280, 720
+    def make_frame(t):
+        # Fundo animado com cores oscilando
+        frame = np.zeros((altura, largura, 3), dtype=np.uint8)
+        r = int((np.sin(t*2*np.pi/5) + 1) * 127)
+        g = int((np.sin(t*2*np.pi/3 + 1) + 1) * 127)
+        b = int((np.sin(t*2*np.pi/4 + 2) + 1) * 127)
+        frame[:, :, 0] = r
+        frame[:, :, 1] = g
+        frame[:, :, 2] = b
+        # Adicionar texto centralizado
+        pil_img = Image.fromarray(frame)
+        draw = ImageDraw.Draw(pil_img)
+        font = ImageFont.load_default()
+        text_size = draw.textsize(prompt_texto, font=font)
+        draw.text(
+            ((largura - text_size[0]) / 2, (altura - text_size[1]) / 2),
+            prompt_texto, fill=(255, 255, 255), font=font
+        )
+        return np.array(pil_img)
+    # ===== Criar vídeo =====
+    video_clip = VideoClip(make_frame, duration=duracao).set_audio(audio_clip)
+    # ===== Salvar vídeo =====
+    video_clip.write_videofile("video_final.mp4", fps=24, codec="libx264", audio_codec="aac")
+    return "video_final.mp4"
+# ===== Interface Gradio =====
+iface = gr.Interface(
+    fn=gerar_video_premium,
+    inputs=gr.Textbox(label="Digite o prompt para gerar vídeo e áudio"),
+    outputs=gr.Video(label="Vídeo gerado"),
+    title="Gerador Premium de Vídeo + Áudio",
+    description="Digite qualquer prompt. O Space gera um vídeo animado profissional com TTS."
+)
+iface.launch()