Spaces:

Jdbbd
/

Fggfg

Paused

App Files Files Community

Ksjsjjdj commited on Dec 19, 2025

Commit

d357fb1

verified ·

1 Parent(s): 8692393

Create app.py

Browse files

Files changed (1) hide show

app.py +89 -0

app.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import os
+import torch
+import gradio as gr
+from pathlib import Path
+from PIL import Image
+import soundfile as sf
+MODEL_ID = "Wan-AI/Wan2.2-S2V-14B"  # HF repo del modelo Speech-to-Video :contentReference[oaicite:1]{index=1}
+LOCAL_DIR = Path("wan2.2_s2v_model")
+# 🟡 Instalar deps al iniciar
+print("Instalando dependencias…")
+os.system("pip install -q diffusers transformers accelerate safetensors gradio soundfile ffmpeg-python huggingface-hub")
+# 💾 Descargar modelo (usa HF CLI)
+print("Descargando modelo…")
+os.system(f"pip install -q \"huggingface_hub[cli]\"")
+os.system(f"huggingface-cli download {MODEL_ID} --local-dir {LOCAL_DIR}")
+# 📦 Import pipeline (después de instalar)
+from diffusers import DiffusionPipeline
+def load_audio(file):
+    wav, sr = sf.read(file.name, dtype="float32")
+    if wav.ndim > 1:
+        wav = wav.mean(axis=1)
+    return wav, sr
+def generate_video(image, audio_file):
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    dtype = torch.float16 if device=="cuda" else torch.float32
+    # Cargar pipeline desde el local descargado
+    print("Cargando Diffusers Pipeline desde:", LOCAL_DIR)
+    pipe = DiffusionPipeline.from_pretrained(
+        LOCAL_DIR,
+        torch_dtype=dtype,
+        use_safetensors=True,
+        device_map="auto" if device=="cuda" else None
+    )
+    # Preparar inputs
+    audio_array, sample_rate = load_audio(audio_file)
+    init_image = image.convert("RGB")
+    # Llamar a pipeline (ajustá parámetros según resultados)
+    out = pipe(
+        image=init_image,
+        audio=audio_array,
+        audio_sample_rate=sample_rate,
+        num_inference_steps=25,
+        guidance_scale=4.0,
+        frame_rate=16,
+        max_frames=64,
+    )
+    # Extraer frames
+    frames = getattr(out, "frames", getattr(out, "images", out))
+    # Guardar video con ffmpeg
+    import tempfile, subprocess
+    tmpdir = tempfile.mkdtemp()
+    for i, f in enumerate(frames):
+        fname = Path(tmpdir) / f"frame_{i:04d}.png"
+        f.save(fname)
+    out_video = "wan_s2v_output.mp4"
+    subprocess.run([
+        "ffmpeg", "-y", "-framerate", "16",
+        "-i", str(Path(tmpdir) / "frame_%04d.png"),
+        "-c:v", "libx264", "-pix_fmt", "yuv420p", out_video
+    ], check=True)
+    return out_video
+# ────────── Gradio UI ──────────
+with gr.Blocks() as demo:
+    gr.Markdown("# 🎬 Wan2.2-S2V (Speech-to-Video) Gradio App")
+    with gr.Row():
+        img = gr.Image(label="Imagen de referencia")
+        audio = gr.Audio(label="Audio (.wav)")
+    btn = gr.Button("Generar Video")
+    out_video = gr.Video(label="Resultado de Video")
+    btn.click(generate_video, inputs=[img, audio], outputs=out_video)
+# 🟦 Lanzar en HuggingFace Space
+demo.launch()