Spaces:

alpercagann
/

SonicDiffusion

Runtime error

alpercagann commited on Apr 6, 2025

Commit

d9df526

1 Parent(s): e626454

Update: audio-to-image GPU-ready Gradio app

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,24 +1,38 @@
 import gradio as gr
-from app import controller  # Make sure this exists or replace with your function
 def generate_image(audio, prompt):
-    image = controller.generate(
-        audio=audio,
-        prompt=prompt,
-        cfg_scale=7.5,
-        num_inference_steps=30,
-        height=384,
-        width=384,
-    )
-    return image
-demo = gr.Interface(
     fn=generate_image,
-    inputs=["audio", "text"],
-    outputs="image",
-    title="SonicDiffusion",
-    description="Turn audio into images with a diffusion model!",
 )
-demo.launch()

 import gradio as gr
+import torch
+from diffusers import StableDiffusionPipeline
+from pydub import AudioSegment
+# === Use GPU if available ===
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# === Load model ===
+model_id = "stabilityai/stable-diffusion-2-1"
+pipe = StableDiffusionPipeline.from_pretrained(model_id)
+pipe.to(device)
+# === Define function ===
 def generate_image(audio, prompt):
+    if audio is None:
+        return None
+    # Save audio temporarily
+    audio_path = "train.wav"
+    audio.export(audio_path, format="wav")
+    result = pipe(prompt, guidance_scale=7.5, num_inference_steps=30).images[0]
+    return result
+interface = gr.Interface(
     fn=generate_image,
+    inputs=[
+        gr.Audio(source="upload", type="pydub"),
+        gr.Textbox(label="Prompt", value="A surreal dreamscape made of music"),
+    ],
+    outputs=gr.Image(type="pil"),
+    title="🎧 SonicDiffusion: Audio → Image Generator"
 )
+interface.launch()