Spaces:

JoshKeesee
/

Riffusion-Musiccaps

Running

App Files Files Community

JoshKeesee commited on Feb 16, 2025

Commit

45a9115

verified ·

1 Parent(s): 0922826

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -9

app.py CHANGED Viewed

@@ -13,15 +13,15 @@ MODEL_ID = "Hyeon2/riffusion-musiccaps"
 pipe = StableDiffusionPipeline.from_pretrained(MODEL_ID, torch_dtype=torch.float16)
 pipe = pipe.to(device)
-def predict(prompt, negative_prompt, audio_input, duration):
-    return classic(prompt, negative_prompt, duration)
-def classic(prompt, negative_prompt, duration):
     if duration == 5:
         width_duration=512
     else:
         width_duration = 512 + ((int(duration) - 5) * 128)
-    spec = pipe(prompt, negative_prompt=negative_prompt, height=512, width=width_duration).images[0]
     print(spec)
     wav = wav_bytes_from_spectrogram_image(spec)
     with open("output.wav", "wb") as f:
@@ -114,8 +114,7 @@ with gr.Blocks(css="style.css") as demo:
         gr.HTML(title)
-        prompt_input = gr.Textbox(placeholder="a cat diva singing in a New York jazz club", label="Musical prompt", elem_id="prompt-in")
-        audio_input = gr.Audio(sources=["upload"], type="filepath", visible=False)
         with gr.Row():
             negative_prompt = gr.Textbox(label="Negative prompt")
             duration_input = gr.Slider(label="Duration in seconds", minimum=5, maximum=10, step=1, value=8, elem_id="duration-slider")
@@ -124,9 +123,9 @@ with gr.Blocks(css="style.css") as demo:
     with gr.Column(elem_id="col-container-2"):
-        spectrogram_output = gr.Image(label="spectrogram image result", elem_id="img-out")
-        sound_output = gr.Audio(type='filepath', label="spectrogram sound", elem_id="music-out")
-    send_btn.click(predict, inputs=[prompt_input, negative_prompt, audio_input, duration_input], outputs=[spectrogram_output, sound_output])
 demo.queue(max_size=250).launch(debug=True, ssr_mode=False)

 pipe = StableDiffusionPipeline.from_pretrained(MODEL_ID, torch_dtype=torch.float16)
 pipe = pipe.to(device)
+def predict(prompt, duration):
+    return classic(prompt, duration)
+def classic(prompt, duration):
     if duration == 5:
         width_duration=512
     else:
         width_duration = 512 + ((int(duration) - 5) * 128)
+    spec = pipe(prompt, height=512, width=width_duration).images[0]
     print(spec)
     wav = wav_bytes_from_spectrogram_image(spec)
     with open("output.wav", "wb") as f:
         gr.HTML(title)
+        prompt_input = gr.Textbox(placeholder="A LoFi beat", label="Musical prompt", elem_id="prompt-in")
         with gr.Row():
             negative_prompt = gr.Textbox(label="Negative prompt")
             duration_input = gr.Slider(label="Duration in seconds", minimum=5, maximum=10, step=1, value=8, elem_id="duration-slider")
     with gr.Column(elem_id="col-container-2"):
+        spectrogram_output = gr.Image(label="Spectrogram Image Result", elem_id="img-out")
+        sound_output = gr.Audio(type='filepath', label="Generated Audio", elem_id="music-out")
+    send_btn.click(predict, inputs=[prompt_input, duration_input], outputs=[spectrogram_output, sound_output])
 demo.queue(max_size=250).launch(debug=True, ssr_mode=False)