Spaces:

RP-Azul
/

P1

Sleeping

RP-Azul commited on Nov 4, 2024

Commit

f2d73f4

verified ·

1 Parent(s): 692c7fe

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,16 +11,30 @@ pipe3 = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusio
 pipe3.to("cuda" if torch.cuda.is_available() else "cpu")
 def audio_to_image(audio):
-    transcription = pipe1(audio)
-    transcription_text = transcription['text']
-    summary = pipe2(transcription_text, max_length=50, min_length=10, do_sample=False)
-    summary_text = summary[0]['summary_text']
-    prompt = summary_text
-    image = pipe3(prompt).images[0]
-    return image
 demo = gr.Interface(fn=audio_to_image, inputs=gr.Audio(), outputs="image")
 demo.launch(share=True)

 pipe3.to("cuda" if torch.cuda.is_available() else "cpu")
 def audio_to_image(audio):
+    try:
+        # code sample from onl;ine
+        if isinstance(audio, tuple):
+            # If Gradio provides (sample rate, numpy array), save it as a temporary file
+            sr, audio_data = audio
+            with tempfile.NamedTemporaryFile(suffix=".wav") as temp_audio_file:
+                librosa.output.write_wav(temp_audio_file.name, audio_data, sr)
+                transcription = pipe1(temp_audio_file.name)
+        else:
+            # If Gradio provides a file path, use it directly
+            transcription = pipe1(audio)
+        transcription_text = transcription['text']
+        summary = pipe2(transcription_text, max_length=50, min_length=10, do_sample=False)
+        summary_text = summary[0]['summary_text']
+        prompt = summary_text
+        image = pipe3(prompt).images[0]
+        return image
+    except Exception as e:
+        print(f"Error during processing: {e}")
+        return None
 demo = gr.Interface(fn=audio_to_image, inputs=gr.Audio(), outputs="image")
 demo.launch(share=True)