Spaces:

meraj12
/

imaginations

Sleeping

App Files Files Community

meraj12 commited on Feb 24, 2025

Commit

c0f0405

verified ·

1 Parent(s): d915112

Create app.py

Browse files

Files changed (1) hide show

app.py +50 -0

app.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import os
+import torch
+import streamlit as st
+import torchaudio
+import tempfile
+from transformers import pipeline, AutoModelForSpeechSeq2Seq, AutoProcessor
+from diffusers import StableDiffusionPipeline
+from groq import Groq
+# Set up Groq API
+client = Groq(api_key=os.getenv("GROQ_API_KEY"))
+# Load Whisper model (Tiny)
+device = "cpu"
+whisper_model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-tiny").to(device)
+processor = AutoProcessor.from_pretrained("openai/whisper-tiny")
+whisper_pipeline = pipeline("automatic-speech-recognition", model=whisper_model, processor=processor, device=device)
+# Load Stable Diffusion model
+sd_model = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5").to(device)
+# Streamlit UI
+st.title("Voice-to-Image Generator")
+# Upload audio
+audio_file = st.file_uploader("Upload an audio file", type=["wav", "mp3", "ogg"])
+if audio_file:
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
+        temp_audio.write(audio_file.read())
+        temp_audio_path = temp_audio.name
+    # Convert speech to text
+    with torch.no_grad():
+        text_output = whisper_pipeline(temp_audio_path)["text"]
+    st.write("Transcribed Text:", text_output)
+    # Generate an image using Stable Diffusion
+    with st.spinner("Generating image..."):
+        image = sd_model(text_output).images[0]
+        st.image(image, caption="Generated Image")
+    # Optional: Use Groq API for additional processing
+    chat_completion = client.chat.completions.create(
+        messages=[{"role": "user", "content": text_output}],
+        model="llama-3.3-70b-versatile",
+    )
+    st.write("Groq AI Response:", chat_completion.choices[0].message.content)
+st.write("Powered by Whisper, Stable Diffusion, and Groq API")