Spaces:

Steven-GU-Yu-Di
/

ISOM5240-Group4-Project-Version2

Runtime error

App Files Files Community

Steven-GU-Yu-Di commited on Mar 22, 2024

Commit

16ac1d6

verified ·

1 Parent(s): c85c703

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -33

app.py CHANGED Viewed

@@ -1,43 +1,35 @@
-import streamlit as st
-from transformers import pipeline
-from PIL import Image
-# Load the Visual Question Answering (VQA) model
-vqa_model = pipeline("text-generation", model="Steven-GU-Yu-Di/Visual-Question-Answering")
-# Load the Text-to-Speech (TTS) model
-tts = pipeline("text-to-audio", model="Steven-GU-Yu-Di/Text-to-Speech")
-# Create a Streamlit app
-st.title("Visual Question Answering and Text-to-Speech")
-# Sidebar for user inputs
-uploaded_image = st.file_uploader("Upload Image", type=["jpg", "jpeg", "png"])
-question_input = st.text_input("Enter Question")
-# Function to perform Visual Question Answering and Text-to-Speech
-def perform_vqa_and_tts(image, question):
-    if image is not None and question:
-        image = Image.open(image)
-        st.image(image, caption="Uploaded Image", use_column_width=True)
-        st.write("Question:", question)
-        # Visual Question Answering
-        vqa_input = {
-            "question": question,
-            "context": "This is an image.",
-        }
-        vqa_output = vqa_model(image=image, **vqa_input)
-        answer = vqa_output['answer']
-        st.write("Answer:", answer)
-        # Text-to-Speech using TTS model
-        audio_output = tts(answer)
-        audio_bytes = audio_output[0]['audio']
-        st.audio(audio_bytes, format='audio/wav')
-# Button to trigger Visual Question Answering and Text-to-Speech
-if st.button("Perform VQA and TTS"):
-    perform_vqa_and_tts(uploaded_image, question_input)

+import os
+os.system('pip install torch')
+os.system('pip install transformers')
+from PIL import Image
+import io
+import streamlit as st
+from transformers import pipeline
+vqa_pipeline = pipeline("visual-question-answering", model="microsoft/git-base-vqav2")
+tts_pipeline = pipeline("text-to-speech", "suno/bark")
+def main():
+    st.title("Visual Question Answering & Text-to-Audio App")
+    image = st.file_uploader("Upload an image", type=["jpg", "png"])
+    question = st.text_input("Enter your question")
+    if image and question:
+        image = Image.open(io.BytesIO(image.getvalue()))
+        vqa_result = vqa_pipeline({"image": image, "question": question})
+        answer = vqa_result[0]['answer']
+        st.write(f"Answer: {answer}")
+        if st.button("Convert Answer to Audio"):
+            tts_result = tts_pipeline(answer)
+            audio_data = tts_result['audio']
+            st.audio(audio_data, format="audio/ogg")
+if __name__ == "__main__":
+    main()