Spaces:

gopalagra
/

blind-image-captioning

Runtime error

App Files Files Community

gopalagra commited on Jan 3

Commit

0888801

verified ·

1 Parent(s): aeaa361

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -24

app.py CHANGED Viewed

@@ -355,34 +355,24 @@ def vqa_answer(image, question):
 recognizer = sr.Recognizer()
 mic = sr.Microphone()
-def voice_question_answer(image):
     global scene_context
-    # Passive listening: wait for trigger phrase
-    print("🔊 Listening for trigger phrase 'Ask question'...")
-    with mic as source:
-        recognizer.adjust_for_ambient_noise(source)
-        audio = recognizer.listen(source)
-    try:
-        trigger_text = recognizer.recognize_google(audio).lower()
-        if "ask question" not in trigger_text:
-            return "No trigger phrase detected. Say 'Ask question' to ask a question."
-    except:
-        return "Could not understand trigger phrase. Try again."
-    # Active listening: capture actual question
-    print("🎤 Trigger detected! Listening for your question...")
-    speak("You can ask your question now")
-    with mic as source:
-        audio = recognizer.listen(source)
     try:
         question = recognizer.recognize_google(audio)
     except:
         return "Could not understand your question. Try again."
     # Get answer
     answer = vqa_answer(image, question)
-    speak(answer)
-    return f"Question: {question}\nAnswer: {answer}"
 # ----------------------
 # Gradio UI
@@ -401,10 +391,17 @@ with gr.Blocks(title="BLIP Vision App") as demo:
         btn1.click(generate_caption_translate_speak, inputs=[img_in, lang_in], outputs=[eng_out, trans_out, audio_out])
     with gr.Tab("Voice Question Answering"):
-        img_vqa = gr.Image(type="pil", label="Upload Image for Voice Q&A")
-        voice_out = gr.Textbox(label="Voice Q&A Output")
-        btn_voice = gr.Button("Start Voice Q&A")
-        btn_voice.click(voice_question_answer, inputs=img_vqa, outputs=voice_out)
     with gr.Tab("Text VQA (Optional)"):
         with gr.Row():

 recognizer = sr.Recognizer()
 mic = sr.Microphone()
+# Voice Q&A function
+def voice_question_answer(image, voice_file):
     global scene_context
+    # Convert recorded audio to text
+    import speech_recognition as sr
+    recognizer = sr.Recognizer()
     try:
+        with sr.AudioFile(voice_file) as source:
+            audio = recognizer.record(source)
         question = recognizer.recognize_google(audio)
     except:
         return "Could not understand your question. Try again."
     # Get answer
     answer = vqa_answer(image, question)
+    # Speak answer
+    audio_path = speak(answer)
+    return f"Question: {question}\nAnswer: {answer}", audio_path
 # ----------------------
 # Gradio UI
         btn1.click(generate_caption_translate_speak, inputs=[img_in, lang_in], outputs=[eng_out, trans_out, audio_out])
     with gr.Tab("Voice Question Answering"):
+    img_vqa = gr.Image(type="pil", label="Upload Image for Voice Q&A")
+    voice_in = gr.Audio(source="microphone", type="filepath", label="Speak your question")
+    voice_out_text = gr.Textbox(label="Voice Q&A Output")
+    voice_out_audio = gr.Audio(label="Spoken Answer", type="filepath")
+    btn_voice = gr.Button("Get Answer")
+    btn_voice.click(
+        voice_question_answer,
+        inputs=[img_vqa, voice_in],
+        outputs=[voice_out_text, voice_out_audio]
+    )
     with gr.Tab("Text VQA (Optional)"):
         with gr.Row():