Spaces:

DreamStream-1
/

RAG_Chatbot

Sleeping

App Files Files Community

DreamStream-1 commited on Jun 2, 2025

Commit

0f50d71

verified ·

1 Parent(s): 6b9dfec

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -24

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ import time
 from dotenv import load_dotenv
 from gtts import gTTS
 import io
 # Load environment variables
 load_dotenv()
@@ -379,10 +380,20 @@ def process_voice_note(audio_file, history):
     if audio_file is None:
         return "Please record or upload an audio file.", history, "", None, None
     try:
         # If audio_file is a string (filepath), open it as a file
         if isinstance(audio_file, str):
             with open(audio_file, "rb") as f:
                 transcript = rag.transcribe_audio(f)
         else:
             transcript = rag.transcribe_audio(audio_file)
         if not transcript or not str(transcript).strip():
@@ -414,37 +425,34 @@ with gr.Blocks(css=custom_css, title="Document Q&A System") as demo:
     audio_input = gr.Audio(type="filepath", label="Record or Upload Audio", elem_classes="gradio-audio", visible=False)
     tts_output = gr.Audio(label="Assistant Voice Reply", interactive=False, visible=False)
-    with gr.Row():
-        with gr.Column(scale=1, min_width=350):
-            with gr.Group(elem_classes="compact-box"):
-                gr.Markdown("<div class='section-title'>Document Q&A Controls</div>")
                 file_input = gr.File(label="Upload Document", file_types=[".pdf", ".txt", ".doc", ".docx"], file_count="single", type="binary", elem_classes="upload-btn")
                 mic_btn = gr.Button("🎤 Record Voice", elem_classes="audio-btn")
                 audio_input
                 send_voice_btn = gr.Button("Send Voice Note", elem_classes="send-btn", visible=False)
                 reset_btn = gr.Button("Reset Chat & Upload New Document", elem_classes="reset-btn")
                 file_output
-                file_input.change(process_file, file_input, file_output)
-                def reset_all():
-                    rag.thread_id = None
-                    return "", [], "", None, None
-                reset_btn.click(reset_all, None, [file_output, chatbot, question, audio_input, tts_output])
-                def show_audio():
-                    return {audio_input: gr.update(visible=True), send_voice_btn: gr.update(visible=True)}
-                mic_btn.click(show_audio, None, [audio_input, send_voice_btn])
-                def hide_audio():
-                    return {audio_input: gr.update(visible=False), send_voice_btn: gr.update(visible=False)}
-                send_voice_btn.click(process_voice_note, [audio_input, chatbot], [file_output, chatbot, question, audio_input, tts_output])
-                send_voice_btn.click(hide_audio, None, [audio_input, send_voice_btn])
-                tts_output
-        with gr.Column(scale=3, min_width=500):
-            with gr.Group(elem_classes="compact-box"):
                 chatbot
-                with gr.Row():
-                    question
-                    send_btn = gr.Button("Send", elem_classes="send-btn")
-                send_btn.click(process_question, [question, chatbot], [question, chatbot, question, audio_input])
-                question.submit(process_question, [question, chatbot], [question, chatbot, question, audio_input])
     # Add JavaScript for audio handling
     demo.load(

 from dotenv import load_dotenv
 from gtts import gTTS
 import io
+import numpy as np
 # Load environment variables
 load_dotenv()
     if audio_file is None:
         return "Please record or upload an audio file.", history, "", None, None
     try:
+        transcript = None
         # If audio_file is a string (filepath), open it as a file
         if isinstance(audio_file, str):
             with open(audio_file, "rb") as f:
                 transcript = rag.transcribe_audio(f)
+        # If audio_file is a tuple (sample_rate, np.ndarray), save as temp WAV and open
+        elif isinstance(audio_file, tuple) and isinstance(audio_file[1], np.ndarray):
+            import soundfile as sf
+            sample_rate, audio_data = audio_file
+            with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
+                sf.write(tmp.name, audio_data, sample_rate)
+                tmp.flush()
+                with open(tmp.name, "rb") as f:
+                    transcript = rag.transcribe_audio(f)
         else:
             transcript = rag.transcribe_audio(audio_file)
         if not transcript or not str(transcript).strip():
     audio_input = gr.Audio(type="filepath", label="Record or Upload Audio", elem_classes="gradio-audio", visible=False)
     tts_output = gr.Audio(label="Assistant Voice Reply", interactive=False, visible=False)
+    with gr.Group(elem_classes="compact-box"):
+        gr.Markdown("<div class='section-title'>Document Q&A</div>")
+        with gr.Row():
+            with gr.Column(scale=1, min_width=350):
                 file_input = gr.File(label="Upload Document", file_types=[".pdf", ".txt", ".doc", ".docx"], file_count="single", type="binary", elem_classes="upload-btn")
                 mic_btn = gr.Button("🎤 Record Voice", elem_classes="audio-btn")
                 audio_input
                 send_voice_btn = gr.Button("Send Voice Note", elem_classes="send-btn", visible=False)
                 reset_btn = gr.Button("Reset Chat & Upload New Document", elem_classes="reset-btn")
                 file_output
+            with gr.Column(scale=3, min_width=500):
                 chatbot
+        with gr.Row():
+            question
+        file_input.change(process_file, file_input, file_output)
+        def reset_all():
+            rag.thread_id = None
+            return "", [], "", None, None
+        reset_btn.click(reset_all, None, [file_output, chatbot, question, audio_input, tts_output])
+        def show_audio():
+            return {audio_input: gr.update(visible=True), send_voice_btn: gr.update(visible=True)}
+        mic_btn.click(show_audio, None, [audio_input, send_voice_btn])
+        def hide_audio():
+            return {audio_input: gr.update(visible=False), send_voice_btn: gr.update(visible=False)}
+        send_voice_btn.click(process_voice_note, [audio_input, chatbot], [file_output, chatbot, question, audio_input, tts_output])
+        send_voice_btn.click(hide_audio, None, [audio_input, send_voice_btn])
+        question.submit(process_question, [question, chatbot], [question, chatbot, question, audio_input])
+        tts_output
     # Add JavaScript for audio handling
     demo.load(