Spaces:

asad9641
/

AI-Powered-Talk-Bot

Sleeping

App Files Files Community

asad9641 commited on Nov 20, 2025

Commit

5c70b41

verified ·

1 Parent(s): c88db1d

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -70

app.py CHANGED Viewed

@@ -86,9 +86,8 @@ def select_relevant_chunk(question, chunks, chunk_embeds):
 def _chat_display_to_messages(chat_display):
     msgs = []
     for user, assistant in chat_display:
-        if user and assistant:  # only include valid strings
-            msgs.append({"role": "user", "content": str(user)})
-            msgs.append({"role": "assistant", "content": str(assistant)})
     return msgs
 # ------------------ Transcription & LLM ------------------
@@ -108,25 +107,9 @@ def transcribe_audio(audio_path):
         return f"Error transcribing audio: {e}"
 def groq_chat_completion(messages):
-    # Ensure all messages are dicts with 'role' and 'content' as non-empty strings
-    safe_msgs = []
-    for m in messages:
-        if isinstance(m, dict):
-            role = m.get("role")
-            content = m.get("content")
-            if role in ("user", "assistant", "system") and isinstance(content, str) and content.strip():
-                safe_msgs.append({"role": role, "content": content.strip()})
-    if not safe_msgs:
-        return "Error: No valid messages to send to API."
-    body = {"model": "llama-3.1-8b-instant", "messages": safe_msgs}
     try:
-        resp = requests.post(
-            "https://api/groq.com/openai/v1/chat/completions",
-            headers=HEADERS,
-            json=body,
-            timeout=60
-        )
         resp.raise_for_status()
         return resp.json()["choices"][0]["message"]["content"]
     except Exception as e:
@@ -134,9 +117,6 @@ def groq_chat_completion(messages):
         return f"Error generating response: {e}"
 def generate_response(session_id, user_text, enhancer_enabled=False, enhancer_tone="Helpful"):
-    if not isinstance(user_text, str) or not user_text.strip():
-        user_text = "No input provided."
     if session_id not in SESSION_HISTORY:
         SESSION_HISTORY[session_id] = []
@@ -147,7 +127,7 @@ def generate_response(session_id, user_text, enhancer_enabled=False, enhancer_to
         messages.append({"role": "user", "content": f"Enhance response. Tone: {enhancer_tone}. Question: {user_text}"})
     assistant_text = groq_chat_completion(messages)
-    SESSION_HISTORY[session_id].append({"role": "assistant", "content": assistant_text or "No response generated."})
     return assistant_text
 # ------------------ PDF handling ------------------
@@ -179,6 +159,7 @@ def handle_pdf_question(question, session_id):
         {"role": "user", "content": f"PDF chunk:\n{chunk}\n\nQuestion: {question}"}
     ]
     assistant_text = groq_chat_completion(messages)
     assistant_text = f"**Snippet from PDF:**\n{chunk[:200]}...\n\n**Answer:**\n{assistant_text}"
     if session_id not in SESSION_HISTORY:
         SESSION_HISTORY[session_id] = []
@@ -246,71 +227,52 @@ def generate_pdf_file(text, filename_prefix="summary"):
     pdf.output(file_path)
     return file_path
-# ------------------ Full summary download (SAFE) ------------------
-def download_full_summary(session_voice, session_pdf, session_image):
-    combined = []
-    for session, label in zip([session_voice, session_pdf, session_image], ["🎤 VOICE", "📄 PDF", "🖼 IMAGE"]):
-        history = SESSION_HISTORY.get(session, [])
-        for m in history:
-            if isinstance(m, dict) and m.get("role") == "assistant" and isinstance(m.get("content"), str) and m["content"].strip():
-                combined.append(f"{label}:\n{m['content']}")
-    if not combined:
-        combined.append("No summary available.")
-    summary_text = "\n\n".join(combined)
-    return generate_pdf_file(summary_text, "full_summary")
 # ------------------ Voice & Chat Handlers ------------------
 def _append_chat_display(session_id, user_text, assistant_text):
     if session_id not in CHAT_DISPLAY:
         CHAT_DISPLAY[session_id] = []
-    CHAT_DISPLAY[session_id].append((str(user_text or ""), str(assistant_text or "")))
 def handle_voice_general(audio_file, session_id, tts_lang="en", enhancer_enabled=False, enhancer_tone="Helpful"):
     path = _get_path_from_gr_file(audio_file)
     if not path:
         return "No audio provided.", None, []
     user_text = transcribe_audio(path)
     assistant_text = generate_response(session_id, user_text, enhancer_enabled, enhancer_tone)
     _append_chat_display(session_id, user_text, assistant_text)
     audio_path = synthesize_speech(assistant_text, lang=tts_lang)
-    return assistant_text, audio_path, CHAT_DISPLAY[session_id]
 def handle_voice_pdf(audio_file, session_id, tts_lang="en"):
     path = _get_path_from_gr_file(audio_file)
     if not path:
         return "No audio provided.", None, []
     user_text = transcribe_audio(path)
     assistant_text = handle_pdf_question(user_text, session_id)
     _append_chat_display(session_id, user_text, assistant_text)
     audio_path = synthesize_speech(assistant_text, lang=tts_lang)
-    return assistant_text, audio_path, CHAT_DISPLAY[session_id]
 def handle_voice_image(audio_file, session_id, tts_lang="en"):
     path = _get_path_from_gr_file(audio_file)
     if not path:
         return "No audio provided.", None, []
     user_text = transcribe_audio(path)
     assistant_text = handle_image_question(user_text, session_id)
     _append_chat_display(session_id, user_text, assistant_text)
     audio_path = synthesize_speech(assistant_text, lang=tts_lang)
-    return assistant_text, audio_path, CHAT_DISPLAY[session_id]
 def handle_text_general(user_text, session_id, enhancer_enabled=False, enhancer_tone="Helpful"):
     assistant = generate_response(session_id, user_text, enhancer_enabled, enhancer_tone)
     _append_chat_display(session_id, user_text, assistant)
-    return assistant, CHAT_DISPLAY[session_id]
 def handle_text_pdf(question, session_id):
     return handle_pdf_question(question, session_id)
@@ -322,9 +284,10 @@ def handle_text_image(question, session_id):
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.HTML("""
     <style>
         #mic_box audio {
-            height: 50px !important;
-            width: 200px !important;
         }
     </style>
     """)
@@ -333,11 +296,13 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
     session_voice = gr.State(str(uuid.uuid4()))
     session_pdf = gr.State(str(uuid.uuid4()))
     session_image = gr.State(str(uuid.uuid4()))
     with gr.Tab("🎤 Voice Chat"):
         chat_voice = gr.Chatbot(type="messages", height=300)
         with gr.Row():
-            mic = gr.Audio(type="filepath", label="🎤 Record Voice (hold & speak)", show_download_button=True, elem_id="mic_box")
             audio_output = gr.Audio(label="Assistant Voice Output", type="filepath", interactive=False)
             tts_lang = gr.Dropdown(choices=["en", "ur"], value="en", label="TTS Language")
@@ -345,12 +310,19 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
             btn_general = gr.Button("⚡Ask General 🎯")
             btn_pdf = gr.Button("⚡Ask PDF 📄")
             btn_image = gr.Button("⚡Ask Image 🖼")
-            enhancer_toggle = gr.Checkbox(label="Enable Response Enhancer", value=False, scale=1)
-            tone_dropdown = gr.Dropdown(choices=["Helpful", "Formal", "Friendly"], value="Helpful", label="Enhancer Tone", scale=1)
         with gr.Row():
             btn_reset_logs = gr.Button("♻ Reset LOGs")
             btn_download_logs = gr.Button("📥 Download Summary")
-            Voice_summary_file = gr.File(label="📥Download Summary File", interactive=False, scale=1)
         answer_voice = gr.Textbox(label="Assistant Answer (text)", lines=2, visible=False)
         btn_general.click(fn=handle_voice_general,
@@ -358,14 +330,10 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
                           outputs=[answer_voice, audio_output, chat_voice])
         btn_pdf.click(fn=handle_voice_pdf, inputs=[mic, session_pdf, tts_lang], outputs=[answer_voice, audio_output, chat_voice])
         btn_image.click(fn=handle_voice_image, inputs=[mic, session_image, tts_lang], outputs=[answer_voice, audio_output, chat_voice])
         btn_reset_logs.click(lambda: (str(uuid.uuid4()), [], None, None, ""), outputs=[session_voice, chat_voice, mic, audio_output, answer_voice])
-        # FIXED: Full summary download safely
-        btn_download_logs.click(
-            download_full_summary,
-            inputs=[session_voice, session_pdf, session_image],
-            outputs=[Voice_summary_file]
-        )
     with gr.Tab("📄 PDF Summarizer"):
         pdf_output = gr.Textbox(label="Answer (Text Only)", lines=5)
         with gr.Row():
@@ -383,7 +351,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         pdf_upload_btn.upload(handle_pdf_upload, inputs=[pdf_upload_btn, session_pdf], outputs=[pdf_upload_msg])
         pdf_send_btn.click(handle_text_pdf, inputs=[pdf_question, session_pdf], outputs=[pdf_output])
         pdf_reset_btn.click(lambda: (str(uuid.uuid4()), ""), outputs=[session_pdf, pdf_output])
-        pdf_download_btn.click(    download_full_summary,    inputs=[session_voice, session_pdf, session_image],    outputs=[pdf_summary_file])
     with gr.Tab("🖼 Image OCR"):
         image_output = gr.Textbox(label="Answer (Text Only)", lines=5)
@@ -402,7 +370,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         image_upload_btn.upload(handle_image_upload, inputs=[image_upload_btn, session_image], outputs=[image_upload_msg, image_output])
         image_send_btn.click(handle_text_image, inputs=[image_question, session_image], outputs=[image_output])
         image_reset_btn.click(lambda: (str(uuid.uuid4()), ""), outputs=[session_image, image_output])
-        image_download_btn.click(    download_full_summary,    inputs=[session_voice, session_pdf, session_image],    outputs=[image_summary_file])
 if __name__ == "__main__":
-    demo.launch()

 def _chat_display_to_messages(chat_display):
     msgs = []
     for user, assistant in chat_display:
+        msgs.append({"role": "user", "content": user})
+        msgs.append({"role": "assistant", "content": assistant})
     return msgs
 # ------------------ Transcription & LLM ------------------
         return f"Error transcribing audio: {e}"
 def groq_chat_completion(messages):
+    body = {"model": "llama-3.1-8b-instant", "messages": messages}
     try:
+        resp = requests.post("https://api.groq.com/openai/v1/chat/completions", headers=HEADERS, json=body, timeout=60)
         resp.raise_for_status()
         return resp.json()["choices"][0]["message"]["content"]
     except Exception as e:
         return f"Error generating response: {e}"
 def generate_response(session_id, user_text, enhancer_enabled=False, enhancer_tone="Helpful"):
     if session_id not in SESSION_HISTORY:
         SESSION_HISTORY[session_id] = []
         messages.append({"role": "user", "content": f"Enhance response. Tone: {enhancer_tone}. Question: {user_text}"})
     assistant_text = groq_chat_completion(messages)
+    SESSION_HISTORY[session_id].append({"role": "assistant", "content": assistant_text})
     return assistant_text
 # ------------------ PDF handling ------------------
         {"role": "user", "content": f"PDF chunk:\n{chunk}\n\nQuestion: {question}"}
     ]
     assistant_text = groq_chat_completion(messages)
+    # Add snippet highlighting for wow factor
     assistant_text = f"**Snippet from PDF:**\n{chunk[:200]}...\n\n**Answer:**\n{assistant_text}"
     if session_id not in SESSION_HISTORY:
         SESSION_HISTORY[session_id] = []
     pdf.output(file_path)
     return file_path
+def download_pdf_summary(session_id):
+    summary_text = "\n".join([m["content"] for m in SESSION_HISTORY.get(session_id, []) if m["role"]=="assistant"])
+    if not summary_text:
+        summary_text = "No summary available."
+    return generate_pdf_file(summary_text, "summary")
 # ------------------ Voice & Chat Handlers ------------------
 def _append_chat_display(session_id, user_text, assistant_text):
     if session_id not in CHAT_DISPLAY:
         CHAT_DISPLAY[session_id] = []
+    CHAT_DISPLAY[session_id].append((user_text, assistant_text))
 def handle_voice_general(audio_file, session_id, tts_lang="en", enhancer_enabled=False, enhancer_tone="Helpful"):
     path = _get_path_from_gr_file(audio_file)
     if not path:
         return "No audio provided.", None, []
     user_text = transcribe_audio(path)
     assistant_text = generate_response(session_id, user_text, enhancer_enabled, enhancer_tone)
     _append_chat_display(session_id, user_text, assistant_text)
     audio_path = synthesize_speech(assistant_text, lang=tts_lang)
+    return assistant_text, audio_path, _chat_display_to_messages(CHAT_DISPLAY[session_id])
 def handle_voice_pdf(audio_file, session_id, tts_lang="en"):
     path = _get_path_from_gr_file(audio_file)
     if not path:
         return "No audio provided.", None, []
     user_text = transcribe_audio(path)
     assistant_text = handle_pdf_question(user_text, session_id)
     _append_chat_display(session_id, user_text, assistant_text)
     audio_path = synthesize_speech(assistant_text, lang=tts_lang)
+    return assistant_text, audio_path, _chat_display_to_messages(CHAT_DISPLAY[session_id])
 def handle_voice_image(audio_file, session_id, tts_lang="en"):
     path = _get_path_from_gr_file(audio_file)
     if not path:
         return "No audio provided.", None, []
     user_text = transcribe_audio(path)
     assistant_text = handle_image_question(user_text, session_id)
     _append_chat_display(session_id, user_text, assistant_text)
     audio_path = synthesize_speech(assistant_text, lang=tts_lang)
+    return assistant_text, audio_path, _chat_display_to_messages(CHAT_DISPLAY[session_id])
 def handle_text_general(user_text, session_id, enhancer_enabled=False, enhancer_tone="Helpful"):
     assistant = generate_response(session_id, user_text, enhancer_enabled, enhancer_tone)
     _append_chat_display(session_id, user_text, assistant)
+    return assistant, _chat_display_to_messages(CHAT_DISPLAY[session_id])
 def handle_text_pdf(question, session_id):
     return handle_pdf_question(question, session_id)
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.HTML("""
     <style>
+        /* Change height + width of the audio recorder box */
         #mic_box audio {
+            height: 50px !important;   /* adjust height */
+            width: 200px !important;    /* adjust width (optional) */
         }
     </style>
     """)
     session_voice = gr.State(str(uuid.uuid4()))
     session_pdf = gr.State(str(uuid.uuid4()))
     session_image = gr.State(str(uuid.uuid4()))
+# FIX: define pdf_summary_file BEFORE it is used
+    #pdf_summary_file = gr.File(label="Download Summary", visible=False)
     with gr.Tab("🎤 Voice Chat"):
         chat_voice = gr.Chatbot(type="messages", height=300)
         with gr.Row():
+            mic = gr.Audio(type="filepath",label="🎤 Record Voice (hold & speak)", show_download_button=True, elem_id="mic_box")
             audio_output = gr.Audio(label="Assistant Voice Output", type="filepath", interactive=False)
             tts_lang = gr.Dropdown(choices=["en", "ur"], value="en", label="TTS Language")
             btn_general = gr.Button("⚡Ask General 🎯")
             btn_pdf = gr.Button("⚡Ask PDF 📄")
             btn_image = gr.Button("⚡Ask Image 🖼")
+            enhancer_toggle = gr.Checkbox(label="Enable Response Enhancer", value=False, scale =1)
+            tone_dropdown = gr.Dropdown(choices=["Helpful", "Formal", "Friendly"], value="Helpful", label="Enhancer Tone", scale =1)
         with gr.Row():
             btn_reset_logs = gr.Button("♻ Reset LOGs")
             btn_download_logs = gr.Button("📥 Download Summary")
+            Voice_summary_file = gr.File(label="📥Download Summary File", interactive=False,scale =1)
+            #btn_general = gr.Button("⚡Ask General 🎯")
+            #btn_pdf = gr.Button("⚡Ask PDF 📄")
+            #btn_image = gr.Button("⚡Ask Image 🖼")
+        #with gr.Row():
+            #text_input = gr.Textbox(label="Or type a question (General)",visible=False)
+            #btn_send_text = gr.Button("Send (Text General)",visible=False)
+            #btn_reset_logs = gr.Button("♻ Reset LOGs")
         answer_voice = gr.Textbox(label="Assistant Answer (text)", lines=2, visible=False)
         btn_general.click(fn=handle_voice_general,
                           outputs=[answer_voice, audio_output, chat_voice])
         btn_pdf.click(fn=handle_voice_pdf, inputs=[mic, session_pdf, tts_lang], outputs=[answer_voice, audio_output, chat_voice])
         btn_image.click(fn=handle_voice_image, inputs=[mic, session_image, tts_lang], outputs=[answer_voice, audio_output, chat_voice])
+       # btn_send_text.click(fn=handle_text_general, inputs=[text_input, session_voice, enhancer_toggle, tone_dropdown], outputs=[answer_voice, chat_voice])
         btn_reset_logs.click(lambda: (str(uuid.uuid4()), [], None, None, ""), outputs=[session_voice, chat_voice, mic, audio_output, answer_voice])
+        btn_download_logs.click(download_pdf_summary, inputs=[session_voice], outputs=[Voice_summary_file])
     with gr.Tab("📄 PDF Summarizer"):
         pdf_output = gr.Textbox(label="Answer (Text Only)", lines=5)
         with gr.Row():
         pdf_upload_btn.upload(handle_pdf_upload, inputs=[pdf_upload_btn, session_pdf], outputs=[pdf_upload_msg])
         pdf_send_btn.click(handle_text_pdf, inputs=[pdf_question, session_pdf], outputs=[pdf_output])
         pdf_reset_btn.click(lambda: (str(uuid.uuid4()), ""), outputs=[session_pdf, pdf_output])
+        pdf_download_btn.click(download_pdf_summary, inputs=[session_pdf], outputs=[pdf_summary_file])
     with gr.Tab("🖼 Image OCR"):
         image_output = gr.Textbox(label="Answer (Text Only)", lines=5)
         image_upload_btn.upload(handle_image_upload, inputs=[image_upload_btn, session_image], outputs=[image_upload_msg, image_output])
         image_send_btn.click(handle_text_image, inputs=[image_question, session_image], outputs=[image_output])
         image_reset_btn.click(lambda: (str(uuid.uuid4()), ""), outputs=[session_image, image_output])
+        image_download_btn.click(download_pdf_summary, inputs=[session_image], outputs=[image_summary_file])
 if __name__ == "__main__":
+    demo.launch()