Agent_QA

Running

App Files Files Community

Sandiago21 commited on 2 days ago

Commit

34d05cf

verified ·

1 Parent(s): 30237ec

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -1

app.py CHANGED Viewed

@@ -26,6 +26,21 @@ from langgraph.prebuilt import ToolNode, tools_condition
 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 # from langchain.agents import create_tool_calling_agent
 # (Keep Constants as is)
 # --- Constants ---
@@ -964,6 +979,36 @@ safe_workflow.add_edge("tool_executor", "safety")
 safe_app = safe_workflow.compile()
 # --------------------------
 # Define user query function
 # --------------------------
@@ -975,10 +1020,20 @@ def answer_question(user_question):
     agent_answer = result["output"]
     return agent_answer
 # --------------------------
 # Gradio UI
 # --------------------------
 with gr.Blocks() as demo:
     gr.Markdown("# Ask the Main Agent")
     user_input = gr.Textbox(
@@ -986,12 +1041,20 @@ with gr.Blocks() as demo:
         placeholder="Type any question here...",
         lines=2
     )
     answer_output = gr.Textbox(
         label="Agent Response"
     )
-    submit_btn = gr.Button("Ask")
     submit_btn.click(
         fn=answer_question,
@@ -999,4 +1062,10 @@ with gr.Blocks() as demo:
         outputs=answer_output
     )
 demo.launch()

 from sentence_transformers import SentenceTransformer
 from sklearn.metrics.pairwise import cosine_similarity
 # from langchain.agents import create_tool_calling_agent
+import torch
+import gradio as gr
+from transformers import pipeline
+audio_model_id = "Sandiago21/whisper-large-v2-greek"  # update with your model id
+audio_pipe = pipeline("automatic-speech-recognition", model=audio_model_id)
+# title = "Automatic Speech Recognition (ASR)"
+# description = """
+# Demo for automatic speech recognition in Greek. Demo uses [Sandiago21/whisper-large-v2-greek](https://huggingface.co/Sandiago21/whisper-large-v2-greek) checkpoint, which is based on OpenAI's
+# [Whisper](https://huggingface.co/openai/whisper-large-v2) model and is fine-tuned in Greek Audio dataset
+# ![Automatic Speech Recognition (ASR)"](https://datasets-server.huggingface.co/assets/huggingface-course/audio-course-images/--/huggingface-course--audio-course-images/train/2/image/image.png "Diagram of Automatic Speech Recognition (ASR)")
+# """
 # (Keep Constants as is)
 # --- Constants ---
 safe_app = safe_workflow.compile()
+def transcribe_speech(filepath):
+    output = pipe(
+        filepath,
+        max_new_tokens=256,
+        generate_kwargs={
+            "task": "transcribe",
+            "language": "greek",
+        },  # update with the language you've fine-tuned on
+        chunk_length_s=30,
+        batch_size=8,
+    )
+    return output["text"]
+mic_transcribe = gr.Interface(
+    fn=transcribe_speech,
+    inputs=gr.Audio(sources="microphone", type="filepath"),
+    outputs=gr.Textbox(),
+    title=title,
+    description=description,
+)
 # --------------------------
 # Define user query function
 # --------------------------
     agent_answer = result["output"]
     return agent_answer
+def answer_from_audio(audio):
+    text = transcribe_speech(audio)
+    return answer_question(text)
 # --------------------------
 # Gradio UI
 # --------------------------
 with gr.Blocks() as demo:
+    # gr.TabbedInterface(
+    #     [mic_transcribe, file_transcribe],
+    #     ["Transcribe Microphone", "Transcribe Audio File"],
+    # )
     gr.Markdown("# Ask the Main Agent")
     user_input = gr.Textbox(
         placeholder="Type any question here...",
         lines=2
     )
+    # 🎤 AUDIO INPUT (new)
+    audio_input = gr.Audio(
+        sources=["microphone"],
+        type="filepath",
+        label="Or speak your question"
+    )
     answer_output = gr.Textbox(
         label="Agent Response"
     )
+    submit_text_btn = gr.Button("Ask (Text)")
+    submit_audio_btn = gr.Button("Ask (Voice)")
     submit_btn.click(
         fn=answer_question,
         outputs=answer_output
     )
+    submit_audio_btn.click(
+        fn=answer_from_audio,
+        inputs=audio_input,
+        outputs=answer_output
+    )
 demo.launch()