Spaces:

dnzblgn
/

RAG_Audio_files

Sleeping

App Files Files Community

dnzblgn commited on Mar 21, 2025

Commit

4b98922

verified ·

1 Parent(s): 7ec7c4e

Update app.py

Browse files

Files changed (1) hide show

app.py +90 -0

app.py CHANGED Viewed

	@@ -0,0 +1,90 @@

+import gradio as gr
+import whisper
+import os
+import tempfile
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationBufferMemory
+from langchain_community.llms import HuggingFaceEndpoint
+# Load Whisper model
+model = whisper.load_model("base")
+# Global states
+vector_db = None
+qa_chain = None
+# Function to transcribe and initialize RAG
+def transcribe_and_setup(audio_file):
+    global vector_db, qa_chain
+    if audio_file is None:
+        return "No audio uploaded.", None, None, ""
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as tmp:
+        tmp.write(audio_file.read())
+        tmp_path = tmp.name
+    result = model.transcribe(tmp_path)
+    os.remove(tmp_path)
+    transcript = result['text']
+    # Build vector DB
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=64)
+    splits = text_splitter.create_documents([transcript])
+    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    vector_db = FAISS.from_documents(splits, embeddings)
+    # Create QA chain
+    memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
+    retriever = vector_db.as_retriever()
+    llm = HuggingFaceEndpoint(
+        repo_id="mistralai/Mistral-7B-Instruct-v0.2",
+        huggingfacehub_api_token=os.environ.get("HUGGINGFACE_API_TOKEN"),
+        temperature=0.5,
+        max_new_tokens=512,
+        task="text-generation"
+    )
+    qa_chain = ConversationalRetrievalChain.from_llm(llm=llm, retriever=retriever, memory=memory)
+    return "Transcription and RAG setup complete!", transcript, "You can now ask a question."
+# Function to ask questions
+def answer_question(question):
+    global qa_chain
+    if qa_chain is None:
+        return "Please upload an audio file and process it first."
+    response = qa_chain.invoke({"question": question, "chat_history": []})
+    return response['answer']
+# Gradio UI
+with gr.Blocks(theme=gr.themes.Monochrome(), css="footer {display:none !important;}") as demo:
+    gr.Markdown("## 🎙️ **Audio Intelligence Assistant**")
+    gr.Markdown("Upload an audio file, get the transcript, and ask questions about the content!")
+    with gr.Row():
+        with gr.Column(scale=1):
+            audio_input = gr.Audio(type="file", label="🎧 Upload Audio")
+            transcribe_button = gr.Button("🚀 Transcribe and Setup RAG")
+            status_output = gr.Textbox(label="🛠️ Status", interactive=False)
+            transcript_output = gr.Textbox(label="📝 Transcript", lines=10, interactive=False)
+        with gr.Column(scale=1):
+            question_input = gr.Textbox(label="❓ Ask a question about the audio", placeholder="What is the audio about?")
+            ask_button = gr.Button("💬 Ask")
+            answer_output = gr.Textbox(label="🤖 Answer", lines=5)
+    transcribe_button.click(
+        fn=transcribe_and_setup,
+        inputs=audio_input,
+        outputs=[status_output, transcript_output, answer_output]
+    )
+    ask_button.click(
+        fn=answer_question,
+        inputs=question_input,
+        outputs=answer_output
+    )
+demo.launch()