Spaces:

akazmi
/

Documents-Reader-RAG

Sleeping

App Files Files Community

akazmi commited on Jun 24, 2025

Commit

155b271

verified ·

1 Parent(s): 1ee87ce

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -37

app.py CHANGED Viewed

@@ -3,10 +3,25 @@ import os
 from groq import Groq
 from PyPDF2 import PdfReader
-# Function to read the uploaded PDF file and return its text
-def read_pdf(file_obj):
     try:
-        reader = PdfReader(file_obj)
         text = ""
         for page in reader.pages:
             page_text = page.extract_text()
@@ -16,65 +31,72 @@ def read_pdf(file_obj):
     except Exception as e:
         return f"Error reading PDF: {str(e)}"
-# Chunk text for better performance with LLM
 def chunk_text(text, chunk_size=3000):
-    return [text[i:i + chunk_size] for i in range(0, len(text), chunk_size)]
-# A simple similarity function (token overlap)
 def similarity(query, text):
     query_words = set(query.lower().split())
     text_words = set(text.lower().split())
-    return len(query_words.intersection(text_words))
-# Retrieve the most relevant chunk for a given query
 def retrieve_relevant_document(user_question, document_text):
-    text_chunks = chunk_text(document_text)
-    return max(text_chunks, key=lambda chunk: similarity(user_question, chunk))
-# Initialize Groq client
-def initialize_groq():
-    return Groq(api_key=os.getenv("GROQ_API_KEY"))
-# Handle question-answering using uploaded PDF
-def answer_question(uploaded_file, user_question):
-    if uploaded_file is None:
-        return "❗ Please upload a PDF document first."
-    document_text = read_pdf(uploaded_file)
-    if not document_text.strip():
-        return "❗ No readable text found in the uploaded PDF."
     relevant_chunk = retrieve_relevant_document(user_question, document_text)
-    prompt = f"{user_question}\n\nRelevant Document:\n{relevant_chunk}"
     try:
-        client = initialize_groq()
-        response = client.chat.completions.create(
             model="llama3-8b-8192",
-            messages=[{"role": "user", "content": prompt}]
         )
-        return response.choices[0].message.content
     except Exception as e:
         return f"Error generating answer: {str(e)}"
-# Gradio interface
 def create_interface():
     with gr.Blocks() as demo:
-        gr.Markdown("### 🧠 Ask Questions Based on Your PDF Document")
-        file_input = gr.File(label="Upload a PDF Document", type="binary")
-        question_input = gr.Textbox(label="Enter your question")
-        answer_output = gr.Textbox(label="Answer", interactive=False)
-        ask_button = gr.Button("Ask")
-        ask_button.click(
-            fn=answer_question,
-            inputs=[file_input, question_input],
-            outputs=answer_output
-        )
     return demo
 if __name__ == "__main__":
     demo = create_interface()
     demo.launch()

 from groq import Groq
 from PyPDF2 import PdfReader
+# Initialize Groq client
+def initialize_groq():
+    return Groq(api_key=os.getenv("GROQ_API_KEY"))
+# Clean common typos in user questions
+def clean_question(user_question):
+    corrections = {
+        "slaps": "slabs",
+        "salried": "salaried",
+        "slabbs": "slabs"
+    }
+    for wrong, correct in corrections.items():
+        user_question = user_question.replace(wrong, correct)
+    return user_question
+# Read uploaded PDF and return its text
+def read_pdf(uploaded_file):
     try:
+        reader = PdfReader(uploaded_file)
         text = ""
         for page in reader.pages:
             page_text = page.extract_text()
     except Exception as e:
         return f"Error reading PDF: {str(e)}"
+# Split text into chunks for retrieval
 def chunk_text(text, chunk_size=3000):
+    return [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
+# Basic keyword overlap similarity
 def similarity(query, text):
     query_words = set(query.lower().split())
     text_words = set(text.lower().split())
+    return len(query_words & text_words)
+# Get most relevant chunk of document
 def retrieve_relevant_document(user_question, document_text):
+    chunks = chunk_text(document_text)
+    if not chunks:
+        return "No readable content in the PDF."
+    return max(chunks, key=lambda chunk: similarity(user_question, chunk))
+# Generate answer using Groq model
+def answer_question(file, user_question):
+    if file is None:
+        return "Please upload a PDF document."
+    user_question = clean_question(user_question)
+    document_text = read_pdf(file)
+    if not document_text or "error" in document_text.lower():
+        return "Unable to read document or it's empty."
     relevant_chunk = retrieve_relevant_document(user_question, document_text)
+    # Build the prompt for the LLM
+    prompt = f"""You are a tax and law expert. Read the document and answer the user query concisely.
+User Question: {user_question}
+Relevant Extract from Document:
+{relevant_chunk}
+"""
+    client = initialize_groq()
     try:
+        chat_completion = client.chat.completions.create(
+            messages=[{"role": "user", "content": prompt}],
             model="llama3-8b-8192",
         )
+        return chat_completion.choices[0].message.content
     except Exception as e:
         return f"Error generating answer: {str(e)}"
+# Create Gradio Interface
 def create_interface():
     with gr.Blocks() as demo:
+        gr.Markdown("## 📄 Legal Document Q&A Chatbot\nUpload a PDF and ask questions based on its contents.")
+        file_input = gr.File(label="Upload PDF", type="filepath", file_types=[".pdf"])
+        question_input = gr.Textbox(label="Enter your question", placeholder="E.g., What are the tax slabs for salaried individuals?")
+        answer_output = gr.Textbox(label="Answer")
+        submit_btn = gr.Button("Ask")
+        submit_btn.click(fn=answer_question, inputs=[file_input, question_input], outputs=answer_output)
     return demo
+# Launch the app
 if __name__ == "__main__":
     demo = create_interface()
     demo.launch()