Spaces:

akazmi
/

Documents-Reader-RAG

Sleeping

App Files Files Community

akazmi commited on Jun 24, 2025

Commit

f28212f

verified ·

1 Parent(s): 92378ab

Create app.py

Browse files

Files changed (1) hide show

app.py +80 -0

app.py ADDED Viewed

	@@ -0,0 +1,80 @@

+import gradio as gr
+from PyPDF2 import PdfReader
+from sentence_transformers import SentenceTransformer
+from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
+import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+# Load embedding model (small and fast)
+embedder = SentenceTransformer("all-MiniLM-L6-v2")
+# Load FLAN-T5 model (CPU-friendly)
+model_name = "google/flan-t5-base"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+rag_pipeline = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
+# Read PDF text
+def read_pdf(file_path):
+    try:
+        with open(file_path, "rb") as file:
+            reader = PdfReader(file)
+            text = ""
+            for page in reader.pages:
+                page_text = page.extract_text()
+                if page_text:
+                    text += page_text + "\n"
+        return text
+    except Exception as e:
+        return f"Error reading PDF: {str(e)}"
+# Split into ~500-word chunks
+def chunk_text(text, chunk_size=500):
+    words = text.split()
+    return [" ".join(words[i:i+chunk_size]) for i in range(0, len(words), chunk_size)]
+# Find top-k relevant chunks via cosine similarity
+def retrieve_relevant_chunks(question, chunks, top_k=3):
+    chunk_embeddings = embedder.encode(chunks)
+    question_embedding = embedder.encode([question])
+    scores = cosine_similarity(question_embedding, chunk_embeddings)[0]
+    top_indices = np.argsort(scores)[-top_k:][::-1]
+    return "\n\n".join([chunks[i] for i in top_indices])
+# Main QA function
+def answer_question(uploaded_file, user_question):
+    if uploaded_file is None:
+        return "❌ Please upload a PDF file."
+    text = read_pdf(uploaded_file.name)
+    if not text or not isinstance(text, str):
+        return "❌ Could not extract text from the document."
+    chunks = chunk_text(text)
+    if not chunks:
+        return "❌ Document too short or empty."
+    context = retrieve_relevant_chunks(user_question, chunks)
+    prompt = f"Context: {context}\n\nQuestion: {user_question}\nAnswer:"
+    try:
+        result = rag_pipeline(prompt, max_new_tokens=256)
+        return result[0]["generated_text"].strip()
+    except Exception as e:
+        return f"❌ Error during generation: {str(e)}"
+# Gradio Interface
+def create_interface():
+    with gr.Blocks() as demo:
+        gr.Markdown("## 📄 Ask Questions from a PDF Document (RAG using FLAN-T5)")
+        file_input = gr.File(label="Upload PDF", file_types=[".pdf"])
+        question_input = gr.Textbox(label="Enter your question")
+        answer_output = gr.Textbox(label="Answer", lines=10)
+        gr.Button("Ask").click(fn=answer_question, inputs=[file_input, question_input], outputs=[answer_output])
+    return demo
+if __name__ == "__main__":
+    demo = create_interface()
+    demo.launch()