Spaces:

deepkansara-123
/

pdf_reader

Sleeping

App Files Files Community

deepkansara-123 commited on Jul 21, 2025

Commit

9578afc

verified ·

1 Parent(s): 38118f1

Upload 7 files

Browse files

Files changed (1) hide show

app.py +161 -152

app.py CHANGED Viewed

@@ -1,152 +1,161 @@
-import gradio as gr
-import uuid
-import sqlite3
-import json
-import re
-import PyPDF2
-import numpy as np
-from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
-from sklearn.metrics.pairwise import cosine_similarity
-# Local imports
-from database1 import create_db
-from first1 import pdf_query
-from q_generator1 import QGenerator
-from ans_generator1 import AnswerGenerator
-# Initialize models
-qgen = QGenerator()
-ansgen = AnswerGenerator()
-# Load FLAN-T5 model
-tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base", use_fast=False)
-model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-base")
-qa_model = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
-# ✅ Upload and process PDF
-def upload_pdf(file):
-    try:
-        filename = file.name
-        token = str(uuid.uuid4())
-        pdf_reader = PyPDF2.PdfReader(file)
-        text = "".join([page.extract_text() or "" for page in pdf_reader.pages])
-        chunks = [text[i:i+500] for i in range(0, len(text), 500)]
-        create_db(token, chunks, filename, text)
-        return f"✅ Uploaded and stored: {filename} (Token: {token})"
-    except Exception as e:
-        return f"❌ Error: {str(e)}"
-# ✅ Generate Q&A using filename
-def generate_qa(filename):
-    try:
-        with sqlite3.connect("my_database1.db") as conn:
-            cursor = conn.cursor()
-            cursor.execute("SELECT chunk_data FROM token_data WHERE filename = ?", (filename,))
-            row = cursor.fetchone()
-        if not row:
-            return "❌ No data found for this filename."
-        chunks = json.loads(row[0])
-        qa_pairs = []
-        for chunk in chunks:
-            questions = qgen.generate(chunk)
-            if not questions:
-                continue
-            question = questions[0]
-            prompt = f"Context: {chunk}\n\nQuestion: {question}\n\nAnswer:"
-            result = qa_model(prompt, max_length=256, do_sample=False)
-            answer = result[0]["generated_text"].strip()
-            qa_pairs.append(f"Q: {question}\nA: {answer}")
-        return "\n\n".join(qa_pairs)
-    except Exception as e:
-        return f"❌ Error: {str(e)}"
-# ✅ Ask question using token (semantic similarity)
-def ask_question(token, question):
-    try:
-        with sqlite3.connect("my_database.db") as conn:
-            cursor = conn.cursor()
-            cursor.execute("SELECT chunk_data FROM token_data WHERE token_id = ?", (token,))
-            row = cursor.fetchone()
-        if not row:
-            return "❌ Token not found."
-        chunks = json.loads(row[0])
-        processor = pdf_query()
-        model = processor.model
-        chunk_embeddings = model.encode(chunks)
-        q_embedding = model.encode([question])
-        scores = cosine_similarity(q_embedding, chunk_embeddings)[0]
-        top_index = int(np.argmax(scores))
-        top_score = float(scores[top_index])
-        best_text = re.sub(r'\s+', ' ', chunks[top_index].strip())
-        if top_score >= 0.5:
-            return f"Q: {question}\nA: {best_text}\nScore: {round(top_score, 3)}"
-        else:
-            return "⚠️ No relevant answer found (score too low)."
-    except Exception as e:
-        return f"❌ Error: {str(e)}"
-# ✅ View uploaded PDFs (Gradio Tab)
-def list_uploaded_pdfs():
-    try:
-        with sqlite3.connect("my_database.db") as conn:
-            cursor = conn.cursor()
-            cursor.execute("SELECT filename, token_id, content FROM token_data")
-            rows = cursor.fetchall()
-        if not rows:
-            return "ℹ️ No PDFs uploaded yet."
-        result = ""
-        for filename, token, content in rows:
-            preview = content[:200].replace("\n", " ") + "..." if len(content) > 200 else content
-            result += f"📄 **Filename:** {filename}\n🔑 Token: `{token}`\n📝 Preview: {preview}\n\n---\n"
-        return result
-    except Exception as e:
-        return f"❌ Error: {str(e)}"
-# ✅ Gradio UI
-with gr.Blocks(theme="default") as demo:
-    gr.Markdown(
-        """
-        <div style='text-align: center; padding: 1rem;'>
-            <h1 style='color: #3b82f6;'>📄 AI-Powered PDF Q&A System</h1>
-            <p style='font-size: 1.1rem;'>Upload your PDFs, generate smart questions, and get intelligent answers.</p>
-        </div>
-        """
-    )
-    with gr.Tab("📤 1. Upload PDF"):
-        gr.Markdown("### 🗂 Upload a PDF File")
-        file = gr.File(label="Choose your PDF file", file_types=[".pdf"])
-        upload_out = gr.Textbox(label="Upload Result", interactive=False)
-        file.change(fn=upload_pdf, inputs=file, outputs=upload_out)
-    with gr.Tab("🧠 2. Generate Questions & Answers"):
-        gr.Markdown("### 🤖 Generate Q&A from your PDF")
-        fname = gr.Textbox(label="Enter uploaded filename", placeholder="example.pdf")
-        qa_result = gr.Textbox(label="Generated Q&A", lines=12, interactive=False)
-        gr.Button("🚀 Generate Q&A").click(fn=generate_qa, inputs=fname, outputs=qa_result)
-    with gr.Tab("❓ 3. Ask a Question"):
-        gr.Markdown("### 💬 Ask a question based on uploaded PDF")
-        token_box = gr.Textbox(label="Token ID", placeholder="e.g., 123e4567-e89b-12d3-a456...")
-        question_box = gr.Textbox(label="Type your question", placeholder="What is the main topic discussed?")
-        answer_result = gr.Textbox(label="Answer Output", lines=6, interactive=False)
-        gr.Button("🎯 Get Answer").click(fn=ask_question, inputs=[token_box, question_box], outputs=answer_result)
-    with gr.Tab("📚 4. View Uploaded PDFs"):
-        gr.Markdown("### 📋 Uploaded PDF List (with Preview Snippets)")
-        list_btn = gr.Button("🔄 Refresh List")
-        pdf_list_output = gr.Markdown()
-        list_btn.click(fn=list_uploaded_pdfs, outputs=pdf_list_output)
-if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=7860)

+import gradio as gr
+import uuid
+import sqlite3
+import json
+import re
+import PyPDF2
+import numpy as np
+from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
+from sklearn.metrics.pairwise import cosine_similarity
+# Local imports
+from database1 import create_db
+from first1 import pdf_query
+from q_generator1 import QGenerator
+from ans_generator1 import AnswerGenerator
+# Initialize models
+qgen = QGenerator()
+ansgen = AnswerGenerator()
+# Load FLAN-T5 model
+tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base", use_fast=False)
+model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-base")
+qa_model = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
+# ✅ Upload and process PDF
+# ✅ Updated version – supports multiple PDF files
+def upload_pdf(files):
+    try:
+        messages = []
+        for file in files:
+            filename = file.name
+            token = str(uuid.uuid4())
+            pdf_reader = PyPDF2.PdfReader(file)
+            text = "".join([page.extract_text() or "" for page in pdf_reader.pages])
+            chunks = [text[i:i+500] for i in range(0, len(text), 500)]
+            create_db(token, chunks, filename, text)
+            messages.append(f"✅ Uploaded and stored: {filename} (Token: {token})")
+        return "\n".join(messages)
+    except Exception as e:
+        return f"❌ Error: {str(e)}"
+# ✅ Generate Q&A using filename
+def generate_qa(filename):
+    try:
+        with sqlite3.connect("my_database1.db") as conn:
+            cursor = conn.cursor()
+            cursor.execute("SELECT chunk_data FROM token_data WHERE filename = ?", (filename,))
+            row = cursor.fetchone()
+        if not row:
+            return "❌ No data found for this filename."
+        chunks = json.loads(row[0])
+        qa_pairs = []
+        for chunk in chunks:
+            questions = qgen.generate(chunk)
+            if not questions:
+                continue
+            question = questions[0]
+            prompt = f"Context: {chunk}\n\nQuestion: {question}\n\nAnswer:"
+            result = qa_model(prompt, max_length=256, do_sample=False)
+            answer = result[0]["generated_text"].strip()
+            qa_pairs.append(f"Q: {question}\nA: {answer}")
+        return "\n\n".join(qa_pairs)
+    except Exception as e:
+        return f"❌ Error: {str(e)}"
+# ✅ Ask question using token (semantic similarity)
+def ask_question(token, question):
+    try:
+        with sqlite3.connect("my_database.db") as conn:
+            cursor = conn.cursor()
+            cursor.execute("SELECT chunk_data FROM token_data WHERE token_id = ?", (token,))
+            row = cursor.fetchone()
+        if not row:
+            return "❌ Token not found."
+        chunks = json.loads(row[0])
+        processor = pdf_query()
+        model = processor.model
+        chunk_embeddings = model.encode(chunks)
+        q_embedding = model.encode([question])
+        scores = cosine_similarity(q_embedding, chunk_embeddings)[0]
+        top_index = int(np.argmax(scores))
+        top_score = float(scores[top_index])
+        best_text = re.sub(r'\s+', ' ', chunks[top_index].strip())
+        if top_score >= 0.5:
+            return f"Q: {question}\nA: {best_text}\nScore: {round(top_score, 3)}"
+        else:
+            return "⚠️ No relevant answer found (score too low)."
+    except Exception as e:
+        return f"❌ Error: {str(e)}"
+# ✅ View uploaded PDFs (Gradio Tab)
+def list_uploaded_pdfs():
+    try:
+        with sqlite3.connect("my_database.db") as conn:
+            cursor = conn.cursor()
+            cursor.execute("SELECT filename, token_id, content FROM token_data")
+            rows = cursor.fetchall()
+        if not rows:
+            return "ℹ️ No PDFs uploaded yet."
+        result = ""
+        for filename, token, content in rows:
+            preview = content[:200].replace("\n", " ") + "..." if len(content) > 200 else content
+            result += f"📄 **Filename:** {filename}\n🔑 Token: `{token}`\n📝 Preview: {preview}\n\n---\n"
+        return result
+    except Exception as e:
+        return f"❌ Error: {str(e)}"
+# ✅ Gradio UI
+with gr.Blocks(theme="default") as demo:
+    gr.Markdown(
+        """
+        <div style='text-align: center; padding: 1rem;'>
+            <h1 style='color: #3b82f6;'>📄 AI-Powered PDF Q&A System</h1>
+            <p style='font-size: 1.1rem;'>Upload your PDFs, generate smart questions, and get intelligent answers.</p>
+        </div>
+        """
+    )
+    with gr.Tab("📤 1. Upload PDF"):
+        gr.Markdown("### 🗂 Upload a PDF File")
+        file = gr.File(label="Upload one or more PDFs", file_types=[".pdf"], file_count="multiple")
+        upload_out = gr.Textbox(label="Upload Result", interactive=False)
+        file.change(fn=upload_pdf, inputs=file, outputs=upload_out)
+    with gr.Tab("🧠 2. Generate Questions & Answers"):
+        gr.Markdown("### 🤖 Generate Q&A from your PDF")
+        fname = gr.Textbox(label="Enter uploaded filename", placeholder="example.pdf")
+        qa_result = gr.Textbox(label="Generated Q&A", lines=12, interactive=False)
+        gr.Button("🚀 Generate Q&A").click(fn=generate_qa, inputs=fname, outputs=qa_result)
+    with gr.Tab("❓ 3. Ask a Question"):
+        gr.Markdown("### 💬 Ask a question based on uploaded PDF")
+        token_box = gr.Textbox(label="Token ID", placeholder="e.g., 123e4567-e89b-12d3-a456...")
+        question_box = gr.Textbox(label="Type your question", placeholder="What is the main topic discussed?")
+        answer_result = gr.Textbox(label="Answer Output", lines=6, interactive=False)
+        gr.Button("🎯 Get Answer").click(fn=ask_question, inputs=[token_box, question_box], outputs=answer_result)
+    with gr.Tab("📚 4. View Uploaded PDFs"):
+        gr.Markdown("### 📋 Uploaded PDF List (with Preview Snippets)")
+        list_btn = gr.Button("🔄 Refresh List")
+        pdf_list_output = gr.Markdown()
+        list_btn.click(fn=list_uploaded_pdfs, outputs=pdf_list_output)
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)