Spaces:

deepkansara-123
/

pdf_reader

Sleeping

App Files Files Community

deepkansara-123 commited on Jul 22, 2025

Commit

e4b0154

verified ·

1 Parent(s): ff84f29

Upload 6 files

Browse files

Files changed (2) hide show

app.py +25 -10
database1.py +2 -5

app.py CHANGED Viewed

@@ -47,7 +47,7 @@ def upload_pdf(files):
         return f"❌ Error: {str(e)}"
-# ✅ Generate Q&A using filename
 def generate_qa(filename):
     try:
         with sqlite3.connect("my_database.db") as conn:
@@ -65,16 +65,19 @@ def generate_qa(filename):
             questions = qgen.generate(chunk)
             if not questions:
                 continue
-            question = questions[0]
-            prompt = f"Context: {chunk}\n\nQuestion: {question}\n\nAnswer:"
-            result = qa_model(prompt, max_length=256, do_sample=False)
-            answer = result[0]["generated_text"].strip()
-            qa_pairs.append(f"Q: {question}\nA: {answer}")
-        return "\n\n".join(qa_pairs)
     except Exception as e:
         return f"❌ Error: {str(e)}"
 # ✅ Ask question using token (semantic similarity)
 def ask_question(token, question):
     try:
@@ -89,17 +92,29 @@ def ask_question(token, question):
         chunks = json.loads(row[0])
         processor = pdf_query()
         model = processor.model
-        chunk_embeddings = model.encode(chunks)
         q_embedding = model.encode([question])
         scores = cosine_similarity(q_embedding, chunk_embeddings)[0]
         top_index = int(np.argmax(scores))
         top_score = float(scores[top_index])
-        best_text = re.sub(r'\s+', ' ', chunks[top_index].strip())
         if top_score >= 0.5:
             return f"Q: {question}\nA: {best_text}\nScore: {round(top_score, 3)}"
         else:
-            return "⚠️ No relevant answer found (score too low)."
     except Exception as e:
         return f"❌ Error: {str(e)}"

         return f"❌ Error: {str(e)}"
 def generate_qa(filename):
     try:
         with sqlite3.connect("my_database.db") as conn:
             questions = qgen.generate(chunk)
             if not questions:
                 continue
+            for question in questions[:2]:  # generate up to 2 Q&A per chunk
+                prompt = f"Context: {chunk}\n\nQuestion: {question}\n\nAnswer:"
+                result = qa_model(prompt, max_length=256, do_sample=False)
+                answer = result[0]["generated_text"].strip()
+                qa_pairs.append(f"Q: {question}\nA: {answer}")
+        return "\n\n".join(qa_pairs) if qa_pairs else "⚠️ No Q&A pairs generated."
     except Exception as e:
         return f"❌ Error: {str(e)}"
 # ✅ Ask question using token (semantic similarity)
 def ask_question(token, question):
     try:
         chunks = json.loads(row[0])
         processor = pdf_query()
         model = processor.model
+        clean_chunks = [re.sub(r'\s+', ' ', c.strip()) for c in chunks if c.strip()]
+        if not clean_chunks:
+            return "⚠️ No valid content found in PDF."
+        chunk_embeddings = model.encode(clean_chunks)
         q_embedding = model.encode([question])
         scores = cosine_similarity(q_embedding, chunk_embeddings)[0]
         top_index = int(np.argmax(scores))
         top_score = float(scores[top_index])
+        best_text = clean_chunks[top_index]
         if top_score >= 0.5:
             return f"Q: {question}\nA: {best_text}\nScore: {round(top_score, 3)}"
         else:
+            # Fallback: show top 3 answers for transparency
+            top_indices = np.argsort(scores)[::-1][:3]
+            result = f"⚠️ Low score ({round(top_score, 3)}). Showing top 3 suggestions:\n\n"
+            for i in top_indices:
+                score = round(float(scores[i]), 3)
+                result += f"📌 Score: {score}\n➡️ {clean_chunks[i][:300]}...\n\n"
+            return result
     except Exception as e:
         return f"❌ Error: {str(e)}"

database1.py CHANGED Viewed

@@ -6,7 +6,6 @@ class create_db:
         conn = sqlite3.connect('my_database.db')
         cursor = conn.cursor()
-        # Only store into this table
         cursor.execute("""
             CREATE TABLE IF NOT EXISTS token_data (
                 token_id TEXT PRIMARY KEY,
@@ -24,9 +23,9 @@ class create_db:
                 (token, chunk_json, filename, full_content)
             )
             conn.commit()
-            print({"message": "PDF uploaded and stored successfully"})
         except sqlite3.IntegrityError:
-            print({"error": "Token already exists."})
         conn.close()
@@ -37,6 +36,4 @@ class create_db:
         cursor.execute("SELECT filename FROM token_data")
         rows = cursor.fetchall()
         conn.close()
         return {"pdfs": [{"filename": row[0]} for row in rows]}

         conn = sqlite3.connect('my_database.db')
         cursor = conn.cursor()
         cursor.execute("""
             CREATE TABLE IF NOT EXISTS token_data (
                 token_id TEXT PRIMARY KEY,
                 (token, chunk_json, filename, full_content)
             )
             conn.commit()
+            print({"message": f"✅ {filename} uploaded and stored successfully"})
         except sqlite3.IntegrityError:
+            print({"error": f"❌ Token already exists for: {filename}"})
         conn.close()
         cursor.execute("SELECT filename FROM token_data")
         rows = cursor.fetchall()
         conn.close()
         return {"pdfs": [{"filename": row[0]} for row in rows]}