Spaces:

PraneshJs
/

ResearchPaperRAG

Sleeping

App Files Files Community

PraneshJs commited on Sep 26, 2025

Commit

b9af798

verified ·

1 Parent(s): 4543e5a

updated to understand and reply about the paper uploaded

Browse files

Files changed (1) hide show

app.py +45 -17

app.py CHANGED Viewed

@@ -11,13 +11,12 @@ from langchain_huggingface import HuggingFaceEmbeddings
 from threading import Thread
 from dotenv import load_dotenv
 load_dotenv()
 # === CONFIG ===
 STORAGE_DIR = "storage"
 CLEANUP_INTERVAL = 600  # 10 min
-SESSION_TTL = 1800      # 30 min
 OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY")
 OPENROUTER_MODEL = "z-ai/glm-4.5-air:free"
@@ -42,19 +41,33 @@ def process_pdf(pdf_file):
         return "No file uploaded.", "", []
     session_id = str(uuid.uuid4())
     reader = PdfReader(pdf_file.name)
     text = "".join([page.extract_text() for page in reader.pages if page.extract_text()])
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     chunks = splitter.split_text(text)
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     session_path = os.path.join(STORAGE_DIR, session_id)
     os.makedirs(session_path, exist_ok=True)
     db = FAISS.from_texts(chunks, embeddings)
     db.save_local(session_path)
-    chat_history = [("System", "Paper uploaded and processed. You can now ask questions.")]
     return f"Paper uploaded successfully. Session ID: {session_id}", session_id, chat_history
 # === QUERY FUNCTION ===
@@ -68,28 +81,46 @@ def query_paper(session_id, user_message, chat_history):
         return chat_history, ""
     session_path = os.path.join(STORAGE_DIR, session_id)
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     db = FAISS.load_local(session_path, embeddings, allow_dangerous_deserialization=True)
     retriever = db.as_retriever(search_kwargs={"k": 3})
-    # Use invoke() method
     docs = retriever.invoke(user_message)
     context = "\n\n".join([d.page_content for d in docs])
     prompt = f"""
-You are an AI assistant. Explain the following research paper content in simple terms and answer the question.
-Context from paper:
 {context}
-Question: {user_message}
-Answer:
 """
     headers = {"Authorization": f"Bearer {OPENROUTER_API_KEY}", "Content-Type": "application/json"}
     payload = {
         "model": OPENROUTER_MODEL,
         "messages": [
-            {"role": "system", "content": "You are a helpful research explainer."},
             {"role": "user", "content": prompt}
         ]
     }
@@ -105,7 +136,6 @@ Answer:
     except Exception as e:
         answer = f"Error: {str(e)}"
-    # Update chat history
     chat_history = chat_history or []
     chat_history.append((user_message, answer))
@@ -119,7 +149,7 @@ with gr.Blocks() as demo:
         pdf_input = gr.File(label="Upload Research Paper (PDF)", file_types=[".pdf"])
         session_box = gr.Textbox(label="Session ID", interactive=False)
-    chatbot = gr.Chatbot(label="Chat about your paper", height=400)
     user_message = gr.Textbox(label="Ask a question", placeholder="What is this paper about?")
     with gr.Row():
@@ -131,7 +161,7 @@ with gr.Blocks() as demo:
     state_chat = gr.State([])
     state_session = gr.State("")
-    # Upload button functionality
     def handle_upload(pdf_file):
         status, session_id, chat_history = process_pdf(pdf_file)
         return status, session_id, chat_history
@@ -142,7 +172,7 @@ with gr.Blocks() as demo:
         outputs=[session_box, state_session, state_chat]
     )
-    # Ask button functionality
     def handle_question(session_id, message, chat_history):
         updated_chat, _ = query_paper(session_id, message, chat_history)
         return updated_chat, ""
@@ -157,7 +187,6 @@ with gr.Blocks() as demo:
         outputs=[state_chat]
     )
-    # Submit on enter
     user_message.submit(
         fn=handle_question,
         inputs=[state_session, user_message, state_chat],
@@ -168,7 +197,7 @@ with gr.Blocks() as demo:
         outputs=[state_chat]
     )
-    # Clear chat
     def clear_chat():
         return [], []
@@ -177,7 +206,6 @@ with gr.Blocks() as demo:
         outputs=[chatbot, state_chat]
     )
-    # Update chatbot display when chat history changes
     state_chat.change(
         lambda chat: chat,
         inputs=[state_chat],

 from threading import Thread
 from dotenv import load_dotenv
 load_dotenv()
 # === CONFIG ===
 STORAGE_DIR = "storage"
 CLEANUP_INTERVAL = 600  # 10 min
+SESSION_TTL = 1000      # 30 min
 OPENROUTER_API_KEY = os.getenv("OPENROUTER_API_KEY")
 OPENROUTER_MODEL = "z-ai/glm-4.5-air:free"
         return "No file uploaded.", "", []
     session_id = str(uuid.uuid4())
     reader = PdfReader(pdf_file.name)
+    # Extract text
     text = "".join([page.extract_text() for page in reader.pages if page.extract_text()])
+    # Metadata
+    page_count = len(reader.pages)
+    first_page_text = reader.pages[0].extract_text() if page_count > 0 else ""
+    guessed_title = first_page_text.split("\n")[0] if first_page_text else "Unknown Title"
+    # Split text
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     chunks = splitter.split_text(text)
+    # Embeddings + FAISS
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     session_path = os.path.join(STORAGE_DIR, session_id)
     os.makedirs(session_path, exist_ok=True)
     db = FAISS.from_texts(chunks, embeddings)
     db.save_local(session_path)
+    # Save metadata
+    metadata_path = os.path.join(session_path, "metadata.txt")
+    with open(metadata_path, "w", encoding="utf-8") as f:
+        f.write(f"title={guessed_title}\n")
+        f.write(f"pages={page_count}\n")
+    chat_history = [("System", f"Paper uploaded. Title: {guessed_title}, Pages: {page_count}. You can now ask questions.")]
     return f"Paper uploaded successfully. Session ID: {session_id}", session_id, chat_history
 # === QUERY FUNCTION ===
         return chat_history, ""
     session_path = os.path.join(STORAGE_DIR, session_id)
+    # Load metadata
+    metadata_path = os.path.join(session_path, "metadata.txt")
+    metadata = {}
+    if os.path.exists(metadata_path):
+        with open(metadata_path, "r", encoding="utf-8") as f:
+            for line in f:
+                k, v = line.strip().split("=", 1)
+                metadata[k] = v
+    # Load retriever
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     db = FAISS.load_local(session_path, embeddings, allow_dangerous_deserialization=True)
     retriever = db.as_retriever(search_kwargs={"k": 3})
+    # Retrieve context
     docs = retriever.invoke(user_message)
     context = "\n\n".join([d.page_content for d in docs])
+    # Prompt
     prompt = f"""
+You are an AI assistant that explains research papers in clear, structured, simple terms.
+You can use BOTH metadata and the paper content.
+Metadata:
+- Title: {metadata.get('title','Unknown')}
+- Pages: {metadata.get('pages','Unknown')}
+Paper content (retrieved chunks):
 {context}
+User Question: {user_message}
+Answer in plain English with clarity.
 """
     headers = {"Authorization": f"Bearer {OPENROUTER_API_KEY}", "Content-Type": "application/json"}
     payload = {
         "model": OPENROUTER_MODEL,
         "messages": [
+            {"role": "system", "content": "You are a helpful research paper explainer. Use metadata if the user asks about title, authors, or page count. Otherwise, use the retrieved context."},
             {"role": "user", "content": prompt}
         ]
     }
     except Exception as e:
         answer = f"Error: {str(e)}"
     chat_history = chat_history or []
     chat_history.append((user_message, answer))
         pdf_input = gr.File(label="Upload Research Paper (PDF)", file_types=[".pdf"])
         session_box = gr.Textbox(label="Session ID", interactive=False)
+    chatbot = gr.Chatbot(label="Chat about your paper", height=400, type="messages")
     user_message = gr.Textbox(label="Ask a question", placeholder="What is this paper about?")
     with gr.Row():
     state_chat = gr.State([])
     state_session = gr.State("")
+    # Upload
     def handle_upload(pdf_file):
         status, session_id, chat_history = process_pdf(pdf_file)
         return status, session_id, chat_history
         outputs=[session_box, state_session, state_chat]
     )
+    # Ask
     def handle_question(session_id, message, chat_history):
         updated_chat, _ = query_paper(session_id, message, chat_history)
         return updated_chat, ""
         outputs=[state_chat]
     )
     user_message.submit(
         fn=handle_question,
         inputs=[state_session, user_message, state_chat],
         outputs=[state_chat]
     )
+    # Clear
     def clear_chat():
         return [], []
         outputs=[chatbot, state_chat]
     )
     state_chat.change(
         lambda chat: chat,
         inputs=[state_chat],