Spaces:

msaifee
/

Research-Paper-Summerizer

Build error

App Files Files Community

msaifee commited on Feb 7, 2025

Commit

362b129

verified ·

1 Parent(s): 73860f6

Summerizer using deepseek R1

Browse files

Files changed (1) hide show

app.py +108 -0

app.py CHANGED Viewed

	@@ -0,0 +1,108 @@

+import os
+import tempfile
+import streamlit as st
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains import RetrievalQA
+from langchain.schema import Document
+from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
+from dotenv import load_dotenv
+# Load environment variables
+load_dotenv()
+# Streamlit Page Config
+st.set_page_config(
+    page_title="Research Paper Summarizer",
+    layout="centered"
+)
+st.title("📚 Research Paper Summarizer with DeepSeekR1")
+# Load DeepSeekR1 model
+@st.cache_resource
+def load_llm():
+    model_name = "togethercomputer/deepseekr-1"
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+    return pipeline("text2text-generation", model=model, tokenizer=tokenizer)
+llm_pipeline = load_llm()
+# File Uploader
+uploaded_files = st.file_uploader(
+    "Upload one or more research PDFs",
+    type=["pdf"],
+    accept_multiple_files=True
+)
+# Initialize vector store in session state
+if "vector_store" not in st.session_state:
+    st.session_state.vector_store = None
+# Process PDFs and create/update the vector store
+if st.button("Process PDFs") and uploaded_files:
+    all_documents = []
+    for file in uploaded_files:
+        # Save the file temporarily
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as temp_file:
+            temp_file.write(file.getvalue())
+            temp_file_path = temp_file.name
+        # Load the PDF using PyPDFLoader
+        loader = PyPDFLoader(temp_file_path)
+        pdf_docs = loader.load()
+        # Split text into manageable chunks
+        text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=1000,
+            chunk_overlap=100,
+            separators=["\n\n", "\n", " ", ""]
+        )
+        for doc in pdf_docs:
+            chunks = text_splitter.split_text(doc.page_content)
+            for chunk in chunks:
+                # Create Document object for each chunk
+                all_documents.append(Document(page_content=chunk, metadata=doc.metadata))
+    # Create vector store from documents
+    embeddings = OpenAIEmbeddings()
+    st.session_state.vector_store = FAISS.from_documents(
+        documents=all_documents,
+        embedding=embeddings
+    )
+    st.success("PDFs processed and vector store created! ✅")
+# Query + Summarize
+query = st.text_input("Enter your question or summary request:")
+if st.button("Get Summary/Answer"):
+    if st.session_state.vector_store is None:
+        st.warning("Please upload and process PDFs first.")
+    else:
+        # Extract relevant text for summarization
+        retriever = st.session_state.vector_store.as_retriever(
+            search_type="similarity",
+            search_kwargs={"k": 5}
+        )
+        retrieved_docs = retriever.get_relevant_documents(query)
+        # Combine the content of retrieved documents
+        context_text = " ".join([doc.page_content for doc in retrieved_docs])
+        # Generate answer using DeepSeekR1 model
+        prompt = f"Context: {context_text}\nQuestion: {query}\nAnswer:"
+        result = llm_pipeline(prompt, max_length=300, num_return_sequences=1)
+        st.markdown("### Answer:")
+        st.write(result[0]['generated_text'])
+        with st.expander("Show source documents"):
+            for i, doc in enumerate(retrieved_docs):
+                st.markdown(f"**Source Document {i+1}:**")
+                st.write(doc.page_content)
+                st.write("---")