Spaces:

msaifee
/

Research-Paper-Summerizer

Build error

App Files Files Community

msaifee commited on Feb 7, 2025

Commit

9dfbe9c

verified ·

1 Parent(s): 71edb95

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -35

app.py CHANGED Viewed

@@ -2,31 +2,29 @@ import os
 import tempfile
 import streamlit as st
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores import FAISS
-from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
-from io import BytesIO
 from langchain.document_loaders import PyPDFLoader
-from transformers import pipeline
 from langchain.schema import Document
 from dotenv import load_dotenv
-# Load environment variables from Hugging Face Secrets
 load_dotenv()
 os.environ['OPENAI_API_KEY'] = os.getenv("OPENAI_API_KEY")
-os.environ['HUGGINGFACE_API_KEY'] = os.getenv("HF_TOKEN")
 os.environ["LANGCHAIN_API_KEY"] = os.getenv("LANGCHAIN_API_KEY")
 os.environ["LANGCHAIN_TRACING_V2"] = "true"
 os.environ["LANGCHAIN_PROJECT"]="Research-Paper-Summarizer"
 # Streamlit Page Config
 st.set_page_config(
-    page_title="Research Paper Summarizer with DeepSeekR1",
     layout="centered"
 )
-st.title("📚 Research Paper Summarizer using DeepSeekR1")
 # File Uploader
 uploaded_files = st.file_uploader(
@@ -35,21 +33,11 @@ uploaded_files = st.file_uploader(
     accept_multiple_files=True
 )
-# A placeholder to store vector database (FAISS)
 if "vector_store" not in st.session_state:
     st.session_state.vector_store = None
-# Hugging Face LLM Model Pipeline
-def get_huggingface_pipeline():
-    st.info("Loading Hugging Face DeepSeekR1 Model... Please wait.")
-    return pipeline(
-        "text-generation",
-        model="deepseek-ai/DeepSeek-R1",
-        use_auth_token=os.environ['HUGGINGFACE_API_KEY'],
-        trust_remote_code=True
-    )
-# Process the PDFs, Create/Update the Vector Store
 if st.button("Process PDFs") and uploaded_files:
     all_documents = []
@@ -76,15 +64,14 @@ if st.button("Process PDFs") and uploaded_files:
                 # Create Document object for each chunk
                 all_documents.append(Document(page_content=chunk, metadata=doc.metadata))
-    # Create embeddings with Hugging Face
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
     st.session_state.vector_store = FAISS.from_documents(
         documents=all_documents,
         embedding=embeddings
     )
-    st.success("PDFs processed and vector store created!")
 # Query + Summarize
 query = st.text_input("Enter your question or summary request:")
@@ -93,26 +80,29 @@ if st.button("Get Summary/Answer"):
     if st.session_state.vector_store is None:
         st.warning("Please upload and process PDFs first.")
     else:
         retriever = st.session_state.vector_store.as_retriever(
             search_type="similarity",
             search_kwargs={"k": 5}
         )
-        # Use Hugging Face LLM
-        hf_pipeline = get_huggingface_pipeline()
-        # Retrieve documents and generate response
-        relevant_docs = retriever.get_relevant_documents(query)
-        context_text = "\n".join([doc.page_content for doc in relevant_docs])
-        # Generate answer using Hugging Face model
-        response = hf_pipeline(f"Context: {context_text}\nQuestion: {query}", max_length=500, num_return_sequences=1)
         st.markdown("### Answer:")
-        st.write(response[0]['generated_text'])
         with st.expander("Show source documents"):
-            for i, doc in enumerate(relevant_docs):
-                st.markdown(f"**Source Document {i + 1}:**")
                 st.write(doc.page_content)
                 st.write("---")

 import tempfile
 import streamlit as st
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings.openai import OpenAIEmbeddings
 from langchain.vectorstores import FAISS
+from langchain.llms import OpenAI
 from langchain.chains import RetrievalQA
 from langchain.document_loaders import PyPDFLoader
 from langchain.schema import Document
 from dotenv import load_dotenv
+# Load environment variables
 load_dotenv()
 os.environ['OPENAI_API_KEY'] = os.getenv("OPENAI_API_KEY")
 os.environ["LANGCHAIN_API_KEY"] = os.getenv("LANGCHAIN_API_KEY")
 os.environ["LANGCHAIN_TRACING_V2"] = "true"
 os.environ["LANGCHAIN_PROJECT"]="Research-Paper-Summarizer"
 # Streamlit Page Config
 st.set_page_config(
+    page_title="Research Paper Summarizer",
     layout="centered"
 )
+st.title("📚 Research Paper Summarizer")
 # File Uploader
 uploaded_files = st.file_uploader(
     accept_multiple_files=True
 )
+# Initialize vector store in session state
 if "vector_store" not in st.session_state:
     st.session_state.vector_store = None
+# Process PDFs and create/update the vector store
 if st.button("Process PDFs") and uploaded_files:
     all_documents = []
                 # Create Document object for each chunk
                 all_documents.append(Document(page_content=chunk, metadata=doc.metadata))
+    # Create vector store from documents
+    embeddings = OpenAIEmbeddings()
     st.session_state.vector_store = FAISS.from_documents(
         documents=all_documents,
         embedding=embeddings
     )
+    st.success("PDFs processed and vector store created! ✅")
 # Query + Summarize
 query = st.text_input("Enter your question or summary request:")
     if st.session_state.vector_store is None:
         st.warning("Please upload and process PDFs first.")
     else:
+        # Create retriever and chain
         retriever = st.session_state.vector_store.as_retriever(
             search_type="similarity",
             search_kwargs={"k": 5}
         )
+        llm = OpenAI(temperature=0.0)
+        qa_chain = RetrievalQA.from_chain_type(
+            llm=llm,
+            chain_type="stuff",
+            retriever=retriever,
+            return_source_documents=True
+        )
+        # Execute query
+        result = qa_chain({"query": query})
+        # Display the result
         st.markdown("### Answer:")
+        st.write(result["result"])
         with st.expander("Show source documents"):
+            source_docs = result["source_documents"]
+            for i, doc in enumerate(source_docs):
+                st.markdown(f"**Source Document {i+1}:**")
                 st.write(doc.page_content)
                 st.write("---")