Spaces:

QuaidKhalid
/

PDFChatBot

Sleeping

App Files Files Community

QuaidKhalid commited on Aug 31, 2024

Commit

25d1423

verified ·

1 Parent(s): b95521c

Create app.py

Browse files

Files changed (1) hide show

app.py +87 -0

app.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import streamlit as st
+from langchain import hub
+from langchain_chroma import Chrom a
+from langchain_community.document_loaders import PyPDFLoader
+from langchain_core.output_parsers import StrOutputParser
+from langchain_core.runnables import RunnablePassthrough
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from sentence_transformers import SentenceTransformer
+import torch
+# Define the embedding class
+class SentenceTransformerEmbedding:
+    def __init__(self, model_name):
+        self.model = SentenceTransformer(model_name)
+    def embed_documents(self, texts):
+        embeddings = self.model.encode(texts, convert_to_tensor=True)
+        if isinstance(embeddings, torch.Tensor):
+            return embeddings.cpu().detach().numpy().tolist()  # Convert tensor to list
+        return embeddings
+    def embed_query(self, query):
+        embedding = self.model.encode([query], convert_to_tensor=True)
+        if isinstance(embedding, torch.Tensor):
+            return embedding.cpu().detach().numpy().tolist()[0]  # Convert tensor to list
+        return embedding[0]
+# Initialize the embedding class
+embedding_model = SentenceTransformerEmbedding('all-MiniLM-L6-v2')
+# Get API keys for Groq and LangChain
+groq_api_key = "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"
+langchain_api_key = "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"
+def load_document(document_path):
+    try:
+        loader = PyPDFLoader(document_path)
+        docs = loader.load()
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=4000, chunk_overlap=200)
+        splits = text_splitter.split_documents(docs)
+        return splits
+    except Exception as e:
+        return str(e)
+def initialize_chroma(splits):
+    try:
+        vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_model)
+        retriever = vectorstore.as_retriever()
+        prompt = hub.pull("rlm/rag-prompt")
+        def format_docs(docs):
+            return "\n\n".join(doc.page_content for doc in docs)
+        rag_chain = (
+            {"context": retriever | format_docs, "question": RunnablePassthrough()}
+            | prompt
+            | llm  # Replace `llm` with an appropriate language model
+            | StrOutputParser()
+        )
+        return rag_chain
+    except Exception as e:
+        return str(e)
+def answer_question(rag_chain, query):
+    try:
+        result = rag_chain.invoke(query)
+        return result
+    except Exception as e:
+        return str(e)
+st.title("PDF Question Answering")
+st.write("Upload your PDF document and ask a question!")
+document_path = st.file_uploader("Upload your PDF document", type=["pdf"])
+query = st.text_input("Enter your question")
+if document_path is not None and query:
+    splits = load_document(document_path)
+    if isinstance(splits, str):
+        st.write("Error loading document:", splits)
+    else:
+        rag_chain = initialize_chroma(splits)
+        if isinstance(rag_chain, str):
+            st.write("Error initializing Chroma:", rag_chain)
+        else:
+            result = answer_question(rag_chain, query)
+            st.write("Result:", result)
+st.write("Note: Replace `llm` with an appropriate language model.")