Spaces:

dnzblgn
/

RAG_PDF_langchain

Sleeping

App Files Files Community

dnzblgn commited on Feb 2, 2025

Commit

05fe184

verified ·

1 Parent(s): 3ee7245

Create app.py

Browse files

Files changed (1) hide show

app.py +90 -0

app.py ADDED Viewed

	@@ -0,0 +1,90 @@

+import os
+import gradio as gr
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain_community.llms import HuggingFaceEndpoint
+from langchain_community.vectorstores import FAISS
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains import ConversationalRetrievalChain
+from langchain.memory import ConversationBufferMemory
+# Initialize embeddings
+embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+# Initialize Mistral LLM
+llm = HuggingFaceEndpoint(
+    endpoint_url="https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Instruct-v0.2",
+    huggingfacehub_api_token=os.getenv("HF_TOKEN"),
+    task="text-generation",
+)
+def process_pdf(pdf_file):
+    # Load PDF
+    loader = PyPDFLoader(pdf_file)
+    documents = loader.load()
+    # Split text into chunks
+    text_splitter = RecursiveCharacterTextSplitter(
+        chunk_size=1000,
+        chunk_overlap=200,
+        length_function=len
+    )
+    chunks = text_splitter.split_documents(documents)
+    # Create vector store
+    vectorstore = FAISS.from_documents(chunks, embeddings)
+    return vectorstore
+def setup_rag_chain(vectorstore):
+    memory = ConversationBufferMemory(
+        memory_key="chat_history",
+        return_messages=True,
+        output_key='answer'
+    )
+    chain = ConversationalRetrievalChain.from_llm(
+        llm=llm,
+        retriever=vectorstore.as_retriever(search_kwargs={'k': 3}),
+        memory=memory,
+        return_source_documents=True,
+        chain_type="stuff",
+        verbose=True
+    )
+    return chain
+def get_response(query, chain):
+    result = chain({"question": query})
+    return result['answer']
+def create_demo():
+    def process_file(file):
+        vectorstore = process_pdf(file.name)
+        return setup_rag_chain(vectorstore)
+    def respond(message, history, chain_state):
+        if chain_state is None:
+            return "Please upload a PDF first."
+        response = get_response(message, chain_state)
+        return response
+    with gr.Blocks() as demo:
+        chain_state = gr.State(None)
+        with gr.Row():
+            file_input = gr.File(label="Upload PDF", file_types=[".pdf"])
+        chatbot = gr.Chatbot()
+        msg = gr.Textbox(label="Question")
+        clear = gr.Button("Clear")
+        file_input.upload(fn=process_file, outputs=[chain_state])
+        msg.submit(fn=respond, inputs=[msg, chatbot, chain_state], outputs=[chatbot])
+        clear.click(lambda: None, None, chatbot, queue=False)
+    return demo
+if __name__ == "__main__":
+    demo = create_demo()
+    demo.launch()