Spaces:

prithvi1029
/

agentic-document-intelligence

Sleeping

App Files Files Community

prithvi1029 commited on 25 days ago

Commit

a0afdb9

verified ·

1 Parent(s): b98f9c6

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -20

app.py CHANGED Viewed

@@ -4,64 +4,64 @@ from langchain_community.document_loaders import PyPDFLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
-from langchain_openai import ChatOpenAI
 def run_qa(pdf_path, question):
-    if pdf_path is None or not question or question.strip() == "":
         return "Please upload a PDF and enter a question."
-    # 1) Load PDF
     loader = PyPDFLoader(pdf_path)
     docs = loader.load()
-    # 2) Split
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
     chunks = splitter.split_documents(docs)
-    # 3) Embed + Vector store
     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
     vectordb = FAISS.from_documents(chunks, embeddings)
-    # 4) Retrieve relevant chunks
     retriever = vectordb.as_retriever(search_kwargs={"k": 4})
     retrieved_docs = retriever.get_relevant_documents(question)
     context = "\n\n".join([d.page_content for d in retrieved_docs])
-    # 5) LLM (OpenAI)
-    llm = ChatOpenAI(temperature=0)
     prompt = f"""
-You are a helpful assistant. Answer the question using ONLY the context below.
-If the answer is not in the context, say "I don't know".
-CONTEXT:
 {context}
-QUESTION:
 {question}
 Answer:
-""".strip()
-    response = llm.invoke(prompt)
-    answer = response.content if hasattr(response, "content") else str(response)
-    # 6) Sources preview
     sources = "\n\n".join([d.page_content[:500] for d in retrieved_docs[:2]])
     return f"### Answer\n{answer}\n\n---\n### Sources\n{sources}"
 with gr.Blocks(title="Agentic Document Intelligence") as demo:
-    gr.Markdown("# 📄 Agentic Document Intelligence\nUpload a PDF and ask questions using RAG.")
     pdf = gr.File(label="Upload PDF", type="filepath")
     question = gr.Textbox(label="Ask a question")
     output = gr.Markdown()
-    btn = gr.Button("Run")
-    btn.click(run_qa, inputs=[pdf, question], outputs=output)
 demo.launch()

 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
+from langchain_huggingface import HuggingFaceEndpoint
 def run_qa(pdf_path, question):
+    if pdf_path is None or not question.strip():
         return "Please upload a PDF and enter a question."
+    # Load PDF
     loader = PyPDFLoader(pdf_path)
     docs = loader.load()
+    # Split
     splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)
     chunks = splitter.split_documents(docs)
+    # Embeddings
     embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
     vectordb = FAISS.from_documents(chunks, embeddings)
+    # Retrieve
     retriever = vectordb.as_retriever(search_kwargs={"k": 4})
     retrieved_docs = retriever.get_relevant_documents(question)
     context = "\n\n".join([d.page_content for d in retrieved_docs])
+    # Hugging Face LLM
+    llm = HuggingFaceEndpoint(
+        repo_id="mistralai/Mistral-7B-Instruct-v0.2",
+        temperature=0.2,
+        max_new_tokens=512,
+    )
     prompt = f"""
+You are a helpful assistant. Answer ONLY using the context.
+If the answer is not present, say "I don't know".
+Context:
 {context}
+Question:
 {question}
 Answer:
+"""
+    answer = llm.invoke(prompt)
     sources = "\n\n".join([d.page_content[:500] for d in retrieved_docs[:2]])
     return f"### Answer\n{answer}\n\n---\n### Sources\n{sources}"
 with gr.Blocks(title="Agentic Document Intelligence") as demo:
+    gr.Markdown("# 📄 Agentic Document Intelligence (HF LLM)")
     pdf = gr.File(label="Upload PDF", type="filepath")
     question = gr.Textbox(label="Ask a question")
     output = gr.Markdown()
+    gr.Button("Run").click(run_qa, inputs=[pdf, question], outputs=output)
 demo.launch()