PDF_QA_Streamlit_App

Sleeping

App Files Files Community

rbbist commited on Jun 24, 2025

Commit

430911f

verified ·

1 Parent(s): e18442b

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -12

app.py CHANGED Viewed

@@ -1,19 +1,46 @@
 import streamlit as st
-from transformers import pipeline
-st.title("Sentiment Analysis")
-# Load pipeline once
 @st.cache_resource
-def load_pipeline():
-    return pipeline("sentiment-analysis")
-pipe = load_pipeline()
-# User input
-text = st.text_area("Enter some text to analyze")
-# Show result
-if text:
-    result = pipe(text)
-    st.write("**Result:**", result[0]["label"], f"({result[0]['score']:.2f})")

 import streamlit as st
+import PyPDF2
+from langchain.embeddings import SentenceTransformerEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.chains import RetrievalQA
+from langchain.llms import HuggingFacePipeline
+from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
+import torch
+st.set_page_config(page_title="PDF QA App (Open Source)", layout="wide")
+st.title("📘 Ask Questions from Uploaded PDFs (Free/Open Source)")
+uploaded_files = st.file_uploader("Upload multiple PDF files", type=["pdf"], accept_multiple_files=True)
 @st.cache_resource
+def load_llm():
+    model_id = "mistralai/Mistral-7B-Instruct-v0.1"
+    tokenizer = AutoTokenizer.from_pretrained(model_id)
+    model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.float16)
+    pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512)
+    return HuggingFacePipeline(pipeline=pipe)
+if uploaded_files:
+    st.info("Reading and processing PDFs...")
+    all_text = ""
+    for file in uploaded_files:
+        reader = PyPDF2.PdfReader(file)
+        for page in reader.pages:
+            all_text += page.extract_text() or ""
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+    texts = text_splitter.split_text(all_text)
+    embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
+    db = FAISS.from_texts(texts, embeddings)
+    retriever = db.as_retriever()
+    llm = load_llm()
+    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)
+    question = st.text_input("Ask a question based on the uploaded PDFs:")
+    if question:
+        with st.spinner("Generating answer..."):
+            response = qa_chain.run(question)
+            st.success(response)