PDF_QA_Streamlit_App

Sleeping

App Files Files Community

rbbist commited on Jun 24, 2025

Commit

27bc93f

verified ·

1 Parent(s): 430911f

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -10

app.py CHANGED Viewed

@@ -5,20 +5,19 @@ from langchain.vectorstores import FAISS
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import RetrievalQA
 from langchain.llms import HuggingFacePipeline
-from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
-import torch
-st.set_page_config(page_title="PDF QA App (Open Source)", layout="wide")
-st.title("📘 Ask Questions from Uploaded PDFs (Free/Open Source)")
 uploaded_files = st.file_uploader("Upload multiple PDF files", type=["pdf"], accept_multiple_files=True)
 @st.cache_resource
 def load_llm():
-    model_id = "mistralai/Mistral-7B-Instruct-v0.1"
     tokenizer = AutoTokenizer.from_pretrained(model_id)
-    model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.float16)
-    pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512)
     return HuggingFacePipeline(pipeline=pipe)
 if uploaded_files:
@@ -27,7 +26,9 @@ if uploaded_files:
     for file in uploaded_files:
         reader = PyPDF2.PdfReader(file)
         for page in reader.pages:
-            all_text += page.extract_text() or ""
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     texts = text_splitter.split_text(all_text)
@@ -42,5 +43,5 @@ if uploaded_files:
     question = st.text_input("Ask a question based on the uploaded PDFs:")
     if question:
         with st.spinner("Generating answer..."):
-            response = qa_chain.run(question)
-            st.success(response)

 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.chains import RetrievalQA
 from langchain.llms import HuggingFacePipeline
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+st.set_page_config(page_title="PDF QA App (CPU)", layout="wide")
+st.title("📘 Ask Questions from Uploaded PDFs (Free & CPU Friendly)")
 uploaded_files = st.file_uploader("Upload multiple PDF files", type=["pdf"], accept_multiple_files=True)
 @st.cache_resource
 def load_llm():
+    model_id = "google/flan-t5-base"
     tokenizer = AutoTokenizer.from_pretrained(model_id)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
+    pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer)
     return HuggingFacePipeline(pipeline=pipe)
 if uploaded_files:
     for file in uploaded_files:
         reader = PyPDF2.PdfReader(file)
         for page in reader.pages:
+            text = page.extract_text()
+            if text:
+                all_text += text
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     texts = text_splitter.split_text(all_text)
     question = st.text_input("Ask a question based on the uploaded PDFs:")
     if question:
         with st.spinner("Generating answer..."):
+            answer = qa_chain.run(question)
+            st.success(answer)