Spaces:

Chinar-Q-AI
/

pdf-Interactor

Sleeping

App Files Files Community

ChinarQ-AI

Uzaiir commited on May 14, 2025

Commit

daa4678

verified ·

1 Parent(s): 0c040d4

Update src/PDFprocess_sample.py (#14)

Browse files

- Update src/PDFprocess_sample.py (2ee3a93666795a50884871e764d7e116c5b65316)

Co-authored-by: Khan <Uzaiir@users.noreply.huggingface.co>

Files changed (1) hide show

src/PDFprocess_sample.py +65 -29

src/PDFprocess_sample.py CHANGED Viewed

@@ -8,42 +8,78 @@ from langchain_community.vectorstores import FAISS
 import faiss
-def process_pdf(uploaded_file):
-    all_documents = []
-    st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-    main_placeholder = st.empty()
-    # Creating  a temporary file to store the uploaded PDF's
-    main_placeholder.text("Data Loading...Started...✅✅✅")
-    for uploaded_file in uploaded_file:
-        with tempfile.NamedTemporaryFile(delete=False , suffix='.pdf') as temp_file:
-            temp_file.write(uploaded_file.read()) ## write file to temporary
-            temp_file_path = temp_file.name  # Get the temporary file path
-            # Load the PDF's from the temporary file path
-        loader = PyPDFLoader(temp_file_path) # Document loader
-        doc= loader.load() # load Document
-        main_placeholder.text("Text Splitter...Started...✅✅✅")
-        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200) # Recursive Character String
-        #final_documents = text_splitter.split_documents(doc)# splitting
-        final_documents = text_splitter.split_documents(doc)
-        all_documents.extend(final_documents)
-        if all_documents:
-            main_placeholder.text("Embedding Vector Started Building...✅✅✅")
-            st.session_state.vectors = FAISS.from_documents(all_documents,st.session_state.embeddings)
-            st.session_state.docs = all_documents
-            # Save FAISS vector store to disk
-            faiss_index = st.session_state.vectors.index  # Extract FAISS index
-            faiss.write_index(faiss_index, "faiss_index.bin")  # Save index to a binary file
-            main_placeholder.text("Vector database created!...✅✅✅")
-        else:
-            st.error("No documents found after processing the uploaded files or the pdf is corrupted / unsupported.")

 import faiss
+# def process_pdf(uploaded_file):
+#     all_documents = []
+#     st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+#     main_placeholder = st.empty()
+#     # Creating  a temporary file to store the uploaded PDF's
+#     main_placeholder.text("Data Loading...Started...✅✅✅")
+#     for uploaded_file in uploaded_file:
+#         with tempfile.NamedTemporaryFile(delete=False , suffix='.pdf') as temp_file:
+#             temp_file.write(uploaded_file.read()) ## write file to temporary
+#             temp_file_path = temp_file.name  # Get the temporary file path
+#             # Load the PDF's from the temporary file path
+#         loader = PyPDFLoader(temp_file_path) # Document loader
+#         doc= loader.load() # load Document
+#         main_placeholder.text("Text Splitter...Started...✅✅✅")
+#         text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200) # Recursive Character String
+#         #final_documents = text_splitter.split_documents(doc)# splitting
+#         final_documents = text_splitter.split_documents(doc)
+#         all_documents.extend(final_documents)
+#         if all_documents:
+#             main_placeholder.text("Embedding Vector Started Building...✅✅✅")
+#             st.session_state.vectors = FAISS.from_documents(all_documents,st.session_state.embeddings)
+#             st.session_state.docs = all_documents
+#             # Save FAISS vector store to disk
+#             faiss_index = st.session_state.vectors.index  # Extract FAISS index
+#             faiss.write_index(faiss_index, "faiss_index.bin")  # Save index to a binary file
+#             main_placeholder.text("Vector database created!...✅✅✅")
+#         else:
+#             st.error("No documents found after processing the uploaded files or the pdf is corrupted / unsupported.")
+import streamlit as st
+import pickle
+from langchain_google_genai import GoogleGenerativeAIEmbeddings
+from langchain_community.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.vectorstores import FAISS
+import faiss
+def process_pdf(file_path):  # Expecting file path string
+    st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+    main_placeholder = st.empty()
+    main_placeholder.text("Data Loading...Started...✅✅✅")
+    # Load the PDF from the given file path
+    loader = PyPDFLoader(file_path)
+    doc = loader.load()
+    main_placeholder.text("Text Splitter...Started...✅✅✅")
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+    final_documents = text_splitter.split_documents(doc)
+    if final_documents:
+        main_placeholder.text("Embedding Vector Started Building...✅✅✅")
+        st.session_state.vectors = FAISS.from_documents(final_documents, st.session_state.embeddings)
+        st.session_state.docs = final_documents
+        # Save FAISS vector store to disk
+        faiss_index = st.session_state.vectors.index
+        faiss.write_index(faiss_index, "faiss_index.bin")
+        main_placeholder.text("Vector database created!...✅✅✅")
+    else:
+        st.error("No documents found or the PDF is corrupted.")