Spaces:

Uzaiir
/

DocumentInteractor

Sleeping

App Files Files Community

Uzaiir commited on May 19, 2025

Commit

9acac0b

verified ·

1 Parent(s): 0f4b0b6

Update src/PDFprocess_sample.py

Browse files

Files changed (1) hide show

src/PDFprocess_sample.py +99 -46

src/PDFprocess_sample.py CHANGED Viewed

@@ -1,3 +1,100 @@
 import tempfile
 import streamlit as st
 import pickle
@@ -12,23 +109,15 @@ import os
 def process_pdf(uploaded_file):
     all_documents = []
-    # st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
     main_placeholder = st.empty()
     # Creating  a temporary file to store the uploaded PDF's
     main_placeholder.text("Data Loading...Started...✅✅✅")
     for uploaded_file in uploaded_file:
         with tempfile.NamedTemporaryFile(delete=False , suffix='.pdf') as temp_file:
-            temp_file.write(uploaded_file) ## write file to temporary
             temp_file_path = temp_file.name  # Get the temporary file path
-        # temp_file_path = os.path.join("/tmp", uploaded_file.name)
-        # with open(temp_file_path, "wb") as f:
-        #     f.write(uploaded_file.read())
-        # st.write(f"Uploaded files: {[file.name for file in uploaded_file]}")
             # Load the PDF's from the temporary file path
@@ -55,41 +144,5 @@ def process_pdf(uploaded_file):
         else:
             st.error("No documents found after processing the uploaded files or the pdf is corrupted / unsupported.")
-# def process_pdf(uploaded_files):
-#     all_documents = []
-#     main_placeholder = st.empty()
-#     main_placeholder.text("Data Loading...Started...✅✅✅")
-#     for uploaded_file in uploaded_files:
-#         temp_file_path = os.path.join("/tmp", uploaded_file.name)
-#         with open(temp_file_path, "wb") as f:
-#             f.write(uploaded_file.read())
-#         st.write(f"Uploaded files: {[file.name for file in uploaded_files]}")
-#         loader = PyPDFLoader(temp_file_path)
-#         doc = loader.load()
-#         main_placeholder.text("Text Splitter...Started...✅✅✅")
-#         text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-#         final_documents = text_splitter.split_documents(doc)
-#         all_documents.extend(final_documents)
-#     if all_documents:
-#         main_placeholder.text("Embedding Vector Started Building...✅✅✅")
-#         # ⏬ Move embedding initialization here
-#         st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-#         st.session_state.vectors = FAISS.from_documents(all_documents, st.session_state.embeddings)
-#         st.session_state.docs = all_documents
-#         faiss_index = st.session_state.vectors.index
-#         faiss.write_index(faiss_index, "faiss_index.bin")
-#         main_placeholder.text("Vector database created!...✅✅✅")
-#     else:
-#         st.error("No documents found or the PDF is corrupted.")

+# import tempfile
+# import streamlit as st
+# import pickle
+# from langchain_google_genai import GoogleGenerativeAIEmbeddings
+# from langchain_community.document_loaders import PyPDFLoader
+# from langchain.text_splitter import RecursiveCharacterTextSplitter
+# from langchain_community.vectorstores import FAISS
+# import faiss
+# import os
+# def process_pdf(uploaded_file):
+#     all_documents = []
+#     # st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+#     main_placeholder = st.empty()
+#     # Creating  a temporary file to store the uploaded PDF's
+#     main_placeholder.text("Data Loading...Started...✅✅✅")
+#     for uploaded_file in uploaded_file:
+#         with tempfile.NamedTemporaryFile(delete=False , suffix='.pdf') as temp_file:
+#             temp_file.write(uploaded_file) ## write file to temporary
+#             temp_file_path = temp_file.name  # Get the temporary file path
+#         # temp_file_path = os.path.join("/tmp", uploaded_file.name)
+#         # with open(temp_file_path, "wb") as f:
+#         #     f.write(uploaded_file.read())
+#         # st.write(f"Uploaded files: {[file.name for file in uploaded_file]}")
+#             # Load the PDF's from the temporary file path
+#         loader = PyPDFLoader(temp_file_path) # Document loader
+#         doc= loader.load() # load Document
+#         main_placeholder.text("Text Splitter...Started...✅✅✅")
+#         text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200) # Recursive Character String
+#         #final_documents = text_splitter.split_documents(doc)# splitting
+#         final_documents = text_splitter.split_documents(doc)
+#         all_documents.extend(final_documents)
+#         if all_documents:
+#             main_placeholder.text("Embedding Vector Started Building...✅✅✅")
+#             st.session_state.vectors = FAISS.from_documents(all_documents,st.session_state.embeddings)
+#             st.session_state.docs = all_documents
+#             # Save FAISS vector store to disk
+#             faiss_index = st.session_state.vectors.index  # Extract FAISS index
+#             faiss.write_index(faiss_index, "faiss_index.bin")  # Save index to a binary file
+#             main_placeholder.text("Vector database created!...✅✅✅")
+#         else:
+#             st.error("No documents found after processing the uploaded files or the pdf is corrupted / unsupported.")
+# # def process_pdf(uploaded_files):
+# #     all_documents = []
+# #     main_placeholder = st.empty()
+# #     main_placeholder.text("Data Loading...Started...✅✅✅")
+# #     for uploaded_file in uploaded_files:
+# #         temp_file_path = os.path.join("/tmp", uploaded_file.name)
+# #         with open(temp_file_path, "wb") as f:
+# #             f.write(uploaded_file.read())
+# #         st.write(f"Uploaded files: {[file.name for file in uploaded_files]}")
+# #         loader = PyPDFLoader(temp_file_path)
+# #         doc = loader.load()
+# #         main_placeholder.text("Text Splitter...Started...✅✅✅")
+# #         text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+# #         final_documents = text_splitter.split_documents(doc)
+# #         all_documents.extend(final_documents)
+# #     if all_documents:
+# #         main_placeholder.text("Embedding Vector Started Building...✅✅✅")
+# #         # ⏬ Move embedding initialization here
+# #         st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+# #         st.session_state.vectors = FAISS.from_documents(all_documents, st.session_state.embeddings)
+# #         st.session_state.docs = all_documents
+# #         faiss_index = st.session_state.vectors.index
+# #         faiss.write_index(faiss_index, "faiss_index.bin")
+# #         main_placeholder.text("Vector database created!...✅✅✅")
+# #     else:
+# #         st.error("No documents found or the PDF is corrupted.")
 import tempfile
 import streamlit as st
 import pickle
 def process_pdf(uploaded_file):
     all_documents = []
+    st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
     main_placeholder = st.empty()
     # Creating  a temporary file to store the uploaded PDF's
     main_placeholder.text("Data Loading...Started...✅✅✅")
     for uploaded_file in uploaded_file:
         with tempfile.NamedTemporaryFile(delete=False , suffix='.pdf') as temp_file:
+            temp_file.write(uploaded_file.read()) ## write file to temporary
             temp_file_path = temp_file.name  # Get the temporary file path
             # Load the PDF's from the temporary file path
         else:
             st.error("No documents found after processing the uploaded files or the pdf is corrupted / unsupported.")