Spaces:

Uzaiir
/

DocumentInteractor

Sleeping

Uzaiir commited on May 17, 2025

Commit

2d42345

verified ·

1 Parent(s): cb666fa

Update src/PDFprocess_sample.py

Files changed (1) hide show

src/PDFprocess_sample.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import tempfile
 import streamlit as st
 import pickle
-from langchain_google_genai import GoogleGenerativeAIEmbeddings
 from langchain_community.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
@@ -73,22 +73,22 @@ def process_pdf(uploaded_files):
         doc = loader.load()
         main_placeholder.text("Text Splitter...Started...✅✅✅")
-        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
-        final_documents = text_splitter.split_documents(doc)
-        all_documents.extend(final_documents)
-    if all_documents:
-        main_placeholder.text("Embedding Vector Started Building...✅✅✅")
-        # ⏬ Move embedding initialization here
-        st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
-        st.session_state.vectors = FAISS.from_documents(all_documents, st.session_state.embeddings)
-        st.session_state.docs = all_documents
-        faiss_index = st.session_state.vectors.index
-        faiss.write_index(faiss_index, "faiss_index.bin")
-        main_placeholder.text("Vector database created!...✅✅✅")
-    else:
-        st.error("No documents found or the PDF is corrupted.")

 import tempfile
 import streamlit as st
 import pickle
+# from langchain_google_genai import GoogleGenerativeAIEmbeddings
 from langchain_community.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import FAISS
         doc = loader.load()
         main_placeholder.text("Text Splitter...Started...✅✅✅")
+        # text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
+        # final_documents = text_splitter.split_documents(doc)
+        # all_documents.extend(final_documents)
+    # if all_documents:
+    #     main_placeholder.text("Embedding Vector Started Building...✅✅✅")
+    #     # ⏬ Move embedding initialization here
+    #     st.session_state.embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
+    #     st.session_state.vectors = FAISS.from_documents(all_documents, st.session_state.embeddings)
+    #     st.session_state.docs = all_documents
+    #     faiss_index = st.session_state.vectors.index
+    #     faiss.write_index(faiss_index, "faiss_index.bin")
+    #     main_placeholder.text("Vector database created!...✅✅✅")
+    # else:
+    #     st.error("No documents found or the PDF is corrupted.")