Spaces:

Almaatla
/

Standard_Intelligence_Dev

Sleeping

YchKhan commited on Jun 18, 2024

Commit

e1c1593

verified ·

1 Parent(s): aea8774

Update split_files_to_excel.py

Files changed (1) hide show

split_files_to_excel.py CHANGED Viewed

@@ -475,27 +475,27 @@ def split_doc_in_chunks(input_folder, base_folders, nb_pages):
         # Select the appropriate document loader
         chunks=[]
         if path.endswith(".pdf"):
-            try:
-                print("Treatment of pdf file", path)
-                raw_chunks = split_pdf(path, input_folder)
-                for j, raw_chunk in enumerate(raw_chunks):
-                    print(f"BASE zzzzz LIST : {base_folders} = i = {j}")
-                    raw_chunk.metadata["Base Folder"] = base_folders[j]
-                sb_chunks = group_chunks_by_section(raw_chunks)
-                if nb_pages > 0:
-                    for sb_chunk in sb_chunks:
-                        print(f"CHUNK PAGENUM = {sb_chunk.metadata['page_number']}")
-                        if int(sb_chunk.metadata["page_number"])<nb_pages:
-                            chunks.append(sb_chunk)
-                    else:
-                        break
                 else:
-                    chunks = sb_chunks
-                print(f"Document splitted in {len(chunks)} chunks")
-                # for chunk in chunks:
-                    # print(f"\n\n____\n\n\nPDF CONTENT: \n{chunk.page_content}\ntitle: {chunk.metadata['title']}\nFile Name: {chunk.metadata['filename']}\n\n")
-            except Exception as e:
-                print("Error while splitting the pdf file: ", e)
         elif path.endswith(".docx"):
             try:
                 print ("Treatment of docx file", path)

         # Select the appropriate document loader
         chunks=[]
         if path.endswith(".pdf"):
+            # try:
+            print("Treatment of pdf file", path)
+            raw_chunks = split_pdf(path, input_folder)
+            for j, raw_chunk in enumerate(raw_chunks):
+                print(f"BASE zzzzz LIST : {base_folders} = i = {j}")
+                raw_chunk.metadata["Base Folder"] = base_folders[j]
+            sb_chunks = group_chunks_by_section(raw_chunks)
+            if nb_pages > 0:
+                for sb_chunk in sb_chunks:
+                    print(f"CHUNK PAGENUM = {sb_chunk.metadata['page_number']}")
+                    if int(sb_chunk.metadata["page_number"])<nb_pages:
+                        chunks.append(sb_chunk)
                 else:
+                    break
+            else:
+                chunks = sb_chunks
+            print(f"Document splitted in {len(chunks)} chunks")
+            # for chunk in chunks:
+                # print(f"\n\n____\n\n\nPDF CONTENT: \n{chunk.page_content}\ntitle: {chunk.metadata['title']}\nFile Name: {chunk.metadata['filename']}\n\n")
+            # except Exception as e:
+            #     print("Error while splitting the pdf file: ", e)
         elif path.endswith(".docx"):
             try:
                 print ("Treatment of docx file", path)