Spaces:

Almaatla
/

Standard_Intelligence_Dev

Sleeping

App Files Files Community

heymenn commited on Apr 11, 2024

Commit

cb965ad

verified ·

1 Parent(s): b5ddf28

Update scrape_3gpp.py

Browse files

Files changed (1) hide show

scrape_3gpp.py +30 -0

scrape_3gpp.py CHANGED Viewed

@@ -8,6 +8,7 @@ import zipfile
 import textract
 import gradio as gr
 import shutil
 def browse_folder(url):
     if url.lower().endswith(('docs', 'docs/')):
@@ -297,6 +298,8 @@ def extractionPrincipale(url, excel_file=None, status_list=None, progress=gr.Pro
                 if file.endswith((".pptx", ".ppt", ".pdf", ".docx", ".doc", ".DOCX")):
                     try:
                         text = textract.process(file_path).decode('utf-8')
                     except Exception as e:
                         print(f"Error processing {file_path}: {e}")
                         errors_count += 1
@@ -419,6 +422,33 @@ def extractionPrincipale(url, excel_file=None, status_list=None, progress=gr.Pro
                             # Here's a simplified example
                             discussion_details = Discussion
                             extracted_content.append(discussion_details)
                         # Add more categories as needed
                         contenu = "\n".join(extracted_content)

 import textract
 import gradio as gr
 import shutil
+from pypdf import PdfReader
 def browse_folder(url):
     if url.lower().endswith(('docs', 'docs/')):
                 if file.endswith((".pptx", ".ppt", ".pdf", ".docx", ".doc", ".DOCX")):
                     try:
                         text = textract.process(file_path).decode('utf-8')
+                        if file.endswith((".pdf")):
+                            pdfReader = PdfReader(file_path)
                     except Exception as e:
                         print(f"Error processing {file_path}: {e}")
                         errors_count += 1
                             # Here's a simplified example
                             discussion_details = Discussion
                             extracted_content.append(discussion_details)
+                        elif category == "pdf":
+                            tabLine = []
+                            file = pdfReader
+                            pdfNumberPages = len(file.pages)
+                            for pdfPage in range(0, pdfNumberPages):
+                                load_page = file.get_page(pdfPage)
+                                text = load_page.extract_text()
+                                lines = text.split("\n")
+                                keyword = ["objective", "introduction", "summary", "scope"]
+                                for line in lines:
+                                    print(line)
+                                    if len(line) < 20:
+                                      for key in keyword:
+                                          line = line.lower()
+                                          if key in line:
+                                            start_index = line.find(key)
+                                            selectedText = lines[start_index:]
+                                            tabLine.append([pdfPage,selectedText,key])
+                                            print(f"Selected line in keywords is: {line}")
+                            for r in tabLine:
+                            extracted_content.append(f'PDF Page number {r[0]} extracted text from the KEYWORD {r[2]} : \n')
+                            extracted_content.append(' '.join(r[1]))
                         # Add more categories as needed
                         contenu = "\n".join(extracted_content)