Spaces:

Marthee
/

PdftoText1

Paused

Marthee commited on Jun 4, 2025

Commit

96ac8c5

verified ·

1 Parent(s): f8d7052

Update pdftotext.py

Files changed (1) hide show

pdftotext.py CHANGED Viewed

@@ -141,6 +141,13 @@ def apiFiltering(apitext):
     return filtered_items
 def texts_from_pdfAllText(link):
       pdf_content = None
@@ -167,8 +174,10 @@ def texts_from_pdfAllText(link):
             text_instances = page.get_text()
             all_text+=text_instances
-      print(all_text)
-      return all_text
 # import fitz
 # import tsadropboxretrieval

     return filtered_items
+def clean_text(text):
+    # Replace all newlines and tabs with a space
+    text = re.sub(r'[\n\t]+', ' ', text)
+    # Collapse multiple spaces into one
+    text = re.sub(r'\s+', ' ', text)
+    return text.strip()
 def texts_from_pdfAllText(link):
       pdf_content = None
             text_instances = page.get_text()
             all_text+=text_instances
+      cleaned_text = clean_text(all_text)
+      print(cleaned_text)
+      return cleaned_text
 # import fitz
 # import tsadropboxretrieval