Spaces:

sblumenf
/

pdf-convert

Sleeping

App Files Files Community

sblumenf commited on Dec 12, 2024

Commit

28f23fa

verified ·

1 Parent(s): e17150e

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -18

app.py CHANGED Viewed

@@ -10,6 +10,17 @@ import pdfplumber
 import tempfile
 import traceback
 def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
     """
     Parses a PDF file, extracts text, tables, and images, and formats the output.
@@ -34,23 +45,7 @@ def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
                     if isinstance(element, LTTextBoxHorizontal):
                         text += element.get_text()
                     elif isinstance(element, (LTFigure, LTImage)):
-                        try:
-                            if hasattr(element, 'stream'):
-                                image_data = element.stream.get_rawdata()
-                                image = Image.open(io.BytesIO(image_data))
-                                image_filename = f"extracted_image_{len(images)}.png"
-                                image.save(image_filename)
-                                images.append({"filename": image_filename})
-                            else:
-                                for child in element:
-                                    if isinstance(child, LTImage) and hasattr(child, 'stream'):
-                                        image_data = child.stream.get_rawdata()
-                                        image = Image.open(io.BytesIO(image_data))
-                                        image_filename = f"extracted_image_{len(images)}.png"
-                                        image.save(image_filename)
-                                        images.append({"filename": image_filename})
-                        except Exception as e:
-                            print(f"Error extracting image: {e}")
             with pdfplumber.open(pdf_file) as pdf:
                 for page_num, page in enumerate(pdf.pages):
@@ -120,4 +115,4 @@ iface = gr.Interface(
 )
 if __name__ == "__main__":
-    iface.launch()  # Temporarily disable sharing for debugging

 import tempfile
 import traceback
+def save_image(element, images):
+    try:
+        if hasattr(element, 'stream'):
+            image_data = element.stream.get_rawdata()
+            image = Image.open(io.BytesIO(image_data))
+            image_filename = f"extracted_image_{len(images)}.png"
+            image.save(image_filename)
+            images.append({"filename": image_filename})
+    except Exception as e:
+        print(f"Error extracting image: {e}")
 def parse_pdf(pdf_file, output_format, progress=gr.Progress()):
     """
     Parses a PDF file, extracts text, tables, and images, and formats the output.
                     if isinstance(element, LTTextBoxHorizontal):
                         text += element.get_text()
                     elif isinstance(element, (LTFigure, LTImage)):
+                        save_image(element, images)
             with pdfplumber.open(pdf_file) as pdf:
                 for page_num, page in enumerate(pdf.pages):
 )
 if __name__ == "__main__":
+    iface.launch()  # Temporarily disable sharing for debugging