Spaces:

artifex-software
/

pymupdfextraction

Running on CPU Upgrade

App Files Files Community

JamieLemon commited on Nov 11, 2025

Commit

0f61ca8

1 Parent(s): 0585b7f

Updates application to work directly with PyMuPDF Layout.

Browse files

Files changed (3) hide show

app.py +0 -1
my_gui.py +15 -3
my_io.py +8 -13

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
-import pymupdf
 import pymupdf.layout
 import pymupdf4llm
 from PIL import Image

 import pymupdf.layout
 import pymupdf4llm
 from PIL import Image

my_gui.py CHANGED Viewed

@@ -61,14 +61,14 @@ with gr.Blocks(css=custom_css) as my_gui:
                                               label="Maximum number of pages to convert",
                                               info="", precision=0, interactive=True,
                                               step=1, elem_id="mySlider")
             with gr.Row():
                 checkboxes = gr.CheckboxGroup(["Separate pages", "Embed images"],
                                               label="Conversion options")
             with gr.Row():
                 radios = gr.Radio(["lines_strict", "lines", "text"], value="lines_strict", label="Table detection strategy", info="Default is “lines” which uses all vector graphics on the page to detect grid lines.\nStrategy “lines_strict” ignores borderless rectangle vector graphics. Sometimes single text pieces have background colors which may lead to false columns or lines. This strategy ignores them and can thus increase detection precision.\nIf “text” is specified, text positions are used to generate “virtual” column and / or row boundaries.")
             with gr.Row():
                 submit_btn = gr.Button("Convert", scale=1, elem_classes=["orange-gradient-btn"])
@@ -91,7 +91,7 @@ with gr.Blocks(css=custom_css) as my_gui:
         inputs=[file_input, page_range_slider],
         outputs=[gallery]
     )
     submit_btn.click(
         fn=convertToMD,
         inputs=[page_range_slider, checkboxes, radios],
@@ -103,3 +103,15 @@ with gr.Blocks(css=custom_css) as my_gui:
     ).success(
         fn=convertComplete, inputs=[], outputs=[]
     )

                                               label="Maximum number of pages to convert",
                                               info="", precision=0, interactive=True,
                                               step=1, elem_id="mySlider")
+            '''
             with gr.Row():
                 checkboxes = gr.CheckboxGroup(["Separate pages", "Embed images"],
                                               label="Conversion options")
             with gr.Row():
                 radios = gr.Radio(["lines_strict", "lines", "text"], value="lines_strict", label="Table detection strategy", info="Default is “lines” which uses all vector graphics on the page to detect grid lines.\nStrategy “lines_strict” ignores borderless rectangle vector graphics. Sometimes single text pieces have background colors which may lead to false columns or lines. This strategy ignores them and can thus increase detection precision.\nIf “text” is specified, text positions are used to generate “virtual” column and / or row boundaries.")
+            '''
             with gr.Row():
                 submit_btn = gr.Button("Convert", scale=1, elem_classes=["orange-gradient-btn"])
         inputs=[file_input, page_range_slider],
         outputs=[gallery]
     )
+    '''
     submit_btn.click(
         fn=convertToMD,
         inputs=[page_range_slider, checkboxes, radios],
     ).success(
         fn=convertComplete, inputs=[], outputs=[]
     )
+    '''
+    submit_btn.click(
+        fn=convertToMD,
+        inputs=[page_range_slider],
+        outputs=[
+            md_result,
+            raw_text_result
+        ],
+        queue=False,
+    ).success(
+        fn=convertComplete, inputs=[], outputs=[]
+    )

my_io.py CHANGED Viewed

@@ -25,17 +25,18 @@ def ready(file, page_num:int):
     return images
-def convertToMD(page_num:int, checkboxes:str, radios:str):
     choice_table_strategy = radios
     choice_page_separators = False
     choice_embed_images = False
-    for n in checkboxes:
-        if n == "Separate pages":
-            choice_page_separators = True
-        if n == "Embed images":
-            choice_embed_images = True
     if doc == None:
         raise gr.Error(message="Please upload a PDF")
@@ -46,13 +47,7 @@ def convertToMD(page_num:int, checkboxes:str, radios:str):
     print(f"page num={page_num}")
     page_range = range(0, page_num)
     md = pymupdf4llm.to_markdown(doc,
-                                 pages = page_range,
-                                 write_images = True,
-                                 image_path = "images",
-                                 dpi=100,
-                                 page_separators = choice_page_separators,
-                                 embed_images = choice_embed_images,
-                                 table_strategy = choice_table_strategy)
     return md, md
 def convertComplete():

     return images
+def convertToMD(page_num:int, checkboxes:str = None, radios:str = None):
     choice_table_strategy = radios
     choice_page_separators = False
     choice_embed_images = False
+    if checkboxes is not None:
+        for n in checkboxes:
+            if n == "Separate pages":
+                choice_page_separators = True
+            if n == "Embed images":
+                choice_embed_images = True
     if doc == None:
         raise gr.Error(message="Please upload a PDF")
     print(f"page num={page_num}")
     page_range = range(0, page_num)
     md = pymupdf4llm.to_markdown(doc,
+                                 pages = page_range)
     return md, md
 def convertComplete():