Spaces:

yasserrmd
/

DoclingConverter

Running on Zero

yasserrmd commited on Aug 20

Commit

ee63712

verified ·

1 Parent(s): 351fbad

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,30 +1,38 @@
 import gradio as gr
-from docling.document_converter import DocumentConverter
 from docling.datamodel.pipeline_options import PdfPipelineOptions, TesseractCliOcrOptions
 import spaces
 # GPU decorator not really required for Docling OCR, but kept if you want
 @spaces.GPU
 def convert_document(file, output_format):
     pdf_opts = PdfPipelineOptions(
         do_ocr=True,
-        ocr_options=TesseractCliOcrOptions(lang=["eng"]),
     )
-    converter = DocumentConverter(pipeline_options=pdf_opts)
     result = converter.convert(file.name)
     # Choose output format safely
     if output_format == "Markdown":
         converted_text = result.document.export_to_markdown()
     elif output_format == "JSON":
-        # JSON needs to be dumped into a string for the Textbox
-        import json
         converted_text = json.dumps(result.document.export_to_json(), indent=2)
     else:
         converted_text = "⚠️ Unsupported format"
-    # Metadata always JSON-friendly
     metadata = {"Available Attributes": dir(result.document)}
     return converted_text, metadata

 import gradio as gr
+import json
+from docling.document_converter import DocumentConverter, PdfFormatOption
 from docling.datamodel.pipeline_options import PdfPipelineOptions, TesseractCliOcrOptions
+from docling.datamodel.base_models import InputFormat
 import spaces
 # GPU decorator not really required for Docling OCR, but kept if you want
 @spaces.GPU
 def convert_document(file, output_format):
+    # Configure OCR pipeline
     pdf_opts = PdfPipelineOptions(
         do_ocr=True,
+        ocr_options=TesseractCliOcrOptions(lang=["eng"])  # or ["eng","ara"] if needed
     )
+    # Correct way: pass options via format_options
+    converter = DocumentConverter(
+        format_options={
+            InputFormat.PDF: PdfFormatOption(pipeline_options=pdf_opts)
+        }
+    )
+    # Convert document
     result = converter.convert(file.name)
     # Choose output format safely
     if output_format == "Markdown":
         converted_text = result.document.export_to_markdown()
     elif output_format == "JSON":
         converted_text = json.dumps(result.document.export_to_json(), indent=2)
     else:
         converted_text = "⚠️ Unsupported format"
+    # Metadata as JSON-friendly dict
     metadata = {"Available Attributes": dir(result.document)}
     return converted_text, metadata