Spaces:

flozi00
/

structured-docling

Running on Zero

flozi00 commited on Dec 24, 2025

Commit

799a764

1 Parent(s): eaafbab

Enhance extraction output: include Markdown format and picture descriptions in the result

Files changed (1) hide show

app.py CHANGED Viewed

@@ -68,7 +68,29 @@ def process_extraction(file_input, url_input, template_json):
             converter = get_converter_with_vision()
             try:
                 result = converter.convert(source)
-                return json.dumps(result.document.export_to_dict(), indent=2)
             except Exception as e:
                 return json.dumps({"error": f"Conversion failed: {str(e)}"}, indent=2)

             converter = get_converter_with_vision()
             try:
                 result = converter.convert(source)
+                doc = result.document
+                # Create a simplified output with Markdown and picture descriptions
+                simplified_output = {
+                    "markdown": doc.export_to_markdown(),
+                    "pictures": [],
+                }
+                # Extract picture descriptions if available
+                if hasattr(doc, "pictures"):
+                    for i, pic in enumerate(doc.pictures):
+                        descriptions = []
+                        if hasattr(pic, "annotations"):
+                            for ann in pic.annotations:
+                                if hasattr(ann, "text"):
+                                    descriptions.append(ann.text)
+                        if descriptions:
+                            simplified_output["pictures"].append(
+                                {"index": i, "descriptions": descriptions}
+                            )
+                return json.dumps(simplified_output, indent=2)
             except Exception as e:
                 return json.dumps({"error": f"Conversion failed: {str(e)}"}, indent=2)