Spaces:

outcomelabs
/

docling-parser

Running on T4

App Files Files Community

sidoutcome commited on Mar 13

Commit

0111393

1 Parent(s): e8991b2

fix: remove GPU-dependent pre-download, use restructure_pages for cross-page tables, robust md extraction

Browse files

Files changed (2) hide show

Dockerfile +4 -10
pipeline.py +26 -18

Dockerfile CHANGED Viewed

@@ -82,15 +82,9 @@ RUN echo "========== STEP 4: Installing Python dependencies ==========" && \
     pip list --user && \
     echo "========== Python dependencies installed =========="
-# Pre-download PaddleOCR-VL-1.5 model at build time (avoids download on first request)
-# CUDA_VISIBLE_DEVICES="" forces CPU mode since no GPU is available during build
-RUN echo "========== STEP 5: Pre-downloading PaddleOCR-VL-1.5 model ==========" && \
-    CUDA_VISIBLE_DEVICES="" python -c "from paddleocr import PaddleOCRVL; PaddleOCRVL(use_gpu=False)" && \
-    echo "Model cache summary:" && \
-    du -sh /home/user/.cache/paddleocr 2>/dev/null || echo "  PaddleOCR cache: (empty)" && \
-    du -sh /home/user/.cache/huggingface 2>/dev/null || echo "  HF cache: (empty)" && \
-    du -sh /home/user/.cache 2>/dev/null || echo "  Total cache: (empty)" && \
-    echo "========== PaddleOCR-VL-1.5 model downloaded =========="
 # Copy application code
 COPY --chown=user:user . .
@@ -104,7 +98,7 @@ RUN echo "========== STEP 6: Finalizing build ==========" && \
 EXPOSE 7860
 # Health check
-HEALTHCHECK --interval=30s --timeout=30s --start-period=120s --retries=5 \
     CMD curl -f http://localhost:7860/ || exit 1
 # Single-process FastAPI app (no vLLM sidecar needed)

     pip list --user && \
     echo "========== Python dependencies installed =========="
+# NOTE: Model pre-download skipped — PaddlePaddle GPU requires CUDA at import time,
+# which is unavailable during Docker build. Model downloads on first startup (~60s).
+RUN echo "========== STEP 5: Skipping model pre-download (no GPU during build) =========="
 # Copy application code
 COPY --chown=user:user . .
 EXPOSE 7860
 # Health check
+HEALTHCHECK --interval=30s --timeout=30s --start-period=300s --retries=5 \
     CMD curl -f http://localhost:7860/ || exit 1
 # Single-process FastAPI app (no vLLM sidecar needed)

pipeline.py CHANGED Viewed

@@ -29,6 +29,15 @@ def _get_pipeline():
     return _pipeline
 def _page_has_tables(result) -> bool:
     """Check if PaddleOCR result contains table elements from layout analysis.
@@ -43,11 +52,7 @@ def _page_has_tables(result) -> bool:
                     if block.get('label', '').lower() == 'table':
                         return True
         # Fallback: check markdown content for table patterns
-        md = result.markdown
-        if isinstance(md, dict):
-            md_text = md.get('markdown_texts', '')
-        else:
-            md_text = str(md)
         return bool(re.search(r'^\|.+\|.+\|$', md_text, re.MULTILINE))
     except Exception:
         return False
@@ -113,19 +118,27 @@ def _convert_document(
     # ---- PASS 1: PaddleOCR-VL-1.5 on full PDF ----
     pipeline = _get_pipeline()
     paddle_start = time.time()
-    output = pipeline.predict(str(input_path))
     paddle_time = time.time() - paddle_start
-    # Collect per-page markdown and detect table pages
-    page_markdowns = []
     table_pages = set()
-    for i, res in enumerate(output):
-        md_data = res.markdown
-        page_markdowns.append(md_data)
-        # Check if this page has tables from layout analysis
         if _page_has_tables(res):
             table_pages.add(i)
     logger.info(
         f"[{request_id}] Pass 1: PaddleOCR-VL-1.5 processed {len(page_markdowns)} pages "
         f"in {paddle_time:.2f}s — {len(table_pages)} table pages detected"
@@ -184,12 +197,7 @@ def _convert_document(
         if i in gemini_page_texts:
             md_parts.append(gemini_page_texts[i])
         else:
-            # Extract markdown text from PaddleOCR result
-            if isinstance(md_data, dict):
-                md_text = md_data.get("markdown_texts", "")
-            else:
-                md_text = str(md_data)
-            md_parts.append(md_text)
     markdown_content = "\n\n".join(md_parts)

     return _pipeline
+def _extract_markdown_text(md_data) -> str:
+    """Extract markdown text from PaddleOCR result, handling different formats."""
+    if isinstance(md_data, dict):
+        # Official API returns {"text": "...", "images": {...}}
+        # Some versions use "markdown_texts"
+        return md_data.get("text", "") or md_data.get("markdown_texts", "")
+    return str(md_data) if md_data else ""
 def _page_has_tables(result) -> bool:
     """Check if PaddleOCR result contains table elements from layout analysis.
                     if block.get('label', '').lower() == 'table':
                         return True
         # Fallback: check markdown content for table patterns
+        md_text = _extract_markdown_text(result.markdown)
         return bool(re.search(r'^\|.+\|.+\|$', md_text, re.MULTILINE))
     except Exception:
         return False
     # ---- PASS 1: PaddleOCR-VL-1.5 on full PDF ----
     pipeline = _get_pipeline()
     paddle_start = time.time()
+    output = pipeline.predict(input=str(input_path))
     paddle_time = time.time() - paddle_start
+    # Collect per-page results and detect table pages
+    page_results = list(output)
     table_pages = set()
+    for i, res in enumerate(page_results):
         if _page_has_tables(res):
             table_pages.add(i)
+    # Use restructure_pages for cross-page table merging and title leveling
+    try:
+        restructured = pipeline.restructure_pages(
+            page_results, merge_table=True, relevel_titles=True
+        )
+        page_markdowns = [res.markdown for res in restructured]
+        logger.info(f"[{request_id}] restructure_pages applied (merge_table + relevel_titles)")
+    except Exception as e:
+        logger.warning(f"[{request_id}] restructure_pages failed ({e}), using raw results")
+        page_markdowns = [res.markdown for res in page_results]
     logger.info(
         f"[{request_id}] Pass 1: PaddleOCR-VL-1.5 processed {len(page_markdowns)} pages "
         f"in {paddle_time:.2f}s — {len(table_pages)} table pages detected"
         if i in gemini_page_texts:
             md_parts.append(gemini_page_texts[i])
         else:
+            md_parts.append(_extract_markdown_text(md_data))
     markdown_content = "\n\n".join(md_parts)