Spaces:

sharshar1
/

OCR

Sleeping

sharshar1 commited on Dec 18, 2025

Commit

df154dc

verified ·

1 Parent(s): d139163

Upload 4 files

Files changed (3) hide show

Dockerfile CHANGED Viewed

@@ -8,13 +8,13 @@ ENV PYTHONDONTWRITEBYTECODE=1 \
 WORKDIR /app
 RUN apt-get update && apt-get install -y --no-install-recommends \
     libgl1 \
     libglib2.0-0 \
     libsm6 \
     libxext6 \
     libxrender1 \
     libgomp1 \
-    poppler-utils \
     && rm -rf /var/lib/apt/lists/*
 COPY requirements.txt .

 WORKDIR /app
 RUN apt-get update && apt-get install -y --no-install-recommends \
+    poppler-utils \
     libgl1 \
     libglib2.0-0 \
     libsm6 \
     libxext6 \
     libxrender1 \
     libgomp1 \
     && rm -rf /var/lib/apt/lists/*
 COPY requirements.txt .

main.py CHANGED Viewed

@@ -31,28 +31,25 @@ app.add_middleware(
 @app.on_event("startup")
 async def startup_event():
-    """Preload models on startup to avoid delays on first request."""
-    try:
-        print("Loading OCR models...")
-        get_models()
-        print("Models loaded successfully!")
-    except Exception as e:
-        print(f"Warning: Could not preload models: {e}")
-        print("Models will be loaded on first request.")
 def get_models():
-    """Lazy load PaddleX models."""
     global paddle_detector, paddle_recognizer
     if paddle_detector is None or paddle_recognizer is None:
         try:
             from paddlex import create_model
             paddle_detector = create_model("PP-OCRv5_server_det")
             paddle_recognizer = create_model("arabic_PP-OCRv5_mobile_rec")
         except Exception as e:
-            raise RuntimeError(f"Failed to load OCR models: {str(e)}")
     return paddle_detector, paddle_recognizer

 @app.on_event("startup")
 async def startup_event():
+    print("Server started. OCR models will be loaded lazily on first request.")
 def get_models():
     global paddle_detector, paddle_recognizer
     if paddle_detector is None or paddle_recognizer is None:
         try:
             from paddlex import create_model
+            print("Loading PaddleX OCR models...")
             paddle_detector = create_model("PP-OCRv5_server_det")
             paddle_recognizer = create_model("arabic_PP-OCRv5_mobile_rec")
+            print("Models loaded.")
         except Exception as e:
+            raise HTTPException(
+                status_code=500,
+                detail=f"OCR models failed to load: {str(e)}"
+            )
     return paddle_detector, paddle_recognizer

requirements.txt CHANGED Viewed

@@ -8,4 +8,6 @@ pdf2image
 paddlepaddle
 paddlex
 opencv-contrib-python
-pypdfium2

 paddlepaddle
 paddlex
 opencv-contrib-python
+pypdfium2
+pyclipper
+shapely