Spaces:

mlopez6132
/

textsense-ocr

Running

Marc Allen Lopez commited on Sep 15, 2025

Commit

edb3860

1 Parent(s): e4fceaf

Implement PP-OCRv5 using official model names

- Use text_detection_model_name='PP-OCRv5_server_det'
- Use text_recognition_model_name='PP-OCRv5_server_rec'
- Add USE_PP_OCRV5 environment flag (defaults to true)
- Enable textline orientation classification for better accuracy
- Add version tracking in health endpoint and app title
- Robust fallback to default models if PP-OCRv5 fails to load

Based on official Hugging Face PP-OCRv5 documentation:
https://huggingface.co/PaddlePaddle/PP-OCRv5_server_det

Files changed (1) hide show

app.py +28 -7

app.py CHANGED Viewed

@@ -14,22 +14,43 @@ OCR_LANG = os.getenv("OCR_LANG", "en")
 PPOCR_HOME = os.getenv("PPOCR_HOME", "/tmp/.paddleocr")
 os.makedirs(PPOCR_HOME, exist_ok=True)
 os.environ.setdefault("PPOCR_HOME", PPOCR_HOME)
-OCR_VERSION = os.getenv("OCR_VERSION", "PP-OCRv5")
 def load_ocr():
     try:
-        # Prefer PP-OCRv5 when supported by installed paddleocr
-        ocr = PaddleOCR(use_angle_cls=True, lang=OCR_LANG, ocr_version=OCR_VERSION, show_log=False)
-    except TypeError:
-        # Older paddleocr versions may not support ocr_version
         ocr = PaddleOCR(use_angle_cls=True, lang=OCR_LANG, show_log=False)
     return ocr
 ocr = load_ocr()
-app = FastAPI(title="TextSense OCR (PaddleOCR)")
 def read_image_from_upload(upload: UploadFile) -> Image.Image:
@@ -96,4 +117,4 @@ async def extract(
 @app.get("/healthz")
 async def healthz():
-    return {"ok": True, "lang": OCR_LANG}

 PPOCR_HOME = os.getenv("PPOCR_HOME", "/tmp/.paddleocr")
 os.makedirs(PPOCR_HOME, exist_ok=True)
 os.environ.setdefault("PPOCR_HOME", PPOCR_HOME)
+# PP-OCRv5 model configuration
+USE_PP_OCRV5 = os.getenv("USE_PP_OCRV5", "true").lower() == "true"
+ACTIVE_OCR_VERSION = "unknown"  # Will be set during OCR initialization
 def load_ocr():
+    global ACTIVE_OCR_VERSION
     try:
+        if USE_PP_OCRV5:
+            # Use PP-OCRv5 models as specified in the official documentation
+            ocr = PaddleOCR(
+                use_angle_cls=True,
+                lang=OCR_LANG,
+                text_detection_model_name="PP-OCRv5_server_det",
+                text_recognition_model_name="PP-OCRv5_server_rec",
+                use_doc_orientation_classify=False,
+                use_doc_unwarping=False,
+                use_textline_orientation=True,
+                show_log=False
+            )
+            ACTIVE_OCR_VERSION = "PP-OCRv5"
+        else:
+            # Fallback to default models
+            ocr = PaddleOCR(use_angle_cls=True, lang=OCR_LANG, show_log=False)
+            ACTIVE_OCR_VERSION = "default"
+    except Exception as e:
+        # Final fallback for any initialization errors
+        print(f"PP-OCRv5 initialization failed: {e}. Falling back to default models.")
         ocr = PaddleOCR(use_angle_cls=True, lang=OCR_LANG, show_log=False)
+        ACTIVE_OCR_VERSION = "default-fallback"
     return ocr
 ocr = load_ocr()
+app = FastAPI(title=f"TextSense OCR (PaddleOCR {ACTIVE_OCR_VERSION})")
 def read_image_from_upload(upload: UploadFile) -> Image.Image:
 @app.get("/healthz")
 async def healthz():
+    return {"ok": True, "lang": OCR_LANG, "ocr_version": ACTIVE_OCR_VERSION}