Spaces:

Um34ER
/

bazaar-bridge-ocr

Running

App Files Files Community

Um34ER commited on 28 days ago

Commit

5fa3309

verified ·

1 Parent(s): 356351d

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -2

app.py CHANGED Viewed

@@ -569,7 +569,8 @@ PRIMARY_MODEL_ID = os.getenv("PRIMARY_MODEL_ID", "oddadmix/Qaari-0.1-Urdu-OCR-VL
 FALLBACK_MODEL_ID = os.getenv("FALLBACK_MODEL_ID", "stepfun-ai/GOT-OCR-2.0-hf")
 ENABLE_FALLBACK = os.getenv("ENABLE_FALLBACK", "1").strip() not in ("0", "false", "no")
 VLM_MEMORY_LIMIT_MB = float(os.getenv("VLM_MEMORY_LIMIT_MB", "12000"))
-VLM_MAX_TOKENS = int(os.getenv("VLM_MAX_NEW_TOKENS", "512"))
 VLM_TIMEOUT = float(os.getenv("VLM_TIMEOUT_SECONDS", "75"))
@@ -875,7 +876,7 @@ logger = logging.getLogger("parchi.app")
 # ── Constants ─────────────────────────────────────────────────────────────────
 MAX_IMAGE_SIZE_MB = 10
-CONCURRENCY_LIMIT = 2  # max simultaneous VLM inferences
 CACHE_SIZE = 50        # LRU cache entries
 CACHE_TTL = 3600       # 1 hour
@@ -885,6 +886,23 @@ semaphore = asyncio.Semaphore(CONCURRENCY_LIMIT)
 result_cache: Dict[str, dict] = {}  # hash → {result, timestamp}
 # ── FastAPI App ───────────────────────────────────────────────────────────────
 app = FastAPI(
     title="Smart Parchi OCR v7",
     description=(
@@ -892,6 +910,7 @@ app = FastAPI(
         "Qaari-0.1 (Urdu Nastaliq) + GOT-OCR 2.0 fallback. No external APIs."
     ),
     version="7.0.0",
 )
 app.add_middleware(

 FALLBACK_MODEL_ID = os.getenv("FALLBACK_MODEL_ID", "stepfun-ai/GOT-OCR-2.0-hf")
 ENABLE_FALLBACK = os.getenv("ENABLE_FALLBACK", "1").strip() not in ("0", "false", "no")
 VLM_MEMORY_LIMIT_MB = float(os.getenv("VLM_MEMORY_LIMIT_MB", "12000"))
+# 200 tokens is plenty for a grocery receipt (Qaari output was 68 chars)
+VLM_MAX_TOKENS = int(os.getenv("VLM_MAX_NEW_TOKENS", "200"))
 VLM_TIMEOUT = float(os.getenv("VLM_TIMEOUT_SECONDS", "75"))
 # ── Constants ─────────────────────────────────────────────────────────────────
 MAX_IMAGE_SIZE_MB = 10
+CONCURRENCY_LIMIT = 1  # 1 worker only — Qwen2-VL-2B fp32 uses ~9GB on CPU
 CACHE_SIZE = 50        # LRU cache entries
 CACHE_TTL = 3600       # 1 hour
 result_cache: Dict[str, dict] = {}  # hash → {result, timestamp}
 # ── FastAPI App ───────────────────────────────────────────────────────────────
+from contextlib import asynccontextmanager
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    """Pre-warm the VLM at container startup so first request isn't penalized."""
+    logger.info("=== Startup: pre-warming primary OCR model ===")
+    loop = asyncio.get_event_loop()
+    try:
+        await loop.run_in_executor(None, ocr_engine._load_primary)
+        logger.info("=== Startup: model ready | RSS=%.0f MB ===", _rss_mb())
+    except Exception as e:
+        logger.error("=== Startup: model pre-warm FAILED: %s ===", e)
+    yield  # App runs here
+    logger.info("=== Shutdown: releasing model ===")
+    ocr_engine._unload_primary()
+    ocr_engine._unload_fallback()
 app = FastAPI(
     title="Smart Parchi OCR v7",
     description=(
         "Qaari-0.1 (Urdu Nastaliq) + GOT-OCR 2.0 fallback. No external APIs."
     ),
     version="7.0.0",
+    lifespan=lifespan,
 )
 app.add_middleware(