landify-cccd-ocr

Sleeping

App Files Files Community

anh-khoa-nguyen commited on Oct 8, 2025

Commit

87b7701

1 Parent(s): 7ff4e74

last update

Browse files

Files changed (4) hide show

.idea/.name +1 -0
.idea/vcs.xml +6 -0
app.py +36 -45
core/extractor.py +1 -34

.idea/.name ADDED Viewed

	@@ -0,0 +1 @@


1	+ app.py

.idea/vcs.xml ADDED Viewed

	@@ -0,0 +1,6 @@

+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="" vcs="Git" />
+  </component>
+</project>

app.py CHANGED Viewed

@@ -13,6 +13,7 @@ import numpy as np
 from fastapi import FastAPI, File, UploadFile, HTTPException
 from fastapi.responses import RedirectResponse
 from pydantic import BaseModel
 # --- KHỞI TẠO ỨNG DỤNG VÀ CÁC BIẾN TOÀN CỤC ---
 description_md = """
@@ -27,56 +28,47 @@ API này sử dụng các thư viện `vietocr` và `paddleocr` để thực hi
 _API được xây dựng với FastAPI._
 """
 app = FastAPI(
     title="Vietnamese Citizen ID OCR API",
     description=description_md,
-    version="1.4.0"
 )
-# Khởi tạo các biến model toàn cục là None. Chúng sẽ được tải sau.
-idcard_extractor = None
-face_cascade = None
-model_lock = threading.Lock()  # Lock để đảm bảo model chỉ được tải 1 lần trong môi trường đa luồng
-# --- HÀM TẢI MODEL (LAZY LOADING) ---
-def load_models():
     """
-    Hàm này chỉ được gọi một lần duy nhất khi có request đầu tiên.
-    Nó tải tất cả các model AI nặng vào bộ nhớ.
     """
-    global idcard_extractor, face_cascade
-    # Sử dụng lock để ngăn chặn nhiều request cùng lúc cố gắng tải model (race condition)
-    with model_lock:
-        # Kiểm tra lại một lần nữa bên trong lock, nếu một luồng khác đã tải xong thì bỏ qua.
-        if idcard_extractor is None:
-            print("--- LAZY LOADING MODELS (FIRST REQUEST) ---")
-            try:
-                # Import Extractor ngay tại đây, không import ở đầu file
-                from core.extractor import Extractor
-                # 1. Tải model OCR (sẽ đọc từ các file cục bộ trong thư mục /models)
-                print("Loading OCR models...")
-                idcard_extractor = Extractor()
-                print("CCCD Text Extractor loaded successfully.")
-                # 2. Tải model nhận diện khuôn mặt
-                print("Loading face detection model...")
-                face_cascade_path = os.path.join(cv2.data.haarcascades, 'haarcascade_frontalface_default.xml')
-                if not os.path.exists(face_cascade_path):
-                    raise FileNotFoundError("Không tìm thấy file haarcascade.")
-                face_cascade = cv2.CascadeClassifier(face_cascade_path)
-                print("Face cascade classifier loaded successfully.")
-            except Exception as e:
-                print(f"FATAL: Error during model loading: {e}")
-                # Đặt lại thành None để các request sau biết rằng model đã tải thất bại
-                idcard_extractor = None
-                face_cascade = None
-            print("--- MODEL LOADING COMPLETE ---")
 # --- ĐỊNH NGHĨA MODEL CHO RESPONSE ---
@@ -91,9 +83,7 @@ class ExtractionResponse(BaseModel):
     portrait_image_base64: Optional[str] = None
     elapsed: float
 # --- API ENDPOINT ---
 @app.get("/", include_in_schema=False)
 async def root():
     """
@@ -110,7 +100,8 @@ async def extract_id_card_info(file: UploadFile = File(...)):
     """
     # Bước 1: Tải model nếu chưa có
     # Nếu model đã được tải, hàm này sẽ bỏ qua rất nhanh.
-    load_models()
     # Kiểm tra xem model đã được tải thành công chưa
     if not idcard_extractor or not face_cascade:

 from fastapi import FastAPI, File, UploadFile, HTTPException
 from fastapi.responses import RedirectResponse
 from pydantic import BaseModel
+from core.extractor import Extractor
 # --- KHỞI TẠO ỨNG DỤNG VÀ CÁC BIẾN TOÀN CỤC ---
 description_md = """
 _API được xây dựng với FastAPI._
 """
+ml_models = {}
 app = FastAPI(
     title="Vietnamese Citizen ID OCR API",
     description=description_md,
+    version="1.4.0",
 )
+@app.on_event("startup")
+async def startup_event():
     """
+    Code này sẽ chạy KHI server khởi động.
+    Thực hiện tải các model AI (Eager Loading).
     """
+    print("--- EAGER LOADING MODELS (ON STARTUP) ---")
+    try:
+        print("Loading OCR models...")
+        ml_models["idcard_extractor"] = Extractor()
+        print("CCCD Text Extractor loaded successfully.")
+        print("Loading face detection model...")
+        face_cascade_path = os.path.join(cv2.data.haarcascades, 'haarcascade_frontalface_default.xml')
+        if not os.path.exists(face_cascade_path):
+            raise FileNotFoundError("Không tìm thấy file haarcascade.")
+        ml_models["face_cascade"] = cv2.CascadeClassifier(face_cascade_path)
+        print("Face cascade classifier loaded successfully.")
+        print("--- MODEL LOADING COMPLETE ---")
+    except Exception as e:
+        print(f"FATAL: Error during model loading on startup: {e}")
+        # Nếu có lỗi, re-raise exception để ngăn server khởi động
+        raise
+@app.on_event("shutdown")
+async def shutdown_event():
+    """
+    Code này sẽ chạy KHI server tắt (shutdown).
+    Dọn dẹp các model.
+    """
+    print("--- Cleaning up models ---")
+    ml_models.clear()
 # --- ĐỊNH NGHĨA MODEL CHO RESPONSE ---
     portrait_image_base64: Optional[str] = None
     elapsed: float
 # --- API ENDPOINT ---
 @app.get("/", include_in_schema=False)
 async def root():
     """
     """
     # Bước 1: Tải model nếu chưa có
     # Nếu model đã được tải, hàm này sẽ bỏ qua rất nhanh.
+    idcard_extractor = ml_models.get("idcard_extractor")
+    face_cascade = ml_models.get("face_cascade")
     # Kiểm tra xem model đã được tải thành công chưa
     if not idcard_extractor or not face_cascade:

core/extractor.py CHANGED Viewed

@@ -299,37 +299,4 @@ class Extractor:
         #     f.write(json.dumps(result, indent=4, ensure_ascii=False))
         #     f.close()
-        return result
-####################################################################################################
-idcard_extractor = Extractor()
-# info = idcard_extractor.GetInformationAndSave("extracted_result")
-# print(info)
-if __name__ == '__main__':
-    img_path = './20211019_090832.jpg'
-    frame = cv2.imread(img_path)
-    # annotations = idcard_extractor.Detection(img_path)
-    # extracted_result=[]
-    # threads = []
-    # for i, box in enumerate(annotations):
-    #     top_left     = (int(box[0][0]), int(box[0][1]))
-    #     top_right    = (int(box[1][0]), int(box[1][1]))
-    #     bottom_right = (int(box[2][0]), int(box[2][1]))
-    #     bottom_left  = (int(box[3][0]), int(box[3][1]))
-    #     t = ThreadWithReturnValue(target=idcard_extractor.WarpAndRec, args=(frame,top_left, top_right, bottom_right, bottom_left))
-    #     threads.append(t)
-    # for t in threads:
-    #     t.start()
-    # for t in threads:
-    #     extracted_result.append(t.join())
-    info = idcard_extractor.GetInformationAndSave("extracted_result")
-    print(info)

         #     f.write(json.dumps(result, indent=4, ensure_ascii=False))
         #     f.close()
+        return result