SMART_KYC_OCR

Sleeping

gopichandra commited on Aug 5, 2025

Commit

ae2e698

verified ·

1 Parent(s): a87236e

Update utils.py

Files changed (1) hide show

utils.py CHANGED Viewed

@@ -1,40 +1,40 @@
-import pytesseract
-from PIL import Image
 import re
 def extract_kyc_fields(file_path):
     try:
-        # Open and convert image to RGB for OCR
-        image = Image.open(file_path).convert("RGB")
-        # Run Tesseract OCR
-        text = pytesseract.image_to_string(image)
-        # Aadhaar pattern: 12-digit, with or without space or dash
-        aadhaar_match = re.search(r'\b\d{4}[\s-]?\d{4}[\s-]?\d{4}\b', text)
-        # DOB pattern: formats like DD-MM-YYYY or DD/MM/YYYY
-        dob_match = re.search(r'\b\d{2}[/-]\d{2}[/-]\d{4}\b', text)
-        # Try to extract name line heuristically (line with "Name", "Naam", etc.)
-        name_line = next(
-            (
-                line for line in text.split("\n")
-                if re.search(r'\b(name|naam|namf)\b', line, re.IGNORECASE)
-            ),
-            ""
-        )
-        # Extract name text
-        name = name_line.split(":")[-1].strip() if ":" in name_line else name_line.strip()
-        # Return structured KYC data
         return {
             "aadhaar_number": aadhaar_match.group(0) if aadhaar_match else "Not found",
             "dob": dob_match.group(0) if dob_match else "Not found",
-            "name": name if name else "Not found"
         }
     except Exception as e:
-        # Return error as dict to show in Gradio
-        return {"error": f"OCR failed: {str(e)}"}

+from paddleocr import PaddleOCR
 import re
+# Initialize OCR model only once
+ocr = PaddleOCR(use_angle_cls=True, lang='en')  # lang='en' for English documents
 def extract_kyc_fields(file_path):
     try:
+        # Run OCR
+        result = ocr.ocr(file_path, cls=True)
+        all_text = ""
+        for line_group in result:
+            for line in line_group:
+                all_text += line[1][0] + "\n"
+        # Aadhaar number (format with or without space/dash)
+        aadhaar_match = re.search(r'\b\d{4}[\s\-]?\d{4}[\s\-]?\d{4}\b', all_text)
+        # DOB (any DD/MM/YYYY or similar)
+        dob_match = re.search(r'\b\d{2}[\/\-]\d{2}[\/\-]\d{4}\b', all_text)
+        # Name: try to detect a line with 'Name' or fallback to top line
+        name = "Not found"
+        for line in all_text.split("\n"):
+            if re.search(r'\b(name|naam|namf)\b', line, re.IGNORECASE):
+                name = line.split(":")[-1].strip() if ":" in line else line.strip()
+                break
+        if name == "Not found":
+            name = all_text.split("\n")[0].strip()
         return {
             "aadhaar_number": aadhaar_match.group(0) if aadhaar_match else "Not found",
             "dob": dob_match.group(0) if dob_match else "Not found",
+            "name": name
         }
     except Exception as e:
+        return {"error": f"PaddleOCR failed: {str(e)}"}