OCR-pipeline-python / json-CR2.py
abdullah-1111's picture
Upload 14 files
2db08ff verified
raw
history blame
6.09 kB
import base64
import json
import re
import requests
import os
import time
API_KEY = "AIzaSyBr2-dUqHDZkk20hlWeEcpWnVVdkq9fqyE"
cr1_images_folder = r"C:\Users\ASUS\OneDrive - Binder\Desktop\test.orch\classified\CR2"
output_json_folder = r"C:\Users\ASUS\OneDrive - Binder\Desktop\test.orch\classified\CR2\cr2_json"
os.makedirs(output_json_folder, exist_ok=True)
prompt = """
يرجى استخراج الحقول التالية من صورة مستند CR2 (السجل التجاري 2)، جميعها بالعربية فقط:
- الرقم
- التاريخ
- الرقم الموحد للمنشأة
- الاسم التجاري للمؤسسة
- مركزها الرئيسي (بصيغة تفصيلية: المبنى، الشارع، الحي، الرقم الإضافي. مثال: "المبنى ٣٠١٧، شارع العباس بن الأحنف، حي الكندرة، الرقم الإضافي ٦٩٠٢")
- هاتف
- الرمز البريدي
- اسم التاجر
- الجنسية
- تاريخ الميلاد
- رقم السجل المدني-الإقامة
- تاريخه
- مصدره
- رقم الحفيظة-الجواز
- تاريخه
- مصدرة
- النشاط
- رأس المال
- اسم المدير او الوكيل المفوض
- الجنسية
- تاريخ الميلاد
- رقم السجل المدني-الإقامة
- تاريخه
- مصدره
- سلطات المدير
- يشهد مكتب السجل التجاري بمدينة
- بأنه تم تسجيل المؤسسة المذكورة أعلاه بمدينة
- وتنتهي صلاحية الشهادات في
- بموجب الإيصال رقم
- وتاريخ
- مدير السجل التجاري
أرجو إعادة النتيجة بصيغة JSON بهذه المفاتيح فقط، وإذا أي حقل غير موجود فضع قيمته null:
{
"الرقم": null,
"التاريخ": null,
"الرقم الموحد للمنشأة": null,
"الاسم التجاري للمؤسسة": null,
"مركزها الرئيسي": null,
"هاتف": null,
"الرمز البريدي": null,
"اسم التاجر": null,
"الجنسية": null,
"تاريخ الميلاد": null,
"رقم السجل المدني-الإقامة": null,
"تاريخه": null,
"مصدره": null,
"رقم الحفيظة-الجواز": null,
"تاريخه_2": null,
"مصدرة": null,
"النشاط": null,
"رأس المال": null,
"اسم المدير او الوكيل المفوض": null,
"الجنسية_2": null,
"تاريخ الميلاد_2": null,
"رقم السجل المدني-الإقامة_2": null,
"تاريخه_3": null,
"مصدره_2": null,
"سلطات المدير": null,
"يشهد مكتب السجل التجاري بمدينة": null,
"بأنه تم تسجيل المؤسسة المذكورة أعلاه بمدينة": null,
"تنتهي صلاحية الشهادات في": null,
"بموجب الإيصال رقم": null,
"تاريخ_الإيصال": null,
"مدير السجل التجاري": null
}
"""
url = f"https://generativelanguage.googleapis.com/v1/models/gemini-1.5-flash:generateContent?key={API_KEY}"
headers = {"Content-Type": "application/json"}
def split_address(address):
parts = [p.strip() for p in address.split("،")]
while len(parts) < 4:
parts.append(None)
return parts
for image_name in os.listdir(cr1_images_folder):
if not image_name.lower().endswith(('.jpg', '.jpeg', '.png')):
continue
image_path = os.path.join(cr1_images_folder, image_name)
base_name = os.path.splitext(image_name)[0]
output_file = os.path.join(output_json_folder, base_name + ".json")
if os.path.exists(output_file):
print(f"Skipped {image_name} (JSON file already exists)")
continue
with open(image_path, "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
data = {
"contents": [
{
"role": "user",
"parts": [
{"text": prompt},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": image_b64
}
}
]
}
]
}
try:
response = requests.post(url, headers=headers, json=data)
response.raise_for_status()
response_text = response.json()['candidates'][0]['content']['parts'][0]['text']
# استخدام التعبير المنتظم الصحيح
match = re.search(r"```json\s*(\{.*?\})\s*```", response_text, re.DOTALL)
if match:
json_text = match.group(1)
result = json.loads(json_text)
# تقسيم العنوان إلى أجزاء منفصلة
if "مركزها الرئيسي" in result and result["مركزها الرئيسي"]:
parts = split_address(result["مركزها الرئيسي"])
result["رقم المبنى"] = parts[0]
result["اسم الشارع"] = parts[1]
result["اسم الحي"] = parts[2]
result["الرقم الإضافي"] = parts[3]
else:
result["رقم المبنى"] = None
result["اسم الشارع"] = None
result["اسم الحي"] = None
result["الرقم الإضافي"] = None
with open(output_file, "w", encoding="utf-8") as f:
json.dump(result, f, ensure_ascii=False, indent=2)
print(f"✅ Processed: {image_name}")
else:
print(f"❌ Failed to extract JSON from: {image_name}")
print(response_text)
time.sleep(3) # ينتظر 3 ثواني قبل إرسال الصورة التالية
except Exception as e:
print(f"❌ Error processing image {image_name}: {e}")