binder-sa
/

OCR-pipeline-python

Model card Files Files and versions

xet

Community

abdullah-1111 commited on Aug 6, 2025

Commit

0f64c89

verified ·

1 Parent(s): 2db08ff

Delete gemini_requestCR7.py

Browse files

Files changed (1) hide show

gemini_requestCR7.py +0 -103

gemini_requestCR7.py DELETED Viewed

@@ -1,103 +0,0 @@
-import base64
-import json
-import re
-import requests
-import os
-# Your Gemini API key
-API_KEY = "your_gemini_api_key_here"
-#Path to the document image you want to extract data from
-image_path = r"C:\Users\ASUS\Downloads\OneDrive_1_7-30-2025\CR7\CS015431_CR.jpg"
-# قراءة الصورة وتحويلها إلى base64
-with open(image_path, "rb") as f:
-    image_b64 = base64.b64encode(f.read()).decode()
-prompt = """
-يرجى استخراج الحقول التالية من مستند السجل التجاري (CR7) بالصورة، باللغة العربية فقط:
-- اسم المنشأة
-- نوع السجل
-- حالة السجل
-- الرقم الموحد للمنشأة
-- رقم السجل التجاري
-- اسم المالك
-- نوع الكيان
-- تاريخ الاصدار
-- تاريخ الانتهاء
-- قائمة المدراء
-- المدينة
-- الموقع الإلكتروني
-- الانشطة التجارية
-أرجو إعادة النتيجة بصيغة JSON بهذه المفاتيح فقط، وإذا أي حقل غير موجود فضع قيمته null:
-{
-  "اسم المنشأة": null,
-  "نوع السجل": null,
-  "حالة السجل": null,
-  "الرقم الموحد للمنشأة": null,
-  "رقم السجل التجاري": null,
-  "اسم المالك": null,
-  "نوع الكيان": null,
-  "تاريخ الاصدار": null,
-  "تاريخ الانتهاء": null,
-  "قائمة المدراء": null,
-  "المدينة": null,
-  "الموقع الإلكتروني": null,
-  "الانشطة التجارية": null
-}
-"""
-url = f"https://generativelanguage.googleapis.com/v1/models/gemini-1.5-flash:generateContent?key={API_KEY}"
-headers = {
-    "Content-Type": "application/json"
-}
-data = {
-    "contents": [
-        {
-            "role": "user",
-            "parts": [
-                {"text": prompt},
-                {
-                    "inline_data": {
-                        "mime_type": "image/jpeg",
-                        "data": image_b64
-                    }
-                }
-            ]
-        }
-    ]
-}
-response = requests.post(url, headers=headers, json=data)
-try:
-    response_text = response.json()['candidates'][0]['content']['parts'][0]['text']
-    match = re.search(r"```json\s*(\{.*?\})\s*```", response_text, re.DOTALL)
-    if match:
-        json_text = match.group(1)
-        result = json.loads(json_text)
-        # حفظ النتيجة بنفس اسم ملف الصورة وداخل نفس المجلد
-        folder = os.path.dirname(image_path)
-        base_name = os.path.splitext(os.path.basename(image_path))[0]
-        output_file = os.path.join(folder, base_name + ".json")
-        with open(output_file, "w", encoding="utf-8") as f:
-            json.dump(result, f, ensure_ascii=False, indent=2)
-        print(f"✅ تم حفظ النتيجة في ملف: {output_file}")
-        print(json.dumps(result, indent=2, ensure_ascii=False))
-    else:
-        print("❌ لم أتمكن من استخراج JSON نظيف من الرد:")
-        print(response_text)
-except Exception as e:
-    print(f"❌ حدث خطأ أثناء المعالجة: {e}")
-    print("🔴 الرد الكامل من Gemini:")
-    print(response.text)