document-extraction

Sleeping

vkumartr commited on Feb 7, 2025

Commit

87dfad3

verified ·

1 Parent(s): e0f7bfa

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -101,6 +101,7 @@ def extract_invoice_data(file_data, content_type, json_schema):
     """
     system_prompt = "You are an expert in document data extraction."
     base64_images = []
     if content_type == "application/pdf":
         try:
@@ -115,7 +116,9 @@ def extract_invoice_data(file_data, content_type, json_schema):
                 img.save(img_byte_arr, format="PNG", dpi=(300, 300))
                 base64_encoded = base64.b64encode(img_byte_arr.getvalue()).decode('utf-8')
                 base64_images.append(f"data:image/png;base64,{base64_encoded}")
-                base64DataResp = f"data:image/png;base64,{base64_encoded}"
         except Exception as e:
             logger.error(f"Error converting PDF to image: {e}")
@@ -125,7 +128,7 @@ def extract_invoice_data(file_data, content_type, json_schema):
         # Handle direct image files
         base64_encoded = base64.b64encode(file_data).decode('utf-8')
         base64_images.append(f"data:{content_type};base64,{base64_encoded}")
-        base64DataResp = f"data:image/png;base64,{base64_encoded}"
     # Prepare OpenAI request
     openai_content = [{"type": "image_url", "image_url": {"url": img_base64}} for img_base64 in base64_images]

     """
     system_prompt = "You are an expert in document data extraction."
     base64_images = []
+    base64DataResp = ""
     if content_type == "application/pdf":
         try:
                 img.save(img_byte_arr, format="PNG", dpi=(300, 300))
                 base64_encoded = base64.b64encode(img_byte_arr.getvalue()).decode('utf-8')
                 base64_images.append(f"data:image/png;base64,{base64_encoded}")
+            # Store all images as a single JSON object
+            base64DataResp = json.dumps(base64_images)
         except Exception as e:
             logger.error(f"Error converting PDF to image: {e}")
         # Handle direct image files
         base64_encoded = base64.b64encode(file_data).decode('utf-8')
         base64_images.append(f"data:{content_type};base64,{base64_encoded}")
+        base64DataResp = json.dumps(base64_images)  # Store as a JSON object
     # Prepare OpenAI request
     openai_content = [{"type": "image_url", "image_url": {"url": img_base64}} for img_base64 in base64_images]