document-extraction

Sleeping

App Files Files Community

vkumartr commited on Feb 10, 2025

Commit

a4b95eb

verified ·

1 Parent(s): 7c0c12d

Stores base64 before converting PDF to image

Browse files

Files changed (1) hide show

app.py +8 -4

app.py CHANGED Viewed

@@ -106,6 +106,10 @@ def extract_invoice_data(file_data, content_type, json_schema):
     if content_type == "application/pdf":
         try:
             extracted_text = extract_pdf_text(file_data)
             images = convert_from_bytes(file_data)  # Convert PDF to images
             if len(images) > 2:
@@ -118,7 +122,7 @@ def extract_invoice_data(file_data, content_type, json_schema):
                 base64_images.append(f"data:image/png;base64,{base64_encoded}")
             # Store all images as a single JSON object
-            base64DataResp = json.dumps(base64_images)
         except Exception as e:
             logger.error(f"Error converting PDF to image: {e}")
@@ -127,8 +131,9 @@ def extract_invoice_data(file_data, content_type, json_schema):
     else:
         # Handle direct image files
         base64_encoded = base64.b64encode(file_data).decode('utf-8')
-        base64_images.append(f"data:{content_type};base64,{base64_encoded}")
-        base64DataResp = json.dumps(base64_images)  # Store as a JSON object
     # Prepare OpenAI request
     openai_content = [{"type": "image_url", "image_url": {"url": img_base64}} for img_base64 in base64_images]
@@ -212,7 +217,6 @@ def extract_text_from_file(
             "entityrefkey": entity_ref_key,
             "extracted_data": extracted_data
         }
         inserted_doc = invoice_collection.insert_one(document)
         document_id = str(inserted_doc.inserted_id)
         logger.info(f"Document inserted with ID: {document_id}")

     if content_type == "application/pdf":
         try:
             extracted_text = extract_pdf_text(file_data)
+            # Store PDF as Base64
+            base64_pdf = base64.b64encode(file_data).decode('utf-8')
+            base64DataResp.append(f"data:application/pdf;base64,{base64_pdf}")
             images = convert_from_bytes(file_data)  # Convert PDF to images
             if len(images) > 2:
                 base64_images.append(f"data:image/png;base64,{base64_encoded}")
             # Store all images as a single JSON object
+            # base64DataResp = json.dumps(base64_images)
         except Exception as e:
             logger.error(f"Error converting PDF to image: {e}")
     else:
         # Handle direct image files
         base64_encoded = base64.b64encode(file_data).decode('utf-8')
+        base64DataResp.append(f"data:{content_type};base64,{base64_encoded}")
+        # base64_images.append(f"data:{content_type};base64,{base64_encoded}")
+        # base64DataResp = json.dumps(base64_images)  # Store as a JSON object
     # Prepare OpenAI request
     openai_content = [{"type": "image_url", "image_url": {"url": img_base64}} for img_base64 in base64_images]
             "entityrefkey": entity_ref_key,
             "extracted_data": extracted_data
         }
         inserted_doc = invoice_collection.insert_one(document)
         document_id = str(inserted_doc.inserted_id)
         logger.info(f"Document inserted with ID: {document_id}")