document-extraction

Sleeping

vkumartr commited on Feb 6, 2025

Commit

464cd64

verified ·

1 Parent(s): ff448cb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -80,6 +80,16 @@ def fetch_file_from_s3(file_key):
     except Exception as e:
         raise Exception(f"Failed to fetch file from S3: {str(e)}")
 # Function to summarize text using OpenAI GPT
 def extract_invoice_data(file_data, content_type):
     system_prompt = "You are an expert in document data extraction."
@@ -91,7 +101,9 @@ def extract_invoice_data(file_data, content_type):
     if content_type.startswith("image/"):
         mime_type = content_type  # e.g., image/png, image/jpeg
     elif content_type == "application/pdf":
-        mime_type = content_type
     else:
         raise ValueError(f"Unsupported content type: {content_type}")
@@ -106,7 +118,10 @@ def extract_invoice_data(file_data, content_type):
                         {
                             "type": "image_url",
                             "image_url": {
-                                "url": f"data:{mime_type};base64,{base64_encoded}"
                             }
                         }
                     ]

     except Exception as e:
         raise Exception(f"Failed to fetch file from S3: {str(e)}")
+# def extract_text_from_pdf(file_data):
+#     """Extracts text from a PDF file."""
+#     try:
+#         doc = fitz.open(stream=file_data, filetype="pdf")
+#         text = "\n".join([page.get_text("text") for page in doc])
+#         return text.strip()
+#     except Exception as e:
+#         logger.error(f"Failed to extract text from PDF: {e}")
+#         return ""
 # Function to summarize text using OpenAI GPT
 def extract_invoice_data(file_data, content_type):
     system_prompt = "You are an expert in document data extraction."
     if content_type.startswith("image/"):
         mime_type = content_type  # e.g., image/png, image/jpeg
     elif content_type == "application/pdf":
+        mime_type = "application/pdf"
+        # text = extract_text_from_pdf(file_data)
+        # mime_type = [{"role": "user", "content": text}]
     else:
         raise ValueError(f"Unsupported content type: {content_type}")
                         {
                             "type": "image_url",
                             "image_url": {
+                                "url": f"data:image/{mime_type};base64,{base64_encoded}"
+                            },
+                            "image_url": {
+                                "url": f"data:application/pdf;base64,{base64_encoded}"
                             }
                         }
                     ]