document-extraction

Sleeping

App Files Files Community

vkumartr commited on Feb 6, 2025

Commit

89d454b

verified ·

1 Parent(s): f66ab35

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -18

app.py CHANGED Viewed

@@ -230,6 +230,15 @@ def extract_invoice_data(file_data, content_type):
         logger.error(f"Error in data extraction: {e}")
         return {"error": str(e)}
 # Dependency to check API Key
 def verify_api_key(api_key: str = Header(...)):
     if api_key != API_KEY:
@@ -257,18 +266,12 @@ def extract_text_from_file(
                 "document": existing_document
             }
-        # Retrieve file from S3 and determine content type (Ensure this step is implemented)
-        content_type = get_content_type_from_s3(file_key)  # Implement this function
-        # Extract text (Ensure Extraction function is implemented)
-        extracted_text, num_pages = extract_text_from_s3(file_key, content_type)
-        # Define values for small/large files
-        base64DataResp = None
-        summary = None
-        if num_pages <= 2:
-            base64DataResp = convert_to_base64(file_key)  # Implement this function
-            summary = generate_summary(extracted_text)  # Implement this function
         # Store extracted data in MongoDB
         document = {
@@ -276,10 +279,7 @@ def extract_text_from_file(
             "file_type": content_type,
             "document_type": document_type,
             "entityrefkey": entity_ref_key,
-            "num_pages": num_pages,
-            "base64DataResp": base64DataResp,  # Only for small files
-            "extracted_text": extracted_text,
-            "summary": summary,  # Only for small files
         }
         inserted_doc = invoice_collection.insert_one(document)
@@ -288,9 +288,8 @@ def extract_text_from_file(
         return {
             "message": "Document successfully stored in MongoDB",
             "document_id": document_id,
-            "file_key": file_key,
-            "num_pages": num_pages,
-            "summary": summary if summary else "Skipped for large documents"
         }
     except Exception as e:

         logger.error(f"Error in data extraction: {e}")
         return {"error": str(e)}
+#def get_content_type_from_s3(file_key):
+    """Fetch the content type (MIME type) of a file stored in S3."""
+    try:
+        response = s3_client.head_object(Bucket=S3_BUCKET_NAME, Key=file_key)
+        return response.get('ContentType', 'application/octet-stream')  # Default to binary if not found
+    except Exception as e:
+        raise Exception(f"Failed to get content type from S3: {str(e)}")
 # Dependency to check API Key
 def verify_api_key(api_key: str = Header(...)):
     if api_key != API_KEY:
                 "document": existing_document
             }
+        # Retrieve file from S3 and determine content type
+        content_type = get_content_type_from_s3(file_key)
+        # Extract and parse invoice data
+        file_data, _ = fetch_file_from_s3(file_key)
+        extracted_data = extract_invoice_data(file_data, content_type)
         # Store extracted data in MongoDB
         document = {
             "file_type": content_type,
             "document_type": document_type,
             "entityrefkey": entity_ref_key,
+            "extracted_data": extracted_data
         }
         inserted_doc = invoice_collection.insert_one(document)
         return {
             "message": "Document successfully stored in MongoDB",
             "document_id": document_id,
+            "entityrefkey":entity_ref_key,
+            "extracted_data": extracted_data
         }
     except Exception as e: