document-extraction

Sleeping

vkumartr commited on Feb 5, 2025

Commit

6b32371

verified ·

1 Parent(s): aa47259

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ from enum import Enum
 from fastapi import FastAPI, Header, Query, Depends, HTTPException
 from PIL import Image
 import io
-import numpy as np
 import fitz  # PyMuPDF for PDF handling
 import logging
 from pymongo import MongoClient
@@ -240,6 +239,14 @@ def extract_text_from_file(
 ):
     """Extract text from a PDF or Image stored in S3 and process it based on document size."""
     try:
         # Fetch file from S3
         file_data, content_type = fetch_file_from_s3_file(file_key)
@@ -248,8 +255,8 @@ def extract_text_from_file(
         summary = None
         if content_type.startswith("image/"):  # Image file
-            # image = Image.open(io.BytesIO(file_data)).convert("RGB")
-            # extracted_text.append(pytesseract.image_to_string(image))
             # If single image, store Base64
             base64Data = base64.b64encode(file_data).decode('utf-8')
@@ -290,7 +297,7 @@ def extract_text_from_file(
         }
         inserted_doc = invoice_collection.insert_one(document)
-        document_id = str(inserted_doc.inserted_id)
         return {
             "message": "Document successfully stored in MongoDB",

 from fastapi import FastAPI, Header, Query, Depends, HTTPException
 from PIL import Image
 import io
 import fitz  # PyMuPDF for PDF handling
 import logging
 from pymongo import MongoClient
 ):
     """Extract text from a PDF or Image stored in S3 and process it based on document size."""
     try:
+        existing_document = invoice_collection.find_one({"entityrefkey":entity_ref_key})
+        if(existing_document):
+            existing_document["_id"] = str(existing_document["_id"])
+            return {
+                "message": "Document Retrieved from MongoDB.",
+                "document": existing_document
+            }
         # Fetch file from S3
         file_data, content_type = fetch_file_from_s3_file(file_key)
         summary = None
         if content_type.startswith("image/"):  # Image file
+            image = Image.open(io.BytesIO(file_data)).convert("RGB")
+            extracted_text.append(pytesseract.image_to_string(image))
             # If single image, store Base64
             base64Data = base64.b64encode(file_data).decode('utf-8')
         }
         inserted_doc = invoice_collection.insert_one(document)
+        document_id = str(inserted_doc.inserted_id)
         return {
             "message": "Document successfully stored in MongoDB",