document-extraction

Sleeping

kmuthudurai commited on Dec 13, 2024

Commit

58b796b

verified ·

1 Parent(s): c12c4e7

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,8 +35,11 @@ def get_ocr(lang, use_gpu=False):
 # Function to extract images from PDF
 def pdf_to_images(uploaded_file):
     try:
-        # Load PDF from the uploaded file
-        doc = fitz.open(stream=uploaded_file.read(), filetype="pdf")
         logger.info(f"PDF loaded successfully with {len(doc)} pages.")
         image_parts = []
@@ -59,6 +62,7 @@ def pdf_to_images(uploaded_file):
     except Exception as e:
         logger.error(f"Error processing PDF: {str(e)}")
         raise HTTPException(status_code=500, detail="Error processing PDF file")
 @app.post("/ocr")
 async def create_upload_file(

 # Function to extract images from PDF
 def pdf_to_images(uploaded_file):
     try:
+        # Read the uploaded file as bytes
+        file_data = uploaded_file.file.read()  # This returns the file as bytes
+        # Open the PDF using fitz (PyMuPDF) from the bytes data
+        doc = fitz.open(stream=file_data, filetype="pdf")
         logger.info(f"PDF loaded successfully with {len(doc)} pages.")
         image_parts = []
     except Exception as e:
         logger.error(f"Error processing PDF: {str(e)}")
         raise HTTPException(status_code=500, detail="Error processing PDF file")
 @app.post("/ocr")
 async def create_upload_file(