Spaces:

PARTHA181098
/

InvoiceAgenticAI

Sleeping

App Files Files Community

PARTHA181098 commited on Feb 11

Commit

bab5a4c

verified ·

1 Parent(s): fea04e5

Update agents/document_agent.py

Browse files

Files changed (1) hide show

agents/document_agent.py +43 -3

agents/document_agent.py CHANGED Viewed

@@ -13,6 +13,10 @@ import google.generativeai as genai
 from dotenv import load_dotenv
 from datetime import datetime
 from agents.base_agent import BaseAgent
 from state import (
     InvoiceProcessingState, InvoiceData, ItemDetail,
@@ -114,6 +118,8 @@ class DocumentAgent(BaseAgent):
         genai.configure(api_key=self.api_key)
         # genai.configure(api_key=os.getenv("GEMINI_API_KEY_7"))
         self.model = genai.GenerativeModel("gemini-2.5-flash")
     def generate(self, prompt):
         try:
@@ -175,6 +181,38 @@ class DocumentAgent(BaseAgent):
             self._should_escalate(state, reason=str(e))
             return state
     async def _extract_text_from_pdf(self, file_name: str) -> str:
         # pass
@@ -192,9 +230,11 @@ class DocumentAgent(BaseAgent):
                 with pdfplumber.open(file_name) as pdf:
                     for page in pdf.pages:
                         text += page.extract_text() or ""
-            except Exception as e2:
-                self.logger.logger.error("[DocumentAgent] PDFPlumber failed :{e2}")
-                text = ""
         return text
     async def _parse_invoice_with_ai(self, text: str) -> InvoiceData:

 from dotenv import load_dotenv
 from datetime import datetime
+from paddleocr import PaddleOCR
+import io
+from PIL import Image
 from agents.base_agent import BaseAgent
 from state import (
     InvoiceProcessingState, InvoiceData, ItemDetail,
         genai.configure(api_key=self.api_key)
         # genai.configure(api_key=os.getenv("GEMINI_API_KEY_7"))
         self.model = genai.GenerativeModel("gemini-2.5-flash")
+        # Initialize PaddleOCR (English example)
+        self.ocr = PaddleOCR(use_angle_cls=True, lang="en")
     def generate(self, prompt):
         try:
             self._should_escalate(state, reason=str(e))
             return state
+    async def _extract_with_paddle_ocr(self, file_name: str) -> str:
+        full_text = ""
+        try:
+            doc = fitz.open(file_name)
+            for page_num in range(len(doc)):
+                page = doc[page_num]
+                # Convert PDF page to image
+                pix = page.get_pixmap(dpi=300)
+                img = Image.open(io.BytesIO(pix.tobytes("png")))
+                img_np = np.array(img)
+                # Run OCR
+                result = self.ocr.ocr(img_np, cls=True)
+                # Extract text lines
+                for line in result:
+                    for word_info in line:
+                        full_text += word_info[1][0] + " "
+                full_text += "\n"
+            doc.close()
+            self.logger.logger.info("[DocumentAgent] PaddleOCR extraction completed.")
+        except Exception as e:
+            self.logger.logger.error(f"[DocumentAgent] PaddleOCR failed: {e}")
+        print('text from ocr........', full_text)
+        return full_text
     async def _extract_text_from_pdf(self, file_name: str) -> str:
         # pass
                 with pdfplumber.open(file_name) as pdf:
                     for page in pdf.pages:
                         text += page.extract_text() or ""
+            except Exception:
+                self.logger.logger.info("[DocumentAgent] Falling back to PaddleOCR...")
+                # Final fallback → PaddleOCR
+                text = await self._extract_with_paddle_ocr(file_name)
         return text
     async def _parse_invoice_with_ai(self, text: str) -> InvoiceData: