Spaces:

SuriRaja
/

Usacese1

Sleeping

SuriRaja commited on Nov 12, 2024

Commit

a9fdebc

verified ·

1 Parent(s): b8410df

Update po_parsers/federal_transformers.py

Files changed (1) hide show

po_parsers/federal_transformers.py CHANGED Viewed

@@ -1,8 +1,9 @@
 import re
-from typing import Dict
 import pandas as pd
-def parse_federal_transformers(file_text: str) -> Dict:
     parsed_data = {
         "Purchase Order No": "",
         "Date": "",
@@ -15,10 +16,12 @@ def parse_federal_transformers(file_text: str) -> Dict:
     }
     try:
         # Parse headers
         parsed_data["Purchase Order No"] = re.search(r"Purchase Order No\.\s(\d+)", file_text).group(1)
         parsed_data["Date"] = re.search(r"Date:\s+(\d{2}-\w{3}-\d{2})", file_text).group(1)
         parsed_data["Invoice Address"] = re.search(r"Invoice Address\s*:\s*(.*?)(?=\sDelivery Address)", file_text, re.DOTALL).group(1).strip()
         parsed_data["Delivery Address"] = re.search(r"Delivery Address\s*:\s*(.*?)(?=\sNote)", file_text, re.DOTALL).group(1).strip()
@@ -38,8 +41,9 @@ def parse_federal_transformers(file_text: str) -> Dict:
             items_df = pd.DataFrame(parsed_data["Items"])
             parsed_data["Items DataFrame"] = items_df
             print("Items successfully parsed into DataFrame.")
     except Exception as e:
         print(f"Error parsing Federal Transformers PO: {e}")
     return parsed_data

+import pdfplumber
 import re
 import pandas as pd
+from typing import Dict
+def parse_po(file_path: str) -> Dict:
     parsed_data = {
         "Purchase Order No": "",
         "Date": "",
     }
     try:
+        with pdfplumber.open(file_path) as pdf:
+            file_text = "\n".join([page.extract_text() for page in pdf.pages if page.extract_text()])
         # Parse headers
         parsed_data["Purchase Order No"] = re.search(r"Purchase Order No\.\s(\d+)", file_text).group(1)
         parsed_data["Date"] = re.search(r"Date:\s+(\d{2}-\w{3}-\d{2})", file_text).group(1)
         parsed_data["Invoice Address"] = re.search(r"Invoice Address\s*:\s*(.*?)(?=\sDelivery Address)", file_text, re.DOTALL).group(1).strip()
         parsed_data["Delivery Address"] = re.search(r"Delivery Address\s*:\s*(.*?)(?=\sNote)", file_text, re.DOTALL).group(1).strip()
             items_df = pd.DataFrame(parsed_data["Items"])
             parsed_data["Items DataFrame"] = items_df
             print("Items successfully parsed into DataFrame.")
     except Exception as e:
         print(f"Error parsing Federal Transformers PO: {e}")
+        parsed_data["Error"] = str(e)
     return parsed_data