Spaces:

youdata-ai
/

Document-AI

Sleeping

App Files Files Community

akshansh36 commited on Sep 25, 2024

Commit

6eae52f

verified ·

1 Parent(s): b99dff2

Update app.py

Browse files

Files changed (1) hide show

app.py +281 -114

app.py CHANGED Viewed

@@ -2,10 +2,9 @@ import streamlit as st
 from process import process,process_using_llm
 import os
 import shutil
-TEMP_DIR = "temp_files"
 import PyPDF2
 st.set_page_config(layout="wide",page_title="KYC Doc AI")
 def cleanup_temp_files():
@@ -18,7 +17,6 @@ def cleanup_temp_files():
         os.makedirs(TEMP_DIR)
     except Exception as e:
         print(f"An error occurred during cleanup: {e}")
 def extract_pages(input_pdf_path, output_pdf_path, start_page=None, end_page=None):
     try:
         # Open the PDF file
@@ -88,15 +86,25 @@ def merge_dicts_by_aadhaar(data):
 def process_uploads(uploaded_files):
     try:
-        company_name=""
-        company_name_legal=""
-        company_trade_name=""
-        gst_number=""
-        pan_number_company=""
-        coi_number=""
         director_names=[]
         extracted_results={}
         if not os.path.exists(TEMP_DIR):
             os.makedirs(TEMP_DIR)
@@ -147,7 +155,7 @@ def process_uploads(uploaded_files):
                     if name not in director_names:
                         director_names.append(name)
             extracted_results["Aadhaar Cards of Directors"]=director_aadhars_data_new
-            print(director_aadhars_data_new)
         gst_cert=uploaded_files.get('gst_certificate',None)
@@ -160,38 +168,19 @@ def process_uploads(uploaded_files):
             content = ""
             for page_num, text in ocr_data.items():
                 content += text + '\n'
-            dict = process_using_llm(content, "gst")
-            if "Legal Name" in dict:
-                company_name_legal=dict.get('Legal Name','')
-                dict['Is Company Matching'] = "Yes"
-            elif "Trade Name" in dict:
-                company_trade_name=dict.get('Trade Name','')
-                dict['Is Company Matching'] = "Yes"
-            if "Registration Number" in dict:
-                gst_number=dict.get('Registration Number')
-            if "Names of directors" in dict:
-                gst_director_names = dict.get("Names of directors", [])
-                dict["Names of directors"]=",".join(gst_director_names)
-                missing_directors = []
-                gst_director_names_lower = [name.strip().lower() for name in gst_director_names]
-                for direc_name in director_names:
-                    if direc_name not in gst_director_names_lower:
-                        missing_directors.append(direc_name)
-                if not missing_directors:
-                    dict["All director names present?"] = "<span style='color: green;'><strong>Yes</strong></span>"
-                else:
-                    # List missing director names in red
-                    missing_directors_text = ', '.join(
-                        [f"<span style='color: red;'>{name}</span>" for name in missing_directors])
-                    dict[
-                        "All director names present?"] = f"<span style='color: red;'><strong>No</strong></span> (Missing: {missing_directors_text})"
-            extracted_results['GST Certificate Details']=dict
         company_pan = uploaded_files.get('company_pan',None)
         if company_pan:
@@ -203,16 +192,16 @@ def process_uploads(uploaded_files):
             content = ""
             for page_num, text in ocr_data.items():
                 content += text + '\n'
-            dict = process_using_llm(content, "company_pan")
-            if "Company Name" in dict:
-                name=dict.get("Company Name")
-                if name==company_trade_name or name == company_name_legal:
-                    dict['Is Company Matching']="Yes"
-                    company_name=name.strip()
-            if "PAN Number" in dict:
-                pan_number_company=dict.get('PAN Number').strip()
-            extracted_results['Company PAN Details']=dict
         coi = uploaded_files.get('coi',None)
         if coi:
@@ -224,25 +213,22 @@ def process_uploads(uploaded_files):
             content = ""
             for page_num, text in ocr_data.items():
                 content += text + '\n'
-            dict = process_using_llm(content, "coi")
-            if "Company Name" in dict:
-                name=dict.get("Company Name")
-                if name==company_trade_name or name == company_name_legal or name==company_name:
-                    dict['Is Company Matching']="Yes"
-                    company_name=name.strip()
-                else:
-                    dict['Is Company Matching'] = "No"
-            if "PAN Number" in dict and dict.get('PAN Number','').strip()==pan_number_company:
-                dict['Is Company PAN Number Matching']="Yes"
-            elif "PAN Number" in dict and dict.get('PAN Number','').strip()!=pan_number_company:
-                dict['Is Company PAN Number Matching'] = "No"
-            if "Corporate Identity Number" in dict:
-                coi_number=dict.get("Corporate Identity Number").strip()
-            extracted_results['COI Details']=dict
-            print(dict)
         aoa = uploaded_files.get('aoa',None)
         if aoa:
@@ -257,19 +243,13 @@ def process_uploads(uploaded_files):
             for page_num, text in ocr_data.items():
                 content += text + '\n'
-            dict = process_using_llm(content, "aoa")
-            if "Company Name" in dict:
-                name=dict.get("Company Name").strip()
-                if name==company_trade_name or name == company_name_legal or name==company_name:
-                    dict['Is Company Matching']="Yes"
-                    company_name=name
-                else:
-                    dict['Is Company Matching'] = "No"
-            if "Share Holders" in dict:
-                share_holders=dict.get("Share Holders",[])
-                dict["Share Holders"]=",".join(share_holders)
-            extracted_results['AOA Details']=dict
-            print(dict)
         moa = uploaded_files.get('moa',None)
         if moa:
@@ -284,19 +264,13 @@ def process_uploads(uploaded_files):
             for page_num, text in ocr_data.items():
                 content += text + '\n'
-            dict = process_using_llm(content, "moa")
-            if "Company Name" in dict:
-                name=dict.get("Company Name").strip()
-                if name==company_trade_name or name == company_name_legal or name==company_name:
-                    dict['Is Company Matching']="Yes"
-                    company_name=name
-                else:
-                    dict['Is Company Matching'] = "No"
-            if "Share Holders" in dict:
-                share_holders=dict.get("Share Holders",[])
-                dict["Share Holders"]=",".join(share_holders)
-            extracted_results['MOA Details']=dict
-            print(dict)
         share=uploaded_files.get('share',None)
@@ -312,28 +286,18 @@ def process_uploads(uploaded_files):
             for page_num, text in ocr_data.items():
                 content += text + '\n'
-            dict = process_using_llm(content, "share")
-            if "Company Name" in dict:
-                name=dict.get("Company Name").strip()
-                if name==company_trade_name or name == company_name_legal or name==company_name:
-                    dict['Is Company Matching']="Yes"
-                    company_name=name
-                else:
-                    dict['Is Company Matching'] = "No"
-            if "Corporate Identity Number" in dict and dict.get("Corporate Identity Number").strip()==coi_number:
-                dict['Is Corporate Identity Number Matching']="Yes"
-            elif "Corporate Identity Number" in dict and dict.get("Corporate Identity Number").strip()!=coi_number:
-                dict['Is Corporate Identity Number Matching'] = "No"
-            if "Share Holders" in dict:
-                share_holders=dict.get("Share Holders",[])
-                dict["Share Holders"]=",".join(share_holders)
-            extracted_results['Shareholding Details']=dict
-            print(dict)
         address_proof = uploaded_files.get('address_proof', None)
         if address_proof:
@@ -347,17 +311,220 @@ def process_uploads(uploaded_files):
             for page_num, text in ocr_data.items():
                 content += text + '\n'
-            dict = process_using_llm(content, "stamp")
-            if "Stamp Duty" in dict:
-                duty=dict.get("Stamp Duty",None)
                 if duty>=100:
-                    dict['Valid Stamp']="Yes"
             subword = "nota"
             if subword in content.lower():
-                dict['Notary Stamp']="Present"
-            extracted_results['Address Proof Details(Non Judicial Stamp)']=dict
-            print(dict)
         return extracted_results
     except Exception as e:

 from process import process,process_using_llm
 import os
 import shutil
 import PyPDF2
+TEMP_DIR = "temp_files"
 st.set_page_config(layout="wide",page_title="KYC Doc AI")
 def cleanup_temp_files():
         os.makedirs(TEMP_DIR)
     except Exception as e:
         print(f"An error occurred during cleanup: {e}")
 def extract_pages(input_pdf_path, output_pdf_path, start_page=None, end_page=None):
     try:
         # Open the PDF file
 def process_uploads(uploaded_files):
     try:
+        company_name=None
+        company_name_legal=None
+        company_trade_name=None
+        gst_number=None
+        pan_number_company=None
+        coi_number=None
         director_names=[]
         extracted_results={}
+        gst_dict={}
+        pan_dict={}
+        coi_dict={}
+        moa_dict={}
+        aoa_dict={}
+        add_dict={}
+        share_dict={}
+        total_pan_number=0
+        total_company_names=0
+        total_coi_numbers=0
         if not os.path.exists(TEMP_DIR):
             os.makedirs(TEMP_DIR)
                     if name not in director_names:
                         director_names.append(name)
             extracted_results["Aadhaar Cards of Directors"]=director_aadhars_data_new
         gst_cert=uploaded_files.get('gst_certificate',None)
             content = ""
             for page_num, text in ocr_data.items():
                 content += text + '\n'
+            gst_dict = process_using_llm(content, "gst")
+            if "Legal Name" in gst_dict:
+                company_name_legal=gst_dict.get('Legal Name','').strip()
+            elif "Trade Name" in gst_dict:
+                company_trade_name=gst_dict.get('Trade Name','').strip()
+            if "Registration Number"in gst_dict:
+                gst_number=gst_dict.get('Registration Number').strip()
+            if company_name_legal or company_trade_name:
+                total_company_names+=1
         company_pan = uploaded_files.get('company_pan',None)
         if company_pan:
             content = ""
             for page_num, text in ocr_data.items():
                 content += text + '\n'
+            pan_dict = process_using_llm(content, "company_pan")
+            if "Company Name" in pan_dict:
+                name=pan_dict.get("Company Name").strip()
+                company_name=name
+                total_company_names+=1
+            if "PAN Number" in pan_dict:
+                pan_number_company=pan_dict.get('PAN Number').strip()
+                total_pan_number+=1
         coi = uploaded_files.get('coi',None)
         if coi:
             content = ""
             for page_num, text in ocr_data.items():
                 content += text + '\n'
+            coi_dict = process_using_llm(content, "coi")
+            if "Company Name" in coi_dict:
+                name=coi_dict.get("Company Name").strip()
+                company_name=name
+                total_company_names+=1
+            if "Corporate Identity Number" in coi_dict:
+                coi_number=coi_dict.get("Corporate Identity Number").strip()
+                total_coi_numbers+=1
+            if "PAN Number" in coi_dict:
+                total_pan_number+=1
+                pan_number_company=coi_dict.get("PAN Number").strip()
         aoa = uploaded_files.get('aoa',None)
         if aoa:
             for page_num, text in ocr_data.items():
                 content += text + '\n'
+            aoa_dict = process_using_llm(content, "aoa")
+            if "Share Holders" in aoa_dict:
+                share_holders=aoa_dict.get("Share Holders",[])
+                aoa_dict["Share Holders"]=",".join(share_holders)
         moa = uploaded_files.get('moa',None)
         if moa:
             for page_num, text in ocr_data.items():
                 content += text + '\n'
+            moa_dict = process_using_llm(content, "moa")
+            if "Share Holders" in moa_dict:
+                share_holders=moa_dict.get("Share Holders",[])
+                moa_dict["Share Holders"]=",".join(share_holders)
         share=uploaded_files.get('share',None)
             for page_num, text in ocr_data.items():
                 content += text + '\n'
+            share_dict = process_using_llm(content, "share")
+            if "Share Holders" in share_dict:
+                share_holders=share_dict.get("Share Holders",[])
+                share_dict["Share Holders"]=",".join(share_holders)
+            if "Corporate Identity Number" in share_dict:
+                coi_number=share_dict.get('Corporate Identity Number').strip()
+                total_coi_numbers+=1
         address_proof = uploaded_files.get('address_proof', None)
         if address_proof:
             for page_num, text in ocr_data.items():
                 content += text + '\n'
+            add_dict = process_using_llm(content, "stamp")
+            if "Stamp Duty" in add_dict:
+                duty=add_dict.get("Stamp Duty",None)
                 if duty>=100:
+                    add_dict['Valid Stamp']="Yes"
             subword = "nota"
             if subword in content.lower():
+                add_dict['Notary Stamp']="Present"
+            extracted_results['Address Proof Details(Non Judicial Stamp)']=add_dict
+        if company_name is not None or company_name_legal is not None or company_trade_name is not None:
+            if total_company_names>1:
+                if pan_dict:
+                    name=pan_dict.get("Company Name",None)
+                    if name and (name.strip() == company_name or name.strip() == company_name_legal or name.strip() == company_trade_name):
+                        pan_dict['Is Company Matching']="Yes"
+                    else:
+                        pan_dict['Is Company Matching']="No"
+                if coi_dict:
+                    name = coi_dict.get("Company Name",None)
+                    if name and (name.strip() == company_name or name.strip() == company_name_legal or name.strip() == company_trade_name):
+                        coi_dict['Is Company Matching'] = "Yes"
+                    else:
+                        coi_dict['Is Company Matching'] = "No"
+                if gst_dict:
+                    name1 = gst_dict.get("Legal Name",None)
+                    name2 = gst_dict.get("Trade Name",None)
+                    if name1 and (name1.strip() == company_name or name1.strip() == company_name_legal or name1.strip() == company_trade_name):
+                        gst_dict['Is Company Matching'] = "Yes"
+                    elif name2 and (name2.strip() == company_name or name2.strip() == company_name_legal or name2.strip() == company_trade_name):
+                        gst_dict['Is Company Matching'] = "Yes"
+                    else:
+                        gst_dict['Is Company Matching']="No"
+                if moa_dict:
+                    name = moa_dict.get("Company Name", None)
+                    if name and (name.strip() == company_name or name.strip() == company_name_legal or name.strip() == company_trade_name):
+                        moa_dict['Is Company Matching'] = "Yes"
+                    else:
+                        moa_dict['Is Company Matching'] = "No"
+                if aoa_dict:
+                    name = moa_dict.get("Company Name", None)
+                    if name and (name.strip() == company_name or name.strip() == company_name_legal or name.strip() == company_trade_name):
+                        moa_dict['Is Company Matching'] = "Yes"
+                    else:
+                        moa_dict['Is Company Matching'] = "No"
+                if share_dict:
+                    name = share_dict.get("Company Name",None)
+                    if name and (name.strip() == company_name or name.strip() == company_name_legal or name.strip() == company_trade_name):
+                        share_dict['Is Company Matching'] = "Yes"
+                    else:
+                        share_dict['Is Company Matching'] = "No"
+            else: # if total count is less than or equal to 1 then we cannot validate
+                if pan_dict:
+                    pan_dict[
+                        'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+                if coi_dict:
+                    coi_dict[
+                        'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+                if gst_dict:
+                    gst_dict[
+                        'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+                if aoa_dict:
+                    aoa_dict[
+                        'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+                if moa_dict:
+                    moa_dict[
+                        'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+                if share_dict:
+                    share_dict[
+                        'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+        else:
+            if pan_dict:
+                pan_dict['More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+            if coi_dict:
+                coi_dict['More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+            if gst_dict:
+                gst_dict['More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+            if aoa_dict:
+                aoa_dict[
+                    'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+            if moa_dict:
+                moa_dict[
+                    'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+            if share_dict:
+                share_dict[
+                    'More information needed to validate company name'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+        if pan_number_company is not None:
+            if total_pan_number>1:
+                if pan_dict:
+                    pan_number=pan_dict.get('PAN Number',None)
+                    if pan_number is not None and pan_number.strip()==pan_number_company:
+                        pan_dict['Is Company PAN Number Matching']="Yes"
+                    else:
+                        pan_dict['Is Company PAN Number Matching'] = "No"
+                if coi_dict:
+                    pan_number = coi_dict.get('PAN Number',None)
+                    if pan_number is not None and pan_number.strip() == pan_number_company:
+                        coi_dict['Is Company PAN Number Matching'] = "Yes"
+                    else:
+                        coi_dict['Is Company PAN Number Matching'] = "No"
+            else:
+                if pan_dict:
+                    pan_dict[
+                        'More information needed to validate company PAN number'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+                if coi_dict:
+                    coi_dict[
+                        'More information needed to validate company PAN number'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+        else:
+            if pan_dict:
+                pan_dict['More information needed to validate company PAN number'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+            if coi_dict:
+                coi_dict['More information needed to validate company PAN number']= f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+        if coi_number is not None:
+            if total_coi_numbers>1:
+                if coi_dict:
+                    coi_number_check=coi_dict.get('Corporate Identity Number',None)
+                    if coi_number_check is not None and coi_number_check.strip()==coi_number:
+                        coi_dict['Is Corporate Identity Number Matching']="Yes"
+                    else:
+                        coi_dict['Is Corporate Identity Number Matching']="No"
+                if share_dict:
+                    coi_number_check=share_dict.get('Corporate Identity Number',None)
+                    if coi_number_check is not None and coi_number_check.strip()==coi_number:
+                        share_dict['Is Corporate Identity Number Matching']="Yes"
+                    else:
+                        share_dict['Is Corporate Identity Number Matching'] = "No"
+            else:
+                if coi_dict:
+                    coi_dict[
+                        'More information needed to validate company COI number'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+                if share_dict:
+                    share_dict[
+                        'More information needed to validate company COI number'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+        else:
+            if coi_dict:
+                coi_dict['More information needed to validate company COI number']=f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+            if share_dict:
+                share_dict['More information needed to validate company COI number'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+        if "Names of directors" in gst_dict:
+            gst_director_names = gst_dict.get("Names of directors", [])
+            if gst_director_names:
+                gst_dict["Names of directors"]=",".join(gst_director_names)
+                missing_directors = []
+                gst_director_names_lower = [name.strip().lower() for name in gst_director_names]
+                if director_names:
+                    for direc_name in director_names:
+                        if direc_name not in gst_director_names_lower:
+                            missing_directors.append(direc_name)
+                    if not missing_directors:
+                        gst_dict["All director names present?"] = "<span style='color: green;'><strong>Yes</strong></span>"
+                    else:
+                        # List missing director names in red
+                        missing_directors_text = ', '.join(
+                            [f"<span style='color: red;'>{name}</span>" for name in missing_directors])
+                        gst_dict["All director names present?"] = f"<span style='color: red;'><strong>No</strong></span> (Missing: {missing_directors_text})"
+                else:
+                    gst_dict['More information needed to validate Director names'] = f"<span style='color: #d4ac0d;'><strong>Yes</strong></span>"
+        if pan_dict:
+            extracted_results['Company PAN Details']=pan_dict
+        if coi_dict:
+            extracted_results['COI Details']=coi_dict
+        if gst_dict:
+            extracted_results['GST Certificate Details']=gst_dict
+        if moa_dict:
+            extracted_results['MOA Details']=gst_dict
+        if aoa_dict:
+            extracted_results['AOA Details']=aoa_dict
+        if share_dict:
+            extracted_results['Shareholding Details']=share_dict
         return extracted_results
     except Exception as e: