Spaces:

chandanzeon
/

Fetch_Employer_Name

Build error

App Files Files Community

chandanzeon commited on Feb 20, 2025

Commit

4efd35b

1 Parent(s): 80b184f

ignore other accounts

Browse files

Files changed (3) hide show

__pycache__/helper.cpython-312.pyc +0 -0
app.py +2 -0
helper.py +54 -37

__pycache__/helper.cpython-312.pyc CHANGED Viewed

Binary files a/__pycache__/helper.cpython-312.pyc and b/__pycache__/helper.cpython-312.pyc differ

app.py CHANGED Viewed

@@ -44,6 +44,7 @@ def process_files(excel_file, text_file):
     # Ensure the 'Employer Number' column values are formatted as zero-padded 6-digit strings
     df_excel['Employer Number'] = [str(number).zfill(6) for number in df_excel['Employer Number']]
     # Read and process the text file content into a list of lines
     lines = text_file.read().decode('utf-8').splitlines()
@@ -51,6 +52,7 @@ def process_files(excel_file, text_file):
     # Create a DataFrame from the parsed text file data
     df = pd.DataFrame(data)
     return df_excel, df

     # Ensure the 'Employer Number' column values are formatted as zero-padded 6-digit strings
     df_excel['Employer Number'] = [str(number).zfill(6) for number in df_excel['Employer Number']]
+    df_excel = df_excel.dropna(subset=['Employer Name'])
     # Read and process the text file content into a list of lines
     lines = text_file.read().decode('utf-8').splitlines()
     # Create a DataFrame from the parsed text file data
     df = pd.DataFrame(data)
+    df = df[df[1].isin(['1001010071', '1001233102'])]
     return df_excel, df

helper.py CHANGED Viewed

@@ -107,7 +107,7 @@ def generate_df(master_data, df, employer_names):
     """
     dates = [datetime.strptime(date_str, '%d%m%y').strftime('%d/%m/%Y') for date_str in df[4]]
     bank_desc = list(df[9])
-    accounts = ['NASA' if i == '713' else 'EDAS' if i == '068' else None for i in df[0]]
     credits = list(df[7])
     # Initialize lists for employer-related fields
@@ -128,6 +128,17 @@ def generate_df(master_data, df, employer_names):
             date_joined.append(np.nan)
             termination_date.append(np.nan)
             email_addr.append(np.nan)
         else:
             tmp = master_data[master_data['Employer Name'] == name]
             if tmp.empty:
@@ -203,6 +214,7 @@ def get_res_df(master_data, df, thrshld):
     # Preprocess queries from transaction data
     queries = list(df[9])
     queries = [query[:query.rindex('-')] for query in queries]  # Extract part of the query before '-'
     empnos = [fetch_empno(text) for text in queries]
     new_queries = [preprocess_query(query) for query in queries]
@@ -218,46 +230,51 @@ def get_res_df(master_data, df, thrshld):
             exact_matches.append('')
     res_names, found_by, scores = [], [], []
-    found_by_direct_search, found_by_emp_no, found_by_bm5, not_found = 0, 0, 0, 0
     # Match each query to an employer
-    for query,empno_arr,exact_match in zip(new_queries,empnos,exact_matches):
-        name = ""
-        # Find Employer by Direct Search
-        if exact_match!='':
-            name = exact_match
-            scores.append(100)
-            found_by_direct_search+=1
-            found_by.append("Direct Search")
-            res_names.append(name)
-        # Try to find an employer using the employee number if Direct Search Fails
-        elif len(empno_arr) != 0:
-            for empno in empno_arr:
-                names = list(master_data[master_data['Employer Number']==empno]['Employer Name'])
-                if len(names)!=0:
-                    name=names[0]
-                    scores.append(100) # Perfect match with employee number
-                    found_by_emp_no+=1
-                    found_by.append("Employer Number")
-                    res_names.append(name)
-                    break
-        # Fall back to BM25 matching if employee number fails
-        if name=="":
-            tokenized_query = query.split(" ")
-            name = bm25.get_top_n(tokenized_query, corpus, n=1)
-            doc_score = max(bm25.get_scores(tokenized_query))
-            scores.append(doc_score)
-            if doc_score>threshold:
-                found_by_bm5 += 1
-                res_names.append(name[0])
-                found_by.append("BM25")
-            else:
-                not_found+=1
-                res_names.append("NOT FOUND")
-                found_by.append("NOT FOUND")
     # Generate the final result DataFrame
     res_df = generate_df(master_data=master_data, df=df, employer_names=res_names)
     return res_df, found_by_direct_search, found_by_emp_no, found_by_bm5, not_found

     """
     dates = [datetime.strptime(date_str, '%d%m%y').strftime('%d/%m/%Y') for date_str in df[4]]
     bank_desc = list(df[9])
+    accounts = ['NASA' if i == '1001010071' else 'EDAS' if i == '1001233102' else '' for i in df[1]]
     credits = list(df[7])
     # Initialize lists for employer-related fields
             date_joined.append(np.nan)
             termination_date.append(np.nan)
             email_addr.append(np.nan)
+        elif name == "EDAS":
+            employer_codes.append(np.nan)
+            bank_statemnt_ref.append(np.nan)
+            account_mgr.append(np.nan)
+            emp_province.append(np.nan)
+            region.append(np.nan)
+            industry.append(np.nan)
+            contributing_stts.append(np.nan)
+            date_joined.append(np.nan)
+            termination_date.append(np.nan)
+            email_addr.append(np.nan)
         else:
             tmp = master_data[master_data['Employer Name'] == name]
             if tmp.empty:
     # Preprocess queries from transaction data
     queries = list(df[9])
     queries = [query[:query.rindex('-')] for query in queries]  # Extract part of the query before '-'
+    acc_nos = list(df[1])
     empnos = [fetch_empno(text) for text in queries]
     new_queries = [preprocess_query(query) for query in queries]
             exact_matches.append('')
     res_names, found_by, scores = [], [], []
+    found_by_direct_search, found_by_emp_no, found_by_bm5, not_found, edas = 0, 0, 0, 0, 0
     # Match each query to an employer
+    for query,empno_arr,exact_match,acc_no in zip(new_queries,empnos,exact_matches,acc_nos):
+        if acc_no == '1001233102':
+            edas+=1
+            res_names.append("EDAS")
+            found_by.append("EDAS")
+        else:
+            name = ""
+            # Find Employer by Direct Search
+            if exact_match!='':
+                name = exact_match
+                scores.append(100)
+                found_by_direct_search+=1
+                found_by.append("Direct Search")
+                res_names.append(name)
+            # Try to find an employer using the employee number if Direct Search Fails
+            elif len(empno_arr) != 0:
+                for empno in empno_arr:
+                    names = list(master_data[master_data['Employer Number']==empno]['Employer Name'])
+                    if len(names)!=0:
+                        name=names[0]
+                        scores.append(100) # Perfect match with employee number
+                        found_by_emp_no+=1
+                        found_by.append("Employer Number")
+                        res_names.append(name)
+                        break
+            # Fall back to BM25 matching if employee number fails
+            if name=="":
+                tokenized_query = query.split(" ")
+                name = bm25.get_top_n(tokenized_query, corpus, n=1)
+                doc_score = max(bm25.get_scores(tokenized_query))
+                scores.append(doc_score)
+                if doc_score>threshold:
+                    found_by_bm5 += 1
+                    res_names.append(name[0])
+                    found_by.append("BM25")
+                else:
+                    not_found+=1
+                    res_names.append("NOT FOUND")
+                    found_by.append("NOT FOUND")
     # Generate the final result DataFrame
     res_df = generate_df(master_data=master_data, df=df, employer_names=res_names)
+    print(f"{found_by_direct_search=},{found_by_emp_no=},{found_by_bm5=},{not_found=},{edas=}")
     return res_df, found_by_direct_search, found_by_emp_no, found_by_bm5, not_found