Spaces:

rairo
/

OneExcelZimraAI

Build error

App Files Files Community

rairo commited on Feb 20, 2025

Commit

d6d231e

verified ·

1 Parent(s): 55b92d6

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -4

app.py CHANGED Viewed

@@ -21,13 +21,27 @@ def clean_column_name(col_name):
     return re.sub(r"\s+", "_", cleaned.strip().lower())
 def standardize_dataframe(df: pd.DataFrame) -> pd.DataFrame:
     """
     Standardize DataFrame column names and data types.
     - Renames synonyms to common names (e.g., tin, salary).
     - Creates an employee_name column if missing but first_name and last_name exist.
     - Combines duplicate key columns (e.g., multiple 'salary' or 'tin' columns) into one.
-    - Ensures key columns 'tin' and 'employee_name' are strings.
     """
     rename_map = {}
@@ -68,11 +82,12 @@ def standardize_dataframe(df: pd.DataFrame) -> pd.DataFrame:
     if 'salary' in df.columns:
         df['salary'] = pd.to_numeric(df['salary'], errors='coerce')
-    # Ensure key columns are strings for consistency
     if 'tin' in df.columns:
-        df['tin'] = df['tin'].astype(str)
     if 'employee_name' in df.columns:
-        df['employee_name'] = df['employee_name'].astype(str)
     return df
@@ -181,6 +196,7 @@ def merge_with_master(processed_files):
     master_df = master_file["df"]
     st.write(f"Using '{master_file['filename']}' as master for merging.")
     default_keys = ['tin', 'employee_name']
     merged_df = master_df

     return re.sub(r"\s+", "_", cleaned.strip().lower())
+def clean_tin_value(val):
+    """
+    Clean the TIN value by stripping whitespace and,
+    if it ends with '.0', converting it to an integer string.
+    """
+    val_str = str(val).strip()
+    if val_str.endswith('.0'):
+        try:
+            return str(int(float(val_str)))
+        except Exception:
+            return val_str
+    return val_str
 def standardize_dataframe(df: pd.DataFrame) -> pd.DataFrame:
     """
     Standardize DataFrame column names and data types.
     - Renames synonyms to common names (e.g., tin, salary).
     - Creates an employee_name column if missing but first_name and last_name exist.
     - Combines duplicate key columns (e.g., multiple 'salary' or 'tin' columns) into one.
+    - Cleans the key columns 'tin' and 'employee_name' for consistency.
     """
     rename_map = {}
     if 'salary' in df.columns:
         df['salary'] = pd.to_numeric(df['salary'], errors='coerce')
+    # Clean key columns:
     if 'tin' in df.columns:
+        # First, cast to string then clean individual values
+        df['tin'] = df['tin'].astype(str).apply(clean_tin_value)
     if 'employee_name' in df.columns:
+        df['employee_name'] = df['employee_name'].astype(str).str.strip()
     return df
     master_df = master_file["df"]
     st.write(f"Using '{master_file['filename']}' as master for merging.")
+    # Use both 'tin' and 'employee_name' if available, else fallback to common columns.
     default_keys = ['tin', 'employee_name']
     merged_df = master_df