Spaces:

APEXlogistics
/

HTSReivewTool

Running

App Files Files Community

joycecast commited on Jan 12

Commit

56c462f

verified ·

1 Parent(s): d98c784

Upload app.py

Browse files

Files changed (1) hide show

app.py +4 -24

app.py CHANGED Viewed

@@ -98,11 +98,7 @@ def load_single_excel(file_content):
 @st.cache_data
 def load_and_validate_excel(file_contents_list, file_names_list, keywords_hash):
-    """Load multiple Excel files and combine - cached to avoid re-running on filter changes
-    Returns:
-        tuple: (combined_df, original_count, dedup_count)
-    """
     all_dfs = []
     for file_content in file_contents_list:
@@ -111,21 +107,8 @@ def load_and_validate_excel(file_contents_list, file_names_list, keywords_hash):
     # Concatenate all dataframes
     combined_df = pd.concat(all_dfs, ignore_index=True)
-    original_count = len(combined_df)
-    # Remove duplicates based on Tariff + Description (after combining all files)
-    # Keep first occurrence
-    dedup_cols = ["Tariff", "Description"]
-    dedup_cols = [c for c in dedup_cols if c in combined_df.columns]
-    if dedup_cols:
-        combined_df = combined_df.drop_duplicates(subset=dedup_cols, keep='first')
-    # Reset index to ensure sequential indices after deduplication
-    combined_df = combined_df.reset_index(drop=True)
-    dedup_count = original_count - len(combined_df)
-    return combined_df, original_count, dedup_count
 @st.cache_data
@@ -288,16 +271,13 @@ with tab1:
             for f in uploaded_files:
                 f.seek(0)
-            df, original_count, dedup_count = load_and_validate_excel(file_contents, file_names, keywords_hash)
             st.session_state.original_df = df
             # Show load summary
             if len(uploaded_files) > 1:
-                msg = f"Loaded {len(df)} unique rows from {len(uploaded_files)} files"
-                if dedup_count > 0:
-                    msg += f" ({dedup_count} duplicates removed)"
-                st.success(msg)
             else:
                 st.success(f"Loaded {len(df)} rows")

 @st.cache_data
 def load_and_validate_excel(file_contents_list, file_names_list, keywords_hash):
+    """Load multiple Excel files and combine - cached to avoid re-running on filter changes"""
     all_dfs = []
     for file_content in file_contents_list:
     # Concatenate all dataframes
     combined_df = pd.concat(all_dfs, ignore_index=True)
+    return combined_df
 @st.cache_data
             for f in uploaded_files:
                 f.seek(0)
+            df = load_and_validate_excel(file_contents, file_names, keywords_hash)
             st.session_state.original_df = df
             # Show load summary
             if len(uploaded_files) > 1:
+                st.success(f"Loaded {len(df)} rows from {len(uploaded_files)} files")
             else:
                 st.success(f"Loaded {len(df)} rows")