Spaces:

shtota
/

wine_analysis

Sleeping

App Files Files Community

opti-alexc commited on Jul 24, 2025

Commit

4fdc102

1 Parent(s): c8f19c2

optimization

Browse files

Files changed (1) hide show

app.py +38 -12

app.py CHANGED Viewed

@@ -35,6 +35,7 @@ def download_data():
     csv_filename = 'XWines_Full_100K_wines.csv'
     if os.path.exists(csv_filename):
         return csv_filename
     # Convert Google Drive share link to direct download link
@@ -62,18 +63,28 @@ def load_and_preprocess_data():
     csv_filename = download_data()
     try:
-        df = pd.read_csv(csv_filename)
     except FileNotFoundError:
         raise FileNotFoundError(f"CSV file '{csv_filename}' not found.")
     def parse_list_string(s):
         try:
-            return ast.literal_eval(s) if isinstance(s, str) else []
         except (ValueError, SyntaxError):
             return []
-    df['grapes_list'] = df['Grapes'].apply(parse_list_string)
-    df['harmonize_list'] = df['Harmonize'].apply(parse_list_string)
     df['main_grape'] = df['grapes_list'].apply(lambda x: x[0] if x else 'Unknown')
     df['num_grapes'] = df['grapes_list'].apply(len)
     df['body_numeric'] = df['Body'].map(BODY_MAPPING)
@@ -81,9 +92,14 @@ def load_and_preprocess_data():
 # --- OPTIMIZATION 2: Vectorized Data Aggregation ---
-def get_top_food_pairings(series, top_n=3):
-    """Get top N food pairings with emojis and names."""
-    all_pairings = [item for sublist in series for item in sublist]
     if not all_pairings:
         return {'emojis': '🍽️', 'names': 'General'}
@@ -123,14 +139,24 @@ def aggregate_wine_data(df, wine_types, max_grape_count, min_samples_choice, reg
     if agg_df.empty:
         return agg_df
-    # --- THE FIX ---
     agg_df['body_dist'] = agg_df['body_list'].apply(
-        lambda x: (pd.Series(x).value_counts(normalize=True) * 100).to_dict())
     agg_df['acid_dist'] = agg_df['acidity_list'].apply(
-        lambda x: (pd.Series(x).value_counts(normalize=True) * 100).to_dict())
-    # --- END OF FIX ---
-    agg_df['pairing_data'] = agg_df['harmonize_list'].apply(get_top_food_pairings)
     agg_df['pairing_emoji'] = agg_df['pairing_data'].apply(lambda x: x['emojis'])
     agg_df['pairing_names'] = agg_df['pairing_data'].apply(lambda x: x['names'])
     agg_df['wine_type_order'] = agg_df['Type'].map(WINE_TYPE_ORDER)

     csv_filename = 'XWines_Full_100K_wines.csv'
     if os.path.exists(csv_filename):
+        print(f"Using existing dataset: {csv_filename}")
         return csv_filename
     # Convert Google Drive share link to direct download link
     csv_filename = download_data()
     try:
+        print("Loading CSV data...")
+        # Use efficient data types and only load needed columns if possible
+        df = pd.read_csv(csv_filename, low_memory=False)
+        print(f"Loaded {len(df):,} wine records")
     except FileNotFoundError:
         raise FileNotFoundError(f"CSV file '{csv_filename}' not found.")
     def parse_list_string(s):
+        if not isinstance(s, str) or not s.strip():
+            return []
         try:
+            # Fast path for common patterns
+            s = s.strip()
+            if s.startswith('[') and s.endswith(']'):
+                return ast.literal_eval(s)
+            return []
         except (ValueError, SyntaxError):
             return []
+    # Vectorized string processing for better performance
+    df['grapes_list'] = df['Grapes'].fillna('[]').apply(parse_list_string)
+    df['harmonize_list'] = df['Harmonize'].fillna('[]').apply(parse_list_string)
     df['main_grape'] = df['grapes_list'].apply(lambda x: x[0] if x else 'Unknown')
     df['num_grapes'] = df['grapes_list'].apply(len)
     df['body_numeric'] = df['Body'].map(BODY_MAPPING)
 # --- OPTIMIZATION 2: Vectorized Data Aggregation ---
+def get_top_food_pairings(harmonize_list, top_n=3):
+    """Get top N food pairings with emojis and names - optimized version."""
+    # Flatten list more efficiently
+    all_pairings = []
+    for sublist in harmonize_list:
+        if isinstance(sublist, list):
+            all_pairings.extend(sublist)
     if not all_pairings:
         return {'emojis': '🍽️', 'names': 'General'}
     if agg_df.empty:
         return agg_df
+    # Optimized distribution calculation
+    def calc_distribution(values_list, categories):
+        if not values_list:
+            return {cat: 0.0 for cat in categories}
+        counts = pd.Series(values_list).value_counts(normalize=True) * 100
+        return {cat: counts.get(cat, 0.0) for cat in categories}
     agg_df['body_dist'] = agg_df['body_list'].apply(
+        lambda x: calc_distribution(x, BODY_ORDER))
     agg_df['acid_dist'] = agg_df['acidity_list'].apply(
+        lambda x: calc_distribution(x, ACIDITY_ORDER))
+    # Pre-compute food pairings more efficiently
+    pairing_data = []
+    for harmonize_list in agg_df['harmonize_list']:
+        pairing_data.append(get_top_food_pairings(harmonize_list))
+    agg_df['pairing_data'] = pairing_data
     agg_df['pairing_emoji'] = agg_df['pairing_data'].apply(lambda x: x['emojis'])
     agg_df['pairing_names'] = agg_df['pairing_data'].apply(lambda x: x['names'])
     agg_df['wine_type_order'] = agg_df['Type'].map(WINE_TYPE_ORDER)