Spaces:

JuanAcevedo
/

Find_clinet

Sleeping

App Files Files Community

Juan Acevedo commited on Sep 17, 2025

Commit

e39b21b

1 Parent(s): 7b1e84b

add

Browse files

Files changed (1) hide show

app.py +134 -2

app.py CHANGED Viewed

@@ -28,6 +28,115 @@ df_viz['Cluster'] = cluster_predictions
 X_scaled = pipeline.named_steps['scaler'].transform(df_features)
 X_pca = pipeline.named_steps['pca'].transform(X_scaled)
 def create_cluster_plot():
     """Crear el gráfico de scatter de los clusters"""
     plt.figure(figsize=(10, 6))
@@ -66,7 +175,8 @@ def get_cluster_summary(selected_cluster):
     for var in important_vars:
         if var in cluster_data.columns:
             mean_val = cluster_data[var].mean()
-            summary_data.append([var, round(mean_val, 2)])
     return pd.DataFrame(summary_data, columns=['Variable', 'Promedio'])
@@ -117,7 +227,24 @@ def predict_new_customer(customer_id, year_birth, income, kidhome, teenhome, rec
     # Predecir cluster (el pipeline maneja internamente el scaling y PCA)
     predicted_cluster = pipeline.predict(new_customer)[0]
-    return f"🎯 El cliente ID {customer_id} pertenece al **Cluster {predicted_cluster}**"
 def update_cluster_info(selected_cluster):
     """Actualizar información cuando se selecciona un cluster"""
@@ -142,6 +269,11 @@ with gr.Blocks(title="Customer Personality Analysis", theme=gr.themes.Soft()) as
     El modelo utiliza **K-Means con PCA** para segmentar clientes en 2 grupos basándose en sus patrones de compra y comportamiento.
     """)
     with gr.Row():
         with gr.Column():
             # Gráfico de clusters

 X_scaled = pipeline.named_steps['scaler'].transform(df_features)
 X_pca = pipeline.named_steps['pca'].transform(X_scaled)
+# Diccionario para traducir variables
+VARIABLE_NAMES = {
+    'Year_Birth': 'Año de Nacimiento',
+    'Income': 'Ingresos (log)',
+    'Kidhome': 'Niños en Casa',
+    'Teenhome': 'Adolescentes en Casa',
+    'Recency': 'Días desde Última Compra',
+    'MntWines': 'Gastos en Vinos (log)',
+    'MntFruits': 'Gastos en Frutas (log)',
+    'MntMeatProducts': 'Gastos en Carnes (log)',
+    'MntFishProducts': 'Gastos en Pescados (log)',
+    'MntSweetProducts': 'Gastos en Dulces (log)',
+    'MntGoldProds': 'Gastos en Productos Premium (log)',
+    'NumWebPurchases': 'Compras Web',
+    'NumCatalogPurchases': 'Compras por Catálogo',
+    'NumStorePurchases': 'Compras en Tienda',
+    'NumWebVisitsMonth': 'Visitas Web por Mes'
+}
+def analyze_clusters():
+    """Analizar y describir las características de cada cluster"""
+    cluster_descriptions = {}
+    for cluster in [0, 1]:
+        cluster_data = df_viz[df_viz['Cluster'] == cluster]
+        # Calcular promedios de variables clave
+        avg_income = np.exp(cluster_data['Income'].mean()) - 1  # Deshacer log1p
+        avg_wines = np.exp(cluster_data['MntWines'].mean()) - 1
+        avg_meat = np.exp(cluster_data['MntMeatProducts'].mean()) - 1
+        avg_gold = np.exp(cluster_data['MntGoldProds'].mean()) - 1
+        avg_web_purchases = cluster_data['NumWebPurchases'].mean()
+        avg_store_purchases = cluster_data['NumStorePurchases'].mean()
+        avg_kids = cluster_data['Kidhome'].mean()
+        avg_teens = cluster_data['Teenhome'].mean()
+        cluster_descriptions[cluster] = {
+            'avg_income': avg_income,
+            'avg_wines': avg_wines,
+            'avg_meat': avg_meat,
+            'avg_gold': avg_gold,
+            'avg_web': avg_web_purchases,
+            'avg_store': avg_store_purchases,
+            'avg_kids': avg_kids,
+            'avg_teens': avg_teens,
+            'count': len(cluster_data)
+        }
+    return cluster_descriptions
+def get_cluster_interpretation():
+    """Generar interpretación de los clusters"""
+    cluster_info = analyze_clusters()
+    interpretation = """
+    ## 🧠 Interpretación de los Clusters
+    Basándose en el análisis de los datos, nuestro modelo ha identificado dos segmentos principales de clientes:
+    """
+    for cluster in [0, 1]:
+        info = cluster_info[cluster]
+        # Determinar el perfil del cluster
+        if info['avg_income'] > 50000:
+            income_level = "ingresos altos"
+        elif info['avg_income'] > 30000:
+            income_level = "ingresos medios"
+        else:
+            income_level = "ingresos bajos"
+        if info['avg_wines'] > 200:
+            wine_spending = "alto gasto en vinos"
+        elif info['avg_wines'] > 50:
+            wine_spending = "gasto moderado en vinos"
+        else:
+            wine_spending = "bajo gasto en vinos"
+        if info['avg_web'] > info['avg_store']:
+            channel_pref = "prefieren compras online"
+        else:
+            channel_pref = "prefieren compras en tienda física"
+        family_status = ""
+        if info['avg_kids'] + info['avg_teens'] > 1:
+            family_status = "con familias más grandes"
+        elif info['avg_kids'] + info['avg_teens'] > 0.5:
+            family_status = "con hijos"
+        else:
+            family_status = "sin hijos o familias pequeñas"
+        interpretation += f"""
+        ### 🎯 **Cluster {cluster}** ({info['count']} clientes)
+        **Perfil:** Clientes con {income_level}, {wine_spending}, {family_status} y que {channel_pref}.
+        **Características principales:**
+        - 💰 Ingresos promedio: ${info['avg_income']:,.0f}
+        - 🍷 Gasto en vinos: ${info['avg_wines']:.0f}
+        - 🥩 Gasto en carnes: ${info['avg_meat']:.0f}
+        - ✨ Productos premium: ${info['avg_gold']:.0f}
+        - 🛒 Compras web: {info['avg_web']:.1f} | Tienda: {info['avg_store']:.1f}
+        - 👶 Niños: {info['avg_kids']:.1f} | Adolescentes: {info['avg_teens']:.1f}
+        """
+    return interpretation
 def create_cluster_plot():
     """Crear el gráfico de scatter de los clusters"""
     plt.figure(figsize=(10, 6))
     for var in important_vars:
         if var in cluster_data.columns:
             mean_val = cluster_data[var].mean()
+            var_name = VARIABLE_NAMES.get(var, var)
+            summary_data.append([var_name, round(mean_val, 2)])
     return pd.DataFrame(summary_data, columns=['Variable', 'Promedio'])
     # Predecir cluster (el pipeline maneja internamente el scaling y PCA)
     predicted_cluster = pipeline.predict(new_customer)[0]
+    # Obtener descripción del cluster
+    cluster_info = analyze_clusters()
+    info = cluster_info[predicted_cluster]
+    result = f"""
+    ## 🎯 Resultado de la Predicción
+    **El cliente ID {customer_id} pertenece al Cluster {predicted_cluster}**
+    ### 📊 Características del Cluster {predicted_cluster}:
+    - 👥 Total de clientes similares: {info['count']}
+    - 💰 Ingresos promedio del grupo: ${info['avg_income']:,.0f}
+    - 🍷 Gasto promedio en vinos: ${info['avg_wines']:.0f}
+    - 🥩 Gasto promedio en carnes: ${info['avg_meat']:.0f}
+    - 🛒 Compras web vs tienda: {info['avg_web']:.1f} vs {info['avg_store']:.1f}
+    """
+    return result
 def update_cluster_info(selected_cluster):
     """Actualizar información cuando se selecciona un cluster"""
     El modelo utiliza **K-Means con PCA** para segmentar clientes en 2 grupos basándose en sus patrones de compra y comportamiento.
     """)
+    # Agregar interpretación de clusters
+    gr.Markdown(get_cluster_interpretation())
+    gr.Markdown("---")
     with gr.Row():
         with gr.Column():
             # Gráfico de clusters