Spaces:

Eric2mangel
/

Feature_selection

Sleeping

App Files Files Community

Eric2mangel commited on Dec 18, 2025

Commit

ae39dfb

verified ·

1 Parent(s): f59bf48

Update app.py

Browse files

Files changed (1) hide show

app.py +153 -122

app.py CHANGED Viewed

@@ -101,11 +101,22 @@ with st.sidebar:
         # Vérification que X n'est pas vide après suppression de la cible
         if len(X.columns) == 0:
             st.warning("⚠️ Aucune variable disponible après sélection de la cible.")
-            st.stop()
-        task = "Regression" if (y.dtype.kind in "ifu" and y.nunique() > 10) else "Classification"
-        excluded_features = st.multiselect("Variables à exclure :", X.columns.tolist(), default=[])
-        X = X.drop(columns=excluded_features)
     else:
         st.info("👈 Veuillez sélectionner ou importer un jeu de données.")
         X = None
@@ -115,7 +126,7 @@ with st.sidebar:
 # ------------------------------------------------------------
 # Onglets
 # ------------------------------------------------------------
-if df is not None and X is not None:
     tab1, tab2, tab3 = st.tabs(["📊 Analyse d'Importance", "📋 Données Brutes", "🔧 Types"])
     with tab2:
@@ -144,130 +155,150 @@ if df is not None and X is not None:
     # ------------------------------------------------------------
     with tab1:
         if len(X.columns) > 0:
-            num_cols = X.select_dtypes(include=[np.number]).columns.tolist()
-            cat_cols = X.select_dtypes(exclude=[np.number]).columns.tolist()
-            # Vérification qu'il y a au moins une variable
-            if len(num_cols) == 0 and len(cat_cols) == 0:
-                st.warning("⚠️ Aucune variable disponible pour l'analyse. Veuillez ne pas tout exclure.")
-                st.stop()
-            # Construction du préprocesseur seulement avec les colonnes qui existent
-            transformers = []
-            if num_cols:
-                transformers.append(("num", StandardScaler(), num_cols))
-            if cat_cols:
-                transformers.append(("cat", OneHotEncoder(drop="first", handle_unknown="ignore", sparse_output=False), cat_cols))
-            if not transformers:
-                st.warning("⚠️ Aucune colonne à traiter.")
-                st.stop()
-            preprocess = ColumnTransformer(transformers=transformers)
-            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)
-            # Vérification qu'il y a assez de données pour le split
-            if len(X_train) == 0 or len(X_test) == 0:
-                st.error("❌ Pas assez de données pour créer les ensembles d'entraînement et de test.")
-                st.info(f"Données disponibles : {len(X)} lignes. Minimum requis : 2 lignes.")
-                st.stop()
-            X_train_proc = preprocess.fit_transform(X_train)
-            # Vérification que les données transformées ne sont pas vides
-            if X_train_proc.shape[0] == 0 or X_train_proc.shape[1] == 0:
-                st.error("❌ Erreur : Les données transformées sont vides.")
-                st.info(f"Shape après transformation : {X_train_proc.shape}")
-                st.info(f"Variables numériques : {num_cols}")
-                st.info(f"Variables catégorielles : {cat_cols}")
-                st.stop()
-            feature_names = preprocess.get_feature_names_out()
-            model = LinearRegression() if task == "Regression" else LogisticRegression(max_iter=1000)
-            model.fit(X_train_proc, y_train)
-            y_pred = model.predict(preprocess.transform(X_test))
-            perf = r2_score(y_test, y_pred) if task == "Regression" else accuracy_score(y_test, y_pred)
-            st.subheader("📊 Pertinence marginale vs conditionnelle")
-            st.markdown(f"**🎯 Performance globale : {perf:.2f} ({'R²' if task == 'Regression' else 'Précision'})**")
-            # Métriques
-            mi = mutual_info_regression(X_train_proc, y_train, random_state=0) if task == "Regression" else mutual_info_classif(X_train_proc, y_train, random_state=0)
-            coefs = model.coef_.ravel() if task == "Regression" else model.coef_[0]
-            res = pd.DataFrame({
-                "Variable": feature_names,
-                "Importance seule (MI)": mi,
-                "Poids dans le Modèle": np.abs(coefs),
-                "Sens": np.where(coefs > 0, "+", "-")
-            })
-            if task == "Regression":
-                res["Lien Direct (Corr)"] = [pearsonr(X_train_proc[:, i], y_train)[0] for i in range(len(feature_names))]
-            # Normalisation pour Score Synthétique
-            def normalize(s): return (s - s.min()) / (s.max() - s.min() + 1e-10)
-            mi_n = normalize(res["Importance seule (MI)"])
-            poids_n = normalize(res["Poids dans le Modèle"])
-            if task == "Regression":
-                corr_n = normalize(res["Lien Direct (Corr)"].abs())
-                res["Score synthétique"] = ((mi_n + corr_n) / 2 + poids_n) / 2
-            else:
-                res["Score synthétique"] = (mi_n + poids_n) / 2
-            res = res.sort_values("Score synthétique", ascending=False)
-            # Réorganisation des colonnes
-            cols = ["Variable", "Score synthétique", "Importance seule (MI)", "Poids dans le Modèle", "Sens"]
-            if task == "Regression":
-                cols = ["Variable", "Score synthétique", "Importance seule (MI)", "Lien Direct (Corr)", "Poids dans le Modèle", "Sens"]
-            final_df = res[cols].copy()
-            # --- STYLISATION ET AFFICHAGE ---
-            # 1. Préparation du style pour la colonne Sens (couleurs)
-            def style_sign(val):
-                color = 'color: #2ecc71;' if val == '+' else 'color: #e74c3c;'
-                return f'{color} font-weight: bold; font-size: 20px;'
-            # 2. Application du formatage (2 décimales) et des gradients
-            num_cols_to_style = [c for c in cols if c not in ["Variable", "Sens", "Score synthétique"]]
-            styled_res = (final_df.style
-                .format({c: "{:.2f}" for c in cols if c not in ["Variable", "Sens"]})
-                .background_gradient(subset=num_cols_to_style, cmap="RdYlGn")
-                .map(style_sign, subset=['Sens'])
-            )
-            # 3. Affichage avec st.data_editor pour fixer la hauteur (6 lignes env = 250px)
-            st.data_editor(
-                styled_res,
-                use_container_width=True,
-                height=250, # Limite la hauteur avec scrollbar
-                hide_index=True,
-                disabled=True, # Empêche l'édition, agit comme un dataframe
-                column_config={
-                    "Sens": st.column_config.Column(
-                        "Sens",
-                        help="Direction de l'influence",
-                        width="small"
-                    )
-                }
-            )
-            st.subheader("📖 Guide de lecture")
-            st.markdown(
-                        """
-            - **Score synthétique** : Note globale d'importance.
-            - **Importance seule (MI)** : Mesure la dépendance globale entre la variable et la cible. Contrairement à la corrélation qui ne voit que les lignes droites, l'Information Mutuelle détecte toutes les formes de relations (courbes, motifs complexes, etc.). Elle indique quelle quantité d'information "pure" cette variable partage avec la cible, sans tenir compte des autres variables.
-            - **Poids dans le modèle** : Contribution finale au modèle.
-            - **Sens (+) / (-)** : Direction de l'impact sur la cible.
-                        """
-                    )
         else:
             st.info("ℹ️ Veuillez sélectionner au moins une variable.")
 else:

         # Vérification que X n'est pas vide après suppression de la cible
         if len(X.columns) == 0:
             st.warning("⚠️ Aucune variable disponible après sélection de la cible.")
+            X = None
+            y = None
+            task = None
+        else:
+            task = "Regression" if (y.dtype.kind in "ifu" and y.nunique() > 10) else "Classification"
+            excluded_features = st.multiselect("Variables à exclure :", X.columns.tolist(), default=[])
+            if excluded_features:
+                X = X.drop(columns=excluded_features)
+            # Vérification après exclusion
+            if len(X.columns) == 0:
+                st.error("❌ Vous avez exclu toutes les variables ! Veuillez en garder au moins une.")
+                X = None
+                y = None
+                task = None
     else:
         st.info("👈 Veuillez sélectionner ou importer un jeu de données.")
         X = None
 # ------------------------------------------------------------
 # Onglets
 # ------------------------------------------------------------
+if df is not None and X is not None and len(X.columns) > 0:
     tab1, tab2, tab3 = st.tabs(["📊 Analyse d'Importance", "📋 Données Brutes", "🔧 Types"])
     with tab2:
     # ------------------------------------------------------------
     with tab1:
         if len(X.columns) > 0:
+            try:
+                num_cols = X.select_dtypes(include=[np.number]).columns.tolist()
+                cat_cols = X.select_dtypes(exclude=[np.number]).columns.tolist()
+                # Vérification qu'il y a au moins une variable
+                if len(num_cols) == 0 and len(cat_cols) == 0:
+                    st.warning("⚠️ Aucune variable disponible pour l'analyse. Veuillez ne pas tout exclure.")
+                    st.stop()
+                # Construction du préprocesseur seulement avec les colonnes qui existent
+                transformers = []
+                if num_cols:
+                    transformers.append(("num", StandardScaler(), num_cols))
+                if cat_cols:
+                    transformers.append(("cat", OneHotEncoder(drop="first", handle_unknown="ignore", sparse_output=False), cat_cols))
+                if not transformers:
+                    st.warning("⚠️ Aucune colonne à traiter.")
+                    st.stop()
+                preprocess = ColumnTransformer(transformers=transformers)
+                X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)
+                # Vérification qu'il y a assez de données pour le split
+                if len(X_train) == 0 or len(X_test) == 0:
+                    st.error("❌ Pas assez de données pour créer les ensembles d'entraînement et de test.")
+                    st.info(f"Données disponibles : {len(X)} lignes. Minimum requis : 2 lignes.")
+                    st.stop()
+                X_train_proc = preprocess.fit_transform(X_train)
+                # Vérification que les données transformées ne sont pas vides
+                if X_train_proc.shape[0] == 0 or X_train_proc.shape[1] == 0:
+                    st.error("❌ Erreur : Les données transformées sont vides.")
+                    st.info(f"Shape après transformation : {X_train_proc.shape}")
+                    st.info(f"Variables numériques : {num_cols}")
+                    st.info(f"Variables catégorielles : {cat_cols}")
+                    st.stop()
+                feature_names = preprocess.get_feature_names_out()
+                model = LinearRegression() if task == "Regression" else LogisticRegression(max_iter=1000)
+                model.fit(X_train_proc, y_train)
+                y_pred = model.predict(preprocess.transform(X_test))
+                perf = r2_score(y_test, y_pred) if task == "Regression" else accuracy_score(y_test, y_pred)
+                st.subheader("📊 Pertinence marginale vs conditionnelle")
+                st.markdown(f"**🎯 Performance globale : {perf:.2f} ({'R²' if task == 'Regression' else 'Précision'})**")
+                # Métriques
+                mi = mutual_info_regression(X_train_proc, y_train, random_state=0) if task == "Regression" else mutual_info_classif(X_train_proc, y_train, random_state=0)
+                coefs = model.coef_.ravel() if task == "Regression" else model.coef_[0]
+                res = pd.DataFrame({
+                    "Variable": feature_names,
+                    "Importance seule (MI)": mi,
+                    "Poids dans le Modèle": np.abs(coefs),
+                    "Sens": np.where(coefs > 0, "+", "-")
+                })
+                if task == "Regression":
+                    res["Lien Direct (Corr)"] = [pearsonr(X_train_proc[:, i], y_train)[0] for i in range(len(feature_names))]
+                # Normalisation pour Score Synthétique
+                def normalize(s): return (s - s.min()) / (s.max() - s.min() + 1e-10)
+                mi_n = normalize(res["Importance seule (MI)"])
+                poids_n = normalize(res["Poids dans le Modèle"])
+                if task == "Regression":
+                    corr_n = normalize(res["Lien Direct (Corr)"].abs())
+                    res["Score synthétique"] = ((mi_n + corr_n) / 2 + poids_n) / 2
+                else:
+                    res["Score synthétique"] = (mi_n + poids_n) / 2
+                res = res.sort_values("Score synthétique", ascending=False)
+                # Réorganisation des colonnes
+                cols = ["Variable", "Score synthétique", "Importance seule (MI)", "Poids dans le Modèle", "Sens"]
+                if task == "Regression":
+                    cols = ["Variable", "Score synthétique", "Importance seule (MI)", "Lien Direct (Corr)", "Poids dans le Modèle", "Sens"]
+                final_df = res[cols].copy()
+                # --- STYLISATION ET AFFICHAGE ---
+                # 1. Préparation du style pour la colonne Sens (couleurs)
+                def style_sign(val):
+                    color = 'color: #2ecc71;' if val == '+' else 'color: #e74c3c;'
+                    return f'{color} font-weight: bold; font-size: 20px;'
+                # 2. Application du formatage (2 décimales) et des gradients
+                num_cols_to_style = [c for c in cols if c not in ["Variable", "Sens", "Score synthétique"]]
+                styled_res = (final_df.style
+                    .format({c: "{:.2f}" for c in cols if c not in ["Variable", "Sens"]})
+                    .background_gradient(subset=num_cols_to_style, cmap="RdYlGn")
+                    .map(style_sign, subset=['Sens'])
+                )
+                # 3. Affichage avec st.data_editor pour fixer la hauteur (6 lignes env = 250px)
+                st.data_editor(
+                    styled_res,
+                    use_container_width=True,
+                    height=250, # Limite la hauteur avec scrollbar
+                    hide_index=True,
+                    disabled=True, # Empêche l'édition, agit comme un dataframe
+                    column_config={
+                        "Sens": st.column_config.Column(
+                            "Sens",
+                            help="Direction de l'influence",
+                            width="small"
+                        )
+                    }
+                )
+                st.subheader("📖 Guide de lecture")
+                st.markdown(
+                            """
+                - **Score synthétique** : Note globale d'importance.
+                - **Importance seule (MI)** : Mesure la dépendance globale entre la variable et la cible. Contrairement à la corrélation qui ne voit que les lignes droites, l'Information Mutuelle détecte toutes les formes de relations (courbes, motifs complexes, etc.). Elle indique quelle quantité d'information "pure" cette variable partage avec la cible, sans tenir compte des autres variables.
+                - **Poids dans le modèle** : Contribution finale au modèle.
+                - **Sens (+) / (-)** : Direction de l'impact sur la cible.
+                            """
+                        )
+            except ValueError as e:
+                if "Found array with 0 sample(s)" in str(e) or "shape=(0," in str(e):
+                    st.error("❌ Erreur d'analyse : données insuffisantes ou incompatibles")
+                    st.warning("⚠️ Vérifiez que :")
+                    st.markdown("""
+                    - Vous n'avez pas exclu toutes les variables
+                    - La variable cible choisie est appropriée (elle ne doit pas être identique à une variable prédictive)
+                    - Il reste suffisamment de données après nettoyage
+                    - Les variables ont suffisamment de variance
+                    """)
+                else:
+                    st.error(f"❌ Erreur : {str(e)}")
+            except Exception as e:
+                st.error(f"❌ Une erreur s'est produite lors de l'analyse")
+                st.warning(f"Détails : {str(e)}")
+                st.info("💡 Essayez de changer de variable cible ou de variables prédictives.")
         else:
             st.info("ℹ️ Veuillez sélectionner au moins une variable.")
 else: