Spaces:

Eric2mangel
/

Feature_selection

Sleeping

App Files Files Community

Eric2mangel commited on Dec 18, 2025

Commit

25f5b6f

verified ·

1 Parent(s): 1cc6897

Update app.py

Browse files

Problème d'import des csv mal remplis

Files changed (1) hide show

app.py +41 -1

app.py CHANGED Viewed

@@ -50,8 +50,32 @@ with st.sidebar:
         if uploaded_file is not None:
             try:
                 df = pd.read_csv(uploaded_file, sep=None, engine='python')
                 df = df.dropna()
-                st.success("✅ Fichier CSV chargé !")
             except Exception as e:
                 st.error(f"Erreur : {e}")
                 df = None
@@ -74,6 +98,11 @@ with st.sidebar:
         y = df[target]
         X = df.drop(columns=[target])
         task = "Regression" if (y.dtype.kind in "ifu" and y.nunique() > 10) else "Classification"
         excluded_features = st.multiselect("Variables à exclure :", X.columns.tolist(), default=[])
         X = X.drop(columns=excluded_features)
@@ -118,6 +147,11 @@ if df is not None and X is not None:
             num_cols = X.select_dtypes(include=[np.number]).columns.tolist()
             cat_cols = X.select_dtypes(exclude=[np.number]).columns.tolist()
             preprocess = ColumnTransformer(transformers=[
                 ("num", StandardScaler(), num_cols),
                 ("cat", OneHotEncoder(drop="first", handle_unknown="ignore", sparse_output=False), cat_cols)
@@ -125,6 +159,12 @@ if df is not None and X is not None:
             X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)
             X_train_proc = preprocess.fit_transform(X_train)
             feature_names = preprocess.get_feature_names_out()
             model = LinearRegression() if task == "Regression" else LogisticRegression(max_iter=1000)

         if uploaded_file is not None:
             try:
                 df = pd.read_csv(uploaded_file, sep=None, engine='python')
+                # Seuil de valeurs manquantes (configurable)
+                missing_threshold = st.slider(
+                    "Seuil max de valeurs manquantes (%)",
+                    min_value=0,
+                    max_value=100,
+                    value=50,
+                    help="Les colonnes avec plus de X% de valeurs manquantes seront supprimées"
+                )
+                # Calcul du pourcentage de valeurs manquantes par colonne
+                missing_pct = (df.isnull().sum() / len(df)) * 100
+                cols_to_drop = missing_pct[missing_pct > missing_threshold].index.tolist()
+                if cols_to_drop:
+                    st.info(f"ℹ️ {len(cols_to_drop)} colonne(s) supprimée(s) (>{missing_threshold}% manquantes) : {', '.join(cols_to_drop)}")
+                    df = df.drop(columns=cols_to_drop)
+                # Suppression des lignes avec valeurs manquantes restantes
                 df = df.dropna()
+                if len(df) == 0:
+                    st.error("❌ Aucune donnée après nettoyage. Essayez d'augmenter le seuil de valeurs manquantes.")
+                    df = None
+                else:
+                    st.success(f"✅ Fichier CSV chargé ! ({len(df)} lignes, {len(df.columns)} colonnes)")
             except Exception as e:
                 st.error(f"Erreur : {e}")
                 df = None
         y = df[target]
         X = df.drop(columns=[target])
+        # Vérification que X n'est pas vide après suppression de la cible
+        if len(X.columns) == 0:
+            st.warning("⚠️ Aucune variable disponible après sélection de la cible.")
+            st.stop()
         task = "Regression" if (y.dtype.kind in "ifu" and y.nunique() > 10) else "Classification"
         excluded_features = st.multiselect("Variables à exclure :", X.columns.tolist(), default=[])
         X = X.drop(columns=excluded_features)
             num_cols = X.select_dtypes(include=[np.number]).columns.tolist()
             cat_cols = X.select_dtypes(exclude=[np.number]).columns.tolist()
+            # Vérification qu'il y a au moins une variable
+            if len(num_cols) == 0 and len(cat_cols) == 0:
+                st.warning("⚠️ Aucune variable disponible pour l'analyse. Veuillez ne pas tout exclure.")
+                st.stop()
             preprocess = ColumnTransformer(transformers=[
                 ("num", StandardScaler(), num_cols),
                 ("cat", OneHotEncoder(drop="first", handle_unknown="ignore", sparse_output=False), cat_cols)
             X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, random_state=RANDOM_STATE)
             X_train_proc = preprocess.fit_transform(X_train)
+            # Vérification que les données transformées ne sont pas vides
+            if X_train_proc.shape[0] == 0 or X_train_proc.shape[1] == 0:
+                st.error("❌ Erreur : Les données transformées sont vides. Vérifiez votre fichier CSV.")
+                st.stop()
             feature_names = preprocess.get_feature_names_out()
             model = LinearRegression() if task == "Regression" else LogisticRegression(max_iter=1000)