Spaces:

berangerthomas
/

shadowlog

Running

App Files Files Community

Cyr-CK commited on Mar 10, 2025

Commit

b3ce1b2

1 Parent(s): 617e380

Corrected "counts" related error

Browse files

Files changed (2) hide show

sections/analytics.py +13 -7
sections/statistics.py +2 -2

sections/analytics.py CHANGED Viewed

@@ -22,10 +22,10 @@ data = st.session_state.parsed_df
 data = data.select(["portdest","protocole","regle1","status"])
 # Sélectionner toutes les colonnes numériques
-quanti = data.select(pl.col(pl.String))
 # Sélectionner toutes les colonnes de type chaîne
-quali = data.select(pl.col(pl.Int64))
 ##############################################
 ####            Preprocessing             ####
@@ -37,18 +37,23 @@ scaler = StandardScaler()
 data_quanti = scaler.fit_transform(quanti.to_pandas())
 # Convertir de nouveau en DataFrame Polars
-data_quanti = pl.from_pandas(pd.DataFrame(data_quanti, columns=data_quanti.columns))
 # Encodage one-hot des données quali
-encoder = OneHotEncoder()
 data_quali = encoder.fit_transform(quali.to_pandas())
-# Convertir de nouveau en DataFrame Polars
-data_quali = pl.from_pandas(pd.DataFrame(data_quali, columns=data_quali.columns))
-df = pl.concat([data_quanti, data_quali], how="diagonal")
 ###############################################
 ####              Clustering               ####
@@ -62,6 +67,7 @@ if st.button("Start clustering"):
                 k_optimal = 2  # Par exemple, supposons que k = 3
                 kmeans = KMeans(n_clusters=k_optimal, random_state=42)
                 df = df.with_columns(pl.Series(kmeans.fit_predict(df.to_pandas()), name='cluster_kmeans'))
                 # Appliquer DBSCAN (epsilon et min_samples sont des hyperparamètres)
                 # dbscan = DBSCAN(eps=0.5, min_samples=10)

 data = data.select(["portdest","protocole","regle1","status"])
 # Sélectionner toutes les colonnes numériques
+quanti = data.select(pl.col(pl.Int64))
 # Sélectionner toutes les colonnes de type chaîne
+quali = data.select(pl.col(pl.String))
 ##############################################
 ####            Preprocessing             ####
 data_quanti = scaler.fit_transform(quanti.to_pandas())
 # Convertir de nouveau en DataFrame Polars
+data_quanti = pl.from_pandas(pd.DataFrame(data_quanti, columns=quanti.columns))
 # Encodage one-hot des données quali
+encoder = OneHotEncoder(sparse_output=False)
 data_quali = encoder.fit_transform(quali.to_pandas())
+col_names = [
+    f"{feature}_{category}"
+    for feature, categories in zip(quali.columns, encoder.categories_)
+    for category in categories
+]
+# Convertir de nouveau en DataFrame Polars
+data_quali = pl.from_pandas(pd.DataFrame(data_quali, columns=col_names))
+df = pl.concat([data_quanti, data_quali], how="horizontal")
 ###############################################
 ####              Clustering               ####
                 k_optimal = 2  # Par exemple, supposons que k = 3
                 kmeans = KMeans(n_clusters=k_optimal, random_state=42)
                 df = df.with_columns(pl.Series(kmeans.fit_predict(df.to_pandas()), name='cluster_kmeans'))
+                st.write(df[:10])
                 # Appliquer DBSCAN (epsilon et min_samples sont des hyperparamètres)
                 # dbscan = DBSCAN(eps=0.5, min_samples=10)

sections/statistics.py CHANGED Viewed

@@ -191,7 +191,7 @@ with stat_tab3:
                     if unique_count <= 20:
                         st.write(
                             df.select(pl.col(col).value_counts().struct.unnest()).sort(
-                                "counts", descending=True
                             )
                         )
                     else:
@@ -203,7 +203,7 @@ with stat_tab3:
                                 .value_counts()
                                 .struct.unnest()  # Déstructure la struct ici
                             )
-                            .sort("counts", descending=True)
                             .head(10)
                         )

                     if unique_count <= 20:
                         st.write(
                             df.select(pl.col(col).value_counts().struct.unnest()).sort(
+                                "count", descending=True
                             )
                         )
                     else:
                                 .value_counts()
                                 .struct.unnest()  # Déstructure la struct ici
                             )
+                            .sort("count", descending=True)
                             .head(10)
                         )