Spaces:

XPMaster
/

clustering_ed

Build error

App Files Files Community

XPMaster commited on Aug 23, 2023

Commit

e43973a

1 Parent(s): 62b26f7

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -17

app.py CHANGED Viewed

@@ -177,39 +177,50 @@ with tab1:
     ##### Clustering with K-Means is a machine learning concept like tidying a messy room by grouping similar items, but for data instead of physical objects.
     """)
-    # Apply PCA for dimensionality reduction
-    pca = PCA(n_components=2)
-    X_pca = pca.fit_transform(X)
-    user_features_pca = pca.transform([user_features])[0]
     # K-Means Algorithm
     kmeans = KMeans(n_clusters=n_clusters_advanced)
-    y_kmeans = kmeans.fit_predict(X_pca)
-    # Predict the cluster for the user input in the PCA-transformed space
-    predicted_cluster = kmeans.predict([user_features_pca])
     # Create a DataFrame for easier plotting with plotly
-    df_pca = pd.DataFrame(X_pca, columns=['PCA1', 'PCA2'])
-    df_pca['cluster'] = y_kmeans
     # For tab1
     fig = go.Figure()
     # Add shaded regions using convex hull
     for cluster in np.unique(y_kmeans):
-        cluster_data = df_pca[df_pca['cluster'] == cluster]
-        x_data = cluster_data['PCA1'].values
-        y_data = cluster_data['PCA2'].values
         if len(cluster_data) > 2:  # ConvexHull requires at least 3 points
-            hull = ConvexHull(cluster_data[['PCA1', 'PCA2']])
             fig.add_trace(go.Scatter(x=x_data[hull.vertices], y=y_data[hull.vertices], fill='toself', fillcolor=px.colors.qualitative.Set1[cluster], opacity=0.5, line=dict(width=0), showlegend=False))
     # Add scatter plot
-    fig.add_trace(go.Scatter(x=df_pca['PCA1'], y=df_pca['PCA2'], mode='markers', marker=dict(color=y_kmeans, colorscale=px.colors.qualitative.Set1), showlegend=False))
     # Add user input as a star marker
-    fig.add_trace(go.Scatter(x=[user_features_pca[0]], y=[user_features_pca[1]], mode='markers', marker=dict(symbol='star', size=30, color='white')))
     # Add centroids with group numbers
     for i, coord in enumerate(kmeans.cluster_centers_):
@@ -231,8 +242,8 @@ with tab1:
     st.plotly_chart(fig)
     # Predict Cluster for User Input
-    dist_to_group1 = distance.euclidean(user_features_pca, kmeans.cluster_centers_[0])
-    dist_to_group2 = distance.euclidean(user_features_pca, kmeans.cluster_centers_[1])
     st.write(f"Distance to Group 1 centroid: {dist_to_group1}")
     st.write(f"Distance to Group 2 centroid: {dist_to_group2}")
@@ -245,6 +256,7 @@ with tab1:
     ##### Just as sorting toys in a room, we group flowers by features; adjust the data to pick a flower and set how many boxes (groups) you want to use.
     """)
 with tab2:
     st.write("""
     ## Advanced Overview of Clustering

     ##### Clustering with K-Means is a machine learning concept like tidying a messy room by grouping similar items, but for data instead of physical objects.
     """)
+    # Option to toggle PCA
+    use_pca = st.checkbox('Use PCA for Visualization', value=True)
+    if use_pca:
+        st.write("""
+        ##### 🧠 PCA (Principal Component Analysis) is like looking at a messy room from the best angle to see the most mess. It helps us see our data more clearly!
+        """)
+        # Apply PCA for dimensionality reduction
+        pca = PCA(n_components=2)
+        X_transformed = pca.fit_transform(X)
+        user_features_transformed = pca.transform([user_features])[0]
+    else:
+        X_transformed = X[:, :2]  # Just use the first two features for visualization
+        user_features_transformed = user_features[:2]
     # K-Means Algorithm
     kmeans = KMeans(n_clusters=n_clusters_advanced)
+    y_kmeans = kmeans.fit_predict(X_transformed)
+    # Predict the cluster for the user input in the transformed space
+    predicted_cluster = kmeans.predict([user_features_transformed])
     # Create a DataFrame for easier plotting with plotly
+    df_transformed = pd.DataFrame(X_transformed, columns=['Feature1', 'Feature2'])
+    df_transformed['cluster'] = y_kmeans
     # For tab1
     fig = go.Figure()
     # Add shaded regions using convex hull
     for cluster in np.unique(y_kmeans):
+        cluster_data = df_transformed[df_transformed['cluster'] == cluster]
+        x_data = cluster_data['Feature1'].values
+        y_data = cluster_data['Feature2'].values
         if len(cluster_data) > 2:  # ConvexHull requires at least 3 points
+            hull = ConvexHull(cluster_data[['Feature1', 'Feature2']])
             fig.add_trace(go.Scatter(x=x_data[hull.vertices], y=y_data[hull.vertices], fill='toself', fillcolor=px.colors.qualitative.Set1[cluster], opacity=0.5, line=dict(width=0), showlegend=False))
     # Add scatter plot
+    fig.add_trace(go.Scatter(x=df_transformed['Feature1'], y=df_transformed['Feature2'], mode='markers', marker=dict(color=y_kmeans, colorscale=px.colors.qualitative.Set1), showlegend=False))
     # Add user input as a star marker
+    fig.add_trace(go.Scatter(x=[user_features_transformed[0]], y=[user_features_transformed[1]], mode='markers', marker=dict(symbol='star', size=30, color='white')))
     # Add centroids with group numbers
     for i, coord in enumerate(kmeans.cluster_centers_):
     st.plotly_chart(fig)
     # Predict Cluster for User Input
+    dist_to_group1 = distance.euclidean(user_features_transformed, kmeans.cluster_centers_[0])
+    dist_to_group2 = distance.euclidean(user_features_transformed, kmeans.cluster_centers_[1])
     st.write(f"Distance to Group 1 centroid: {dist_to_group1}")
     st.write(f"Distance to Group 2 centroid: {dist_to_group2}")
     ##### Just as sorting toys in a room, we group flowers by features; adjust the data to pick a flower and set how many boxes (groups) you want to use.
     """)
 with tab2:
     st.write("""
     ## Advanced Overview of Clustering