Spaces:

TFI
/

K-Means_Clustering_Algorithm

Sleeping

tanish78 commited on Jul 17, 2024

Commit

52378d9

verified ·

1 Parent(s): 1c0a2ab

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -108,7 +108,7 @@ def preprocess_data(df):
     return df
 def cluster_data(df):
-    num_clusters = 15 # Set the number of clusters
     vectorizer = TfidfVectorizer(stop_words='english')
     X = vectorizer.fit_transform(df['texts'])
@@ -145,11 +145,10 @@ def main(file, num_clusters_to_display):
         cluster_sizes = df['Cluster'].value_counts()
         sorted_clusters = cluster_sizes.index.tolist()
-        df['Cluster'] = pd.Categorical(df['Cluster'], categories=sorted_clusters, ordered=True)
-        df = df.sort_values('Cluster')
-        # Filter out base cluster and get the largest clusters
-        filtered_clusters = [cluster for cluster in sorted_clusters if cluster != 10]
         top_clusters = filtered_clusters[:num_clusters_to_display]
         df = df[df['Cluster'].isin(top_clusters)]

     return df
 def cluster_data(df):
+    num_clusters = 15  # Set the number of clusters
     vectorizer = TfidfVectorizer(stop_words='english')
     X = vectorizer.fit_transform(df['texts'])
         cluster_sizes = df['Cluster'].value_counts()
         sorted_clusters = cluster_sizes.index.tolist()
+        # Exclude the largest cluster
+        largest_cluster = sorted_clusters[0]
+        filtered_clusters = [cluster for cluster in sorted_clusters if cluster != largest_cluster]
         top_clusters = filtered_clusters[:num_clusters_to_display]
         df = df[df['Cluster'].isin(top_clusters)]