Spaces:

TFI
/

K-Means_Clustering_Algorithm

Sleeping

tanish78 commited on Jul 11, 2024

Commit

904a011

verified ·

1 Parent(s): 5d93751

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -108,8 +108,7 @@ def preprocess_data(df):
     return df
 def cluster_data(df):
-    # Set the number of clusters here
-    num_clusters = 5
     vectorizer = TfidfVectorizer(stop_words='english')
     X = vectorizer.fit_transform(df['texts'])
@@ -139,7 +138,12 @@ def main(file):
         df = preprocess_data(df)
         df = cluster_data(df)
         visualize_clusters(df)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".csv") as tmpfile:
             df.to_csv(tmpfile.name, index=False)
             return tmpfile.name

     return df
 def cluster_data(df):
+    num_clusters = 15  # Set the number of clusters to 15
     vectorizer = TfidfVectorizer(stop_words='english')
     X = vectorizer.fit_transform(df['texts'])
         df = preprocess_data(df)
         df = cluster_data(df)
         visualize_clusters(df)
+        cluster_sizes = df['Cluster'].value_counts()
+        sorted_clusters = cluster_sizes.index.tolist()
+        df['Cluster'] = pd.Categorical(df['Cluster'], categories=sorted_clusters, ordered=True)
+        df = df.sort_values('Cluster')
         with tempfile.NamedTemporaryFile(delete=False, suffix=".csv") as tmpfile:
             df.to_csv(tmpfile.name, index=False)
             return tmpfile.name