Spaces:

TFI
/

K-Means_Clustering_Algorithm

Sleeping

App Files Files Community

tanish78 commited on Jul 17, 2024

Commit

ee4d135

verified ·

1 Parent(s): 2e20c8e

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -29

app.py CHANGED Viewed

@@ -177,25 +177,7 @@ def silhouette_analysis(X, labels, num_clusters):
     img = Image.open(buf)
     return img
-def find_optimal_clusters(X, max_clusters):
-    silhouette_scores = []
-    davies_bouldin_scores = []
-    for n_clusters in range(2, max_clusters + 1):
-        kmeans = KMeans(n_clusters=n_clusters, random_state=0)
-        labels = kmeans.fit_predict(X)
-        silhouette_avg = silhouette_score(X, labels)
-        davies_bouldin = davies_bouldin_score(X, labels)
-        silhouette_scores.append(silhouette_avg)
-        davies_bouldin_scores.append(davies_bouldin)
-        print(f"Clusters: {n_clusters}, Silhouette Score: {silhouette_avg}, Davies-Bouldin Index: {davies_bouldin}")
-    optimal_clusters = np.argmax(silhouette_scores) + 2
-    return optimal_clusters, silhouette_scores, davies_bouldin_scores
-def main(file, max_clusters_to_display):
     try:
         df = pd.read_csv(file)
@@ -203,13 +185,7 @@ def main(file, max_clusters_to_display):
         df = df[(df['Answer'] == 'Fallback Message shown')]
         df = preprocess_data(df)
-        vectorizer = TfidfVectorizer(stop_words='english', ngram_range=(1, 2), max_df=0.85, min_df=2)
-        X = vectorizer.fit_transform(df['texts'])
-        X = normalize(X)
-        optimal_clusters, silhouette_scores, davies_bouldin_scores = find_optimal_clusters(X, max_clusters_to_display)
-        df, X, kmeans = cluster_data(df, num_clusters=optimal_clusters)
         cluster_plot = visualize_clusters(df)
@@ -220,14 +196,14 @@ def main(file, max_clusters_to_display):
         # Filter out the largest cluster and get the next largest clusters
         largest_cluster = sorted_clusters[0]
-        filtered_clusters = sorted_clusters[1:max_clusters_to_display+1]
         df = df[df['Cluster'].isin(filtered_clusters)]
         df['Cluster'] = pd.Categorical(df['Cluster'], categories=filtered_clusters, ordered=True)
         df = df.sort_values('Cluster')
         silhouette_avg = silhouette_score(X, kmeans.labels_)
-        silhouette_plot = silhouette_analysis(X, kmeans.labels_, num_clusters=optimal_clusters)
         davies_bouldin = davies_bouldin_score(X, kmeans.labels_)
@@ -245,7 +221,7 @@ interface = gr.Interface(
     fn=main,
     inputs=[
         gr.File(label="Upload CSV File (.csv)"),
-        gr.Slider(label="Max Clusters to Display", minimum=2, maximum=50, step=1, value=10)
     ],
     outputs=[
         gr.File(label="Clustered Data CSV"),

     img = Image.open(buf)
     return img
+def main(file, num_clusters_to_display):
     try:
         df = pd.read_csv(file)
         df = df[(df['Answer'] == 'Fallback Message shown')]
         df = preprocess_data(df)
+        df, X, kmeans = cluster_data(df, num_clusters=15)
         cluster_plot = visualize_clusters(df)
         # Filter out the largest cluster and get the next largest clusters
         largest_cluster = sorted_clusters[0]
+        filtered_clusters = sorted_clusters[1:num_clusters_to_display+1]
         df = df[df['Cluster'].isin(filtered_clusters)]
         df['Cluster'] = pd.Categorical(df['Cluster'], categories=filtered_clusters, ordered=True)
         df = df.sort_values('Cluster')
         silhouette_avg = silhouette_score(X, kmeans.labels_)
+        silhouette_plot = silhouette_analysis(X, kmeans.labels_, num_clusters=15)
         davies_bouldin = davies_bouldin_score(X, kmeans.labels_)
     fn=main,
     inputs=[
         gr.File(label="Upload CSV File (.csv)"),
+        gr.Slider(label="Number of Categories to Display", minimum=1, maximum=10, step=1, value=5)
     ],
     outputs=[
         gr.File(label="Clustered Data CSV"),