Spaces:

TFI
/

K-Means_Clustering_Algorithm

Sleeping

App Files Files Community

tanish78 commited on Jul 19, 2024

Commit

66d546b

verified ·

1 Parent(s): e68783d

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -3

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ from io import BytesIO
 import tempfile
 from wordcloud import WordCloud, STOPWORDS
 import matplotlib.pyplot as plt
 from PIL import Image
 def preprocess_data(df):
@@ -99,6 +100,26 @@ def generate_wordcloud(df):
     img = Image.open(buf)
     return img
 def main(file, num_clusters_to_display):
     try:
         df = pd.read_csv(file)
@@ -122,15 +143,16 @@ def main(file, num_clusters_to_display):
         df = df.sort_values('Cluster')
         wordcloud_img = generate_wordcloud(df)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".csv") as tmpfile:
             df.to_csv(tmpfile.name, index=False)
             csv_file_path = tmpfile.name
-        return csv_file_path, wordcloud_img
     except Exception as e:
         print(f"Error: {e}")
-        return str(e), None
 interface = gr.Interface(
     fn=main,
@@ -140,7 +162,8 @@ interface = gr.Interface(
     ],
     outputs=[
         gr.File(label="Clustered Data CSV"),
-        gr.Image(label="Word Cloud")
     ],
     title="Unanswered User Queries Clustering",
     description="Unanswered User Query Categorization"

 import tempfile
 from wordcloud import WordCloud, STOPWORDS
 import matplotlib.pyplot as plt
+import plotly.express as px
 from PIL import Image
 def preprocess_data(df):
     img = Image.open(buf)
     return img
+def generate_bar_chart(df, num_clusters_to_display):
+    top_clusters = df['Cluster'].value_counts().index[1:num_clusters_to_display+1]
+    df_top_clusters = df[df['Cluster'].isin(top_clusters)]
+    cluster_top_words = df_top_clusters.groupby('Cluster')['texts'].apply(lambda x: ' '.join(x)).reset_index()
+    cluster_top_words['top_word'] = cluster_top_words['texts'].apply(lambda x: pd.Series(x.split()).value_counts().index[0])
+    cluster_sizes = df_top_clusters['Cluster'].value_counts().reset_index()
+    cluster_sizes.columns = ['Cluster', 'Count']
+    cluster_sizes = cluster_sizes.merge(cluster_top_words[['Cluster', 'top_word']], on='Cluster')
+    fig = px.bar(cluster_sizes, x='Cluster', y='Count', text='top_word', title='Top Clusters by Frequency with Top Word/Phrase')
+    fig.update_traces(textposition='outside')
+    fig.update_layout(xaxis_title='Cluster', yaxis_title='Frequency', showlegend=False)
+    buf = BytesIO()
+    fig.write_image(buf, format='png')
+    buf.seek(0)
+    img = Image.open(buf)
+    return img
 def main(file, num_clusters_to_display):
     try:
         df = pd.read_csv(file)
         df = df.sort_values('Cluster')
         wordcloud_img = generate_wordcloud(df)
+        bar_chart_img = generate_bar_chart(df, num_clusters_to_display)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".csv") as tmpfile:
             df.to_csv(tmpfile.name, index=False)
             csv_file_path = tmpfile.name
+        return csv_file_path, wordcloud_img, bar_chart_img
     except Exception as e:
         print(f"Error: {e}")
+        return str(e), None, None
 interface = gr.Interface(
     fn=main,
     ],
     outputs=[
         gr.File(label="Clustered Data CSV"),
+        gr.Image(label="Word Cloud"),
+        gr.Image(label="Bar Chart")
     ],
     title="Unanswered User Queries Clustering",
     description="Unanswered User Query Categorization"