Spaces:

TFI
/

K-Means_Clustering_Algorithm

Sleeping

App Files Files Community

tanish78 commited on Jul 13, 2024

Commit

a5e7123

verified ·

1 Parent(s): 162880f

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -16

app.py CHANGED Viewed

@@ -7,13 +7,8 @@ from sklearn.decomposition import PCA
 import re
 from io import BytesIO
 import tempfile
-from datetime import datetime
 def preprocess_data(df):
-    # Filter based on the 'Answer' column and the date
-    df = df[(df['Answer'] == 'Fallback Message shown') & (pd.to_datetime(df['Date'], dayfirst=True) > datetime(2024, 7, 1))]
-    # Rename and preprocess the 'Question Asked' column
     df.rename(columns={'Question Asked': 'texts'}, inplace=True)
     df['texts'] = df['texts'].astype(str)
     df['texts'] = df['texts'].str.lower()
@@ -21,17 +16,17 @@ def preprocess_data(df):
     def remove_emoji(string):
         emoji_pattern = re.compile("["
-                               u"\U0001F600-\U0001F64F"  # emoticons
-                               u"\U0001F300-\U0001F5FF"  # symbols & pictographs
-                               u"\U0001F680-\U0001F6FF"  # transport & map symbols
-                               u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                                u"\U00002702-\U000027B0"
                                u"\U000024C2-\U0001F251"
                                "]+", flags=re.UNICODE)
-        return emoji_pattern.sub(r'', string)
     df['texts'] = df['texts'].apply(remove_emoji)
     custom_synonyms = {
         'application': ['form'],
         'apply': ['fill', 'applied'],
@@ -139,7 +134,11 @@ def visualize_clusters(df):
 def main(file, num_clusters_to_display):
     try:
-        df = pd.read_csv(file.name)
         df = preprocess_data(df)
         df = cluster_data(df)
         visualize_clusters(df)
@@ -153,7 +152,7 @@ def main(file, num_clusters_to_display):
         filtered_clusters = [cluster for cluster in sorted_clusters if cluster != 0]
         top_clusters = filtered_clusters[:num_clusters_to_display]
-        df = df[df['texts'].isin(top_clusters)]
         df['Cluster'] = pd.Categorical(df['Cluster'], categories=top_clusters, ordered=True)
         df = df.sort_values('Cluster')
@@ -167,11 +166,11 @@ interface = gr.Interface(
     fn=main,
     inputs=[
         gr.File(label="Upload CSV File (.csv)"),
-        gr.Slider(1, 10, step=1, label="Number of Categories to Display")
     ],
     outputs=gr.File(label="Clustered Data CSV"),
     title="Unanswered User Queries Clustering",
-    description="Upload a CSV file (.csv) and select the number of largest clusters to display (excluding cluster 0)"
 )
-interface.launch()

 import re
 from io import BytesIO
 import tempfile
 def preprocess_data(df):
     df.rename(columns={'Question Asked': 'texts'}, inplace=True)
     df['texts'] = df['texts'].astype(str)
     df['texts'] = df['texts'].str.lower()
     def remove_emoji(string):
         emoji_pattern = re.compile("["
+                               u"\U0001F600-\U0001F64F"
+                               u"\U0001F300-\U0001F5FF"
+                               u"\U0001F680-\U0001F6FF"
+                               u"\U0001F1E0-\U0001F1FF"
                                u"\U00002702-\U000027B0"
                                u"\U000024C2-\U0001F251"
                                "]+", flags=re.UNICODE)
+        return emoji_pattern.sub(r'', string) if isinstance(string, str) else string
     df['texts'] = df['texts'].apply(remove_emoji)
     custom_synonyms = {
         'application': ['form'],
         'apply': ['fill', 'applied'],
 def main(file, num_clusters_to_display):
     try:
+        df = pd.read_csv(file)
+        # Filter by 'Fallback Message shown' and date after '01/07/24'
+        df = df[(df['Answer'] == 'Fallback Message shown') & (pd.to_datetime(df['Date and Time']) > '2024-07-01')]
         df = preprocess_data(df)
         df = cluster_data(df)
         visualize_clusters(df)
         filtered_clusters = [cluster for cluster in sorted_clusters if cluster != 0]
         top_clusters = filtered_clusters[:num_clusters_to_display]
+        df = df[df['Cluster'].isin(top_clusters)]
         df['Cluster'] = pd.Categorical(df['Cluster'], categories=top_clusters, ordered=True)
         df = df.sort_values('Cluster')
     fn=main,
     inputs=[
         gr.File(label="Upload CSV File (.csv)"),
+        gr.Slider(label="Number of Categories to Display", minimum=1, maximum=20, step=1, value=5)
     ],
     outputs=gr.File(label="Clustered Data CSV"),
     title="Unanswered User Queries Clustering",
+    description="Upload a CSV file (.csv) and select the number of largest clusters to display (excluding cluster 0)."
 )
+interface.launch(share=True)