Spaces:

TFI
/

K-Means_Clustering_Algorithm

Sleeping

App Files Files Community

tanish78 commited on Jul 17, 2024

Commit

90eec1e

verified ·

1 Parent(s): ee4d135

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -13

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import gradio as gr
 import pandas as pd
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.cluster import KMeans
-from sklearn.metrics import silhouette_score, silhouette_samples, davies_bouldin_score
 import matplotlib.pyplot as plt
 from sklearn.decomposition import PCA
 import re
@@ -10,17 +10,12 @@ from io import BytesIO
 import tempfile
 import numpy as np
 from PIL import Image
-from nltk.stem import WordNetLemmatizer
-from sklearn.preprocessing import normalize
 def preprocess_data(df):
     df.rename(columns={'Question Asked': 'texts'}, inplace=True)
     df['texts'] = df['texts'].astype(str)
     df['texts'] = df['texts'].str.lower()
     df['texts'] = df['texts'].apply(lambda text: re.sub(r'https?://\S+|www\.\S+', '', text))
-    lemmatizer = WordNetLemmatizer()
-    df['texts'] = df['texts'].apply(lambda text: ' '.join([lemmatizer.lemmatize(word) for word in text.split()]))
     def remove_emoji(string):
         emoji_pattern = re.compile("["
@@ -116,9 +111,8 @@ def preprocess_data(df):
     return df
 def cluster_data(df, num_clusters):
-    vectorizer = TfidfVectorizer(stop_words='english', ngram_range=(1, 2), max_df=0.85, min_df=2)
     X = vectorizer.fit_transform(df['texts'])
-    X = normalize(X)
     kmeans = KMeans(n_clusters=num_clusters, random_state=0)
     kmeans.fit(X)
@@ -205,17 +199,15 @@ def main(file, num_clusters_to_display):
         silhouette_avg = silhouette_score(X, kmeans.labels_)
         silhouette_plot = silhouette_analysis(X, kmeans.labels_, num_clusters=15)
-        davies_bouldin = davies_bouldin_score(X, kmeans.labels_)
         # Convert silhouette score to percentage
         silhouette_percentage = (silhouette_avg + 1) * 50
         with tempfile.NamedTemporaryFile(delete=False, suffix=".csv") as tmpfile:
             df.to_csv(tmpfile.name, index=False)
-            return tmpfile.name, silhouette_percentage, davies_bouldin, cluster_plot, silhouette_plot
     except Exception as e:
         print(f"Error: {e}")
-        return str(e), None, None, None, None
 interface = gr.Interface(
     fn=main,
@@ -226,7 +218,6 @@ interface = gr.Interface(
     outputs=[
         gr.File(label="Clustered Data CSV"),
         gr.Number(label="Clustering Quality (%)"),
-        gr.Number(label="Davies-Bouldin Index"),
         gr.Image(label="Cluster Plot"),
         gr.Image(label="Silhouette Plot")
     ],

 import pandas as pd
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.cluster import KMeans
+from sklearn.metrics import silhouette_score, silhouette_samples
 import matplotlib.pyplot as plt
 from sklearn.decomposition import PCA
 import re
 import tempfile
 import numpy as np
 from PIL import Image
 def preprocess_data(df):
     df.rename(columns={'Question Asked': 'texts'}, inplace=True)
     df['texts'] = df['texts'].astype(str)
     df['texts'] = df['texts'].str.lower()
     df['texts'] = df['texts'].apply(lambda text: re.sub(r'https?://\S+|www\.\S+', '', text))
     def remove_emoji(string):
         emoji_pattern = re.compile("["
     return df
 def cluster_data(df, num_clusters):
+    vectorizer = TfidfVectorizer(stop_words='english')
     X = vectorizer.fit_transform(df['texts'])
     kmeans = KMeans(n_clusters=num_clusters, random_state=0)
     kmeans.fit(X)
         silhouette_avg = silhouette_score(X, kmeans.labels_)
         silhouette_plot = silhouette_analysis(X, kmeans.labels_, num_clusters=15)
         # Convert silhouette score to percentage
         silhouette_percentage = (silhouette_avg + 1) * 50
         with tempfile.NamedTemporaryFile(delete=False, suffix=".csv") as tmpfile:
             df.to_csv(tmpfile.name, index=False)
+            return tmpfile.name, silhouette_percentage, cluster_plot, silhouette_plot
     except Exception as e:
         print(f"Error: {e}")
+        return str(e), None, None, None
 interface = gr.Interface(
     fn=main,
     outputs=[
         gr.File(label="Clustered Data CSV"),
         gr.Number(label="Clustering Quality (%)"),
         gr.Image(label="Cluster Plot"),
         gr.Image(label="Silhouette Plot")
     ],