Spaces:

de-Rodrigo
/

Embeddings

Sleeping

de-Rodrigo commited on Oct 23

Commit

d419a1f

1 Parent(s): c47c05d

Improve Silhouette Computation

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from bokeh.palettes import Reds9, Blues9, Oranges9, Purples9, Greys9, BuGn9, Gre
 from sklearn.decomposition import PCA
 from sklearn.manifold import TSNE, trustworthiness
 from sklearn.metrics import pairwise_distances, silhouette_score
 from sklearn.preprocessing import MinMaxScaler
 from sklearn.pipeline import Pipeline
 from sklearn.base import BaseEstimator, TransformerMixin
@@ -578,11 +579,18 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
     trust = None
     cont = None
     silhouette = None
     if reduction_method in ("t-SNE","PCA"):
         X = df_combined[embedding_cols].values
         trust = trustworthiness(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
         cont = compute_continuity(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
-        silhouette = silhouette_score(reduced, df_combined['label'])
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)

 from sklearn.decomposition import PCA
 from sklearn.manifold import TSNE, trustworthiness
 from sklearn.metrics import pairwise_distances, silhouette_score
+from sklearn.cluster import DBSCAN
 from sklearn.preprocessing import MinMaxScaler
 from sklearn.pipeline import Pipeline
 from sklearn.base import BaseEstimator, TransformerMixin
     trust = None
     cont = None
     silhouette = None
     if reduction_method in ("t-SNE","PCA"):
         X = df_combined[embedding_cols].values
         trust = trustworthiness(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
         cont = compute_continuity(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
+        silhouette_clustering = DBSCAN(eps=0.5, min_samples=7).fit(reduced)
+        silhouette_labels = silhouette_clustering.labels_
+        if len(set(silhouette_labels)) > 1:
+            silhouette = silhouette_score(reduced, silhouette_labels)
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)