Spaces:

de-Rodrigo
/

Embeddings

Sleeping

de-Rodrigo commited on Oct 23

Commit

86538a4

1 Parent(s): 7536013

Try Silhouette Based on Features

Files changed (1) hide show

app.py CHANGED Viewed

@@ -580,21 +580,30 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
     cont = None
     silhouette = None
-    if reduction_method in ("t-SNE","PCA"):
-        X = df_combined[embedding_cols].values
-        trust = trustworthiness(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
-        cont = compute_continuity(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
-        silhouette_clustering = DBSCAN(eps=0.1, min_samples=15).fit(reduced)
-        silhouette_labels = silhouette_clustering.labels_
-        print("Silhouette labels:", silhouette_labels)
-        if len(set(silhouette_labels)) > 1:
-            silhouette = silhouette_score(reduced, silhouette_labels)
-        else:
-            silhouette = -1
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)
     df_distances = compute_cluster_distances_synthetic_individual(

     cont = None
     silhouette = None
+    # if reduction_method in ("t-SNE","PCA"):
+    #     X = df_combined[embedding_cols].values
+    #     trust = trustworthiness(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
+    #     cont = compute_continuity(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
+    #     silhouette_clustering = DBSCAN(eps=0.1, min_samples=15).fit(reduced)
+    #     silhouette_labels = silhouette_clustering.labels_
+    #     print("Silhouette labels:", silhouette_labels)
+    #     if len(set(silhouette_labels)) > 1:
+    #         silhouette = silhouette_score(reduced, silhouette_labels)
+    #     else:
+    #         silhouette = -1
+    df_heat = pd.read_csv(f"data/heatmaps_donut.csv")
+    feature_options = [col for col in df_heat.columns if col != "name"]
+    silhouette_vals = []
+    for feature in feature_options:
+        silhouette = silhouette_score(reduced, feature)
+        silhouette_vals.append(silhouette)
+    silhouette = np.mean(silhouette_vals)
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)
     df_distances = compute_cluster_distances_synthetic_individual(