Spaces:

de-Rodrigo
/

Embeddings

Sleeping

App Files Files Community

de-Rodrigo commited on Oct 23

Commit

2a17f9e

1 Parent(s): fe0bf0b

Test

Browse files

Files changed (1) hide show

app.py +15 -14

app.py CHANGED Viewed

@@ -564,7 +564,8 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
                          perplexity=tsne_params["perplexity"],
                          learning_rate=tsne_params["learning_rate"])
-    reduced = reducer.fit_transform(df_combined[embedding_cols].values)
     # Guardamos el embedding completo (por ejemplo, 4 dimensiones en PCA)
     df_combined['embedding'] = list(reduced)
     # Si el embedding es 2D, asignamos x e y para visualización
@@ -580,10 +581,10 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
     cont = None
     silhouette = None
-    # if reduction_method in ("t-SNE","PCA"):
-    #     X = df_combined[embedding_cols].values
-    #     trust = trustworthiness(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
-    #     cont = compute_continuity(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
     #     silhouette_clustering = DBSCAN(eps=0.1, min_samples=15).fit(reduced)
     #     silhouette_labels = silhouette_clustering.labels_
@@ -594,16 +595,16 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
     #     else:
     #         silhouette = -1
-    df_heat = pd.read_csv(f"data/heatmaps_donut.csv")
-    feature_options = [col for col in df_heat.columns if col != "name"]
-    silhouette_vals = []
-    for feature in feature_options:
-        labels = df_heat[feature].values
-        silhouette = silhouette_score(reduced, labels)
-        silhouette_vals.append(silhouette)
-    silhouette = np.mean(silhouette_vals)
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)

                          perplexity=tsne_params["perplexity"],
                          learning_rate=tsne_params["learning_rate"])
+    # reduced = reducer.fit_transform(df_combined[embedding_cols].values)
+    reduced = reducer.fit_transform(df_combined[df_combined["version"] == "real"][embedding_cols].values)
     # Guardamos el embedding completo (por ejemplo, 4 dimensiones en PCA)
     df_combined['embedding'] = list(reduced)
     # Si el embedding es 2D, asignamos x e y para visualización
     cont = None
     silhouette = None
+    if reduction_method in ("t-SNE","PCA"):
+        X = df_combined[embedding_cols].values
+        trust = trustworthiness(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
+        cont = compute_continuity(X, reduced, n_neighbors=TSNE_NEIGHBOURS)
     #     silhouette_clustering = DBSCAN(eps=0.1, min_samples=15).fit(reduced)
     #     silhouette_labels = silhouette_clustering.labels_
     #     else:
     #         silhouette = -1
+        df_heat = pd.read_csv(f"data/heatmaps_donut.csv")
+        feature_options = [col for col in df_heat.columns if col != "name"]
+        silhouette_vals = []
+        for feature in feature_options:
+            labels = df_heat[feature].values
+            silhouette = silhouette_score(reduced, labels)
+            silhouette_vals.append(silhouette)
+        silhouette = np.mean(silhouette_vals)
     dfs_reduced, unique_subsets = split_versions(df_combined, reduced)