Spaces:

de-Rodrigo
/

Embeddings

Running

App Files Files Community

de-Rodrigo commited on Sep 4, 2025

Commit

f5f7066

1 Parent(s): d967697

Integrate Rescale in a Pipeline

Browse files

Files changed (1) hide show

app.py +17 -13

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ from sklearn.decomposition import PCA
 from sklearn.manifold import TSNE, trustworthiness
 from sklearn.metrics import pairwise_distances
 from sklearn.preprocessing import MinMaxScaler
 import io
 import ot
 from sklearn.linear_model import LinearRegression
@@ -450,15 +451,16 @@ def calculate_cluster_centers(df, labels):
 def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, reduction_method="t-SNE", distance_metric="wasserstein"):
     if reduction_method == "PCA":
-        reducer = PCA(n_components=N_COMPONENTS)
     else:
         reducer = TSNE(n_components=2, random_state=42,
                          perplexity=tsne_params["perplexity"],
                          learning_rate=tsne_params["learning_rate"])
     reduced = reducer.fit_transform(df_combined[embedding_cols].values)
-    scaler = MinMaxScaler(feature_range=(-1, 1))
-    reduced = scaler.fit_transform(reduced)
     # Guardamos el embedding completo (por ejemplo, 4 dimensiones en PCA)
     df_combined['embedding'] = list(reduced)
     # Si el embedding es 2D, asignamos x e y para visualización
@@ -468,7 +470,7 @@ def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, r
     explained_variance = None
     if reduction_method == "PCA":
-        explained_variance = reducer.explained_variance_ratio_
     trust = None
     cont = None
@@ -791,17 +793,19 @@ def run_model(model_name):
         # -------------------------------------------------------------------------
         # 1. PCA sobre las muestras reales
         df_real_only = embeddings["real"].copy()
-        pca_real = PCA(n_components=N_COMPONENTS)
-        reduced_real = pca_real.fit_transform(df_real_only[embedding_cols].values)
-        scaler_real = MinMaxScaler(feature_range=(-1, 1))
-        reduced_real = scaler_real.fit_transform(reduced_real)
         # Agregar columnas PC1, PC2, … a df_real_only
         for i in range(reduced_real.shape[1]):
             df_real_only[f'PC{i+1}'] = reduced_real[:, i]
-        explained_variance_real = pca_real.explained_variance_ratio_
         unique_labels_real = sorted(df_real_only['label'].unique().tolist())
         # Mapeo de colores para las muestras reales usando la paleta Reds9
@@ -824,7 +828,7 @@ def run_model(model_name):
         # Mostrar los plots de loadings para cada componente
         st.subheader("PCA - Real: Component Loadings")
         st.markdown("### Pesos de las Componentes Principales (Loadings) - Conjunto Combinado")
-        for i, comp in enumerate(pca_real.components_):
             source = ColumnDataSource(data=dict(
                 dimensions=embedding_cols,
                 weight=comp
@@ -855,7 +859,7 @@ def run_model(model_name):
         df_all = {}
         # Real
         df_real_proj = embeddings["real"].copy()
-        proj_real = pca_real.transform(df_real_proj[embedding_cols].values)
         for i in range(proj_real.shape[1]):
             df_real_proj[f'PC{i+1}'] = proj_real[:, i]
         df_all["real"] = df_real_proj
@@ -863,7 +867,7 @@ def run_model(model_name):
         # Synthetic
         if "synthetic" in embeddings:
             df_synth_proj = embeddings["synthetic"].copy()
-            proj_synth = pca_real.transform(df_synth_proj[embedding_cols].values)
             for i in range(proj_synth.shape[1]):
                 df_synth_proj[f'PC{i+1}'] = proj_synth[:, i]
             df_all["synthetic"] = df_synth_proj
@@ -871,7 +875,7 @@ def run_model(model_name):
         # Pretrained
         if "pretrained" in embeddings:
             df_pretr_proj = embeddings["pretrained"].copy()
-            proj_pretr = pca_real.transform(df_pretr_proj[embedding_cols].values)
             for i in range(proj_pretr.shape[1]):
                 df_pretr_proj[f'PC{i+1}'] = proj_pretr[:, i]
             df_all["pretrained"] = df_pretr_proj

 from sklearn.manifold import TSNE, trustworthiness
 from sklearn.metrics import pairwise_distances
 from sklearn.preprocessing import MinMaxScaler
+from sklearn.pipeline import Pipeline
 import io
 import ot
 from sklearn.linear_model import LinearRegression
 def compute_global_regression(df_combined, embedding_cols, tsne_params, df_f1, reduction_method="t-SNE", distance_metric="wasserstein"):
     if reduction_method == "PCA":
+        reducer = Pipeline([
+            ("pca", PCA(n_components=N_COMPONENTS)),
+            ("scaler", MinMaxScaler(feature_range=(-1, 1)))
+        ])
     else:
         reducer = TSNE(n_components=2, random_state=42,
                          perplexity=tsne_params["perplexity"],
                          learning_rate=tsne_params["learning_rate"])
     reduced = reducer.fit_transform(df_combined[embedding_cols].values)
     # Guardamos el embedding completo (por ejemplo, 4 dimensiones en PCA)
     df_combined['embedding'] = list(reduced)
     # Si el embedding es 2D, asignamos x e y para visualización
     explained_variance = None
     if reduction_method == "PCA":
+        explained_variance = reducer.named_steps["pca"].explained_variance_ratio_
     trust = None
     cont = None
         # -------------------------------------------------------------------------
         # 1. PCA sobre las muestras reales
         df_real_only = embeddings["real"].copy()
+        reducer_real = Pipeline([
+            ("pca", PCA(n_components=N_COMPONENTS)),
+            ("scaler", MinMaxScaler(feature_range=(-1, 1)))
+        ])
+        reduced_real = reducer_real.fit_transform(df_real_only[embedding_cols].values)
         # Agregar columnas PC1, PC2, … a df_real_only
         for i in range(reduced_real.shape[1]):
             df_real_only[f'PC{i+1}'] = reduced_real[:, i]
+        explained_variance_real = reducer_real.named_steps["pca"].explained_variance_ratio_
         unique_labels_real = sorted(df_real_only['label'].unique().tolist())
         # Mapeo de colores para las muestras reales usando la paleta Reds9
         # Mostrar los plots de loadings para cada componente
         st.subheader("PCA - Real: Component Loadings")
         st.markdown("### Pesos de las Componentes Principales (Loadings) - Conjunto Combinado")
+        for i, comp in enumerate(reducer_real.named_steps["pca"].components_):
             source = ColumnDataSource(data=dict(
                 dimensions=embedding_cols,
                 weight=comp
         df_all = {}
         # Real
         df_real_proj = embeddings["real"].copy()
+        proj_real = reducer_real.named_steps["pca"].transform(df_real_proj[embedding_cols].values)
         for i in range(proj_real.shape[1]):
             df_real_proj[f'PC{i+1}'] = proj_real[:, i]
         df_all["real"] = df_real_proj
         # Synthetic
         if "synthetic" in embeddings:
             df_synth_proj = embeddings["synthetic"].copy()
+            proj_synth = reducer_real.named_steps["pca"].transform(df_synth_proj[embedding_cols].values)
             for i in range(proj_synth.shape[1]):
                 df_synth_proj[f'PC{i+1}'] = proj_synth[:, i]
             df_all["synthetic"] = df_synth_proj
         # Pretrained
         if "pretrained" in embeddings:
             df_pretr_proj = embeddings["pretrained"].copy()
+            proj_pretr = reducer_real.named_steps["pca"].transform(df_pretr_proj[embedding_cols].values)
             for i in range(proj_pretr.shape[1]):
                 df_pretr_proj[f'PC{i+1}'] = proj_pretr[:, i]
             df_all["pretrained"] = df_pretr_proj