Spaces:

de-Rodrigo
/

Embeddings

Sleeping

App Files Files Community

de-Rodrigo commited on Mar 20, 2025

Commit

a685ec6

1 Parent(s): 76f3be3

Selector to Include Pretrained Datasets

Browse files

Files changed (1) hide show

app.py +17 -14

app.py CHANGED Viewed

@@ -537,7 +537,7 @@ def optimize_tsne_params(df_combined, embedding_cols, df_f1, distance_metric):
 def run_model(model_name):
     version = st.selectbox("Select Model Version:", options=["vanilla", "finetuned_real"], key=f"version_{model_name}")
-    # Nuevo selector para el cómputo del embedding
     embedding_computation = st.selectbox("¿Cómo se computa el embedding?", options=["weighted", "averaged"], key=f"embedding_method_{model_name}")
     # Se asigna el prefijo correspondiente
     prefijo_embedding = "weighted_" if embedding_computation == "weighted" else "averaged_"
@@ -545,7 +545,16 @@ def run_model(model_name):
     embeddings = load_embeddings(model_name, version, prefijo_embedding)
     if embeddings is None:
         return
     embedding_cols = [col for col in embeddings["real"].columns if col.startswith("dim_")]
     df_combined = pd.concat(list(embeddings.values()), ignore_index=True)
     try:
@@ -611,36 +620,30 @@ def run_model(model_name):
         st.write(f"Trustworthiness: {result['trustworthiness']:.4f}")
         st.write(f"Continuity: {result['continuity']:.4f}")
     if reduction_method == "PCA" and result.get("pca_model") is not None:
         pca_model = result["pca_model"]
         components = pca_model.components_  # Shape: (n_components, n_features)
         st.subheader("Pesos de las Componentes Principales (Loadings)")
-        # Para cada componente principal, se crea un plot de barras
         for i, comp in enumerate(components):
-            # Fuente de datos con nombres de dimensiones y pesos
             source = ColumnDataSource(data=dict(
-                dimensions=embedding_cols,  # Ej: ["dim_0", "dim_1", "dim_2", ...]
                 weight=comp
             ))
-            # Definir la figura usando el rango en x, pero ocultamos las etiquetas del eje
             p = figure(x_range=embedding_cols, title=f"Componente Principal {i+1}",
-                    plot_height=400, plot_width=600,
-                    toolbar_location=None, tools="")
             p.vbar(x='dimensions', top='weight', width=0.8, source=source)
-            # Ocultar las etiquetas del eje x para que el plot quede más limpio
             p.xaxis.major_label_text_font_size = '0pt'
-            # Agregar HoverTool para que al pasar el mouse se muestren los datos
             hover = HoverTool(tooltips=[("Dimensión", "@dimensions"), ("Peso", "@weight")])
             p.add_tools(hover)
-            # Opcionalmente, puedes seguir definiendo las etiquetas de los ejes (aunque en x no se mostrarán)
             p.xaxis.axis_label = "Dimensiones originales"
             p.yaxis.axis_label = "Peso"
             st.bokeh_chart(p)
     data_table, df_table, source_table = create_table(result["df_distances"])
     real_subset_names = list(df_table.columns[1:])

 def run_model(model_name):
     version = st.selectbox("Select Model Version:", options=["vanilla", "finetuned_real"], key=f"version_{model_name}")
+    # Selector para el método de cómputo del embedding
     embedding_computation = st.selectbox("¿Cómo se computa el embedding?", options=["weighted", "averaged"], key=f"embedding_method_{model_name}")
     # Se asigna el prefijo correspondiente
     prefijo_embedding = "weighted_" if embedding_computation == "weighted" else "averaged_"
     embeddings = load_embeddings(model_name, version, prefijo_embedding)
     if embeddings is None:
         return
+    # Nuevo selector para incluir o excluir el dataset pretrained
+    include_pretrained = st.checkbox("Incluir dataset pretrained", value=True)
+    if not include_pretrained:
+        # Removemos la entrada pretrained del diccionario, si existe.
+        embeddings.pop("pretrained", None)
+    # Extraer columnas de embedding de los datos "real"
     embedding_cols = [col for col in embeddings["real"].columns if col.startswith("dim_")]
+    # Concatenamos los datasets disponibles (ahora, sin pretrained si se deseleccionó)
     df_combined = pd.concat(list(embeddings.values()), ignore_index=True)
     try:
         st.write(f"Trustworthiness: {result['trustworthiness']:.4f}")
         st.write(f"Continuity: {result['continuity']:.4f}")
+    # Si se usó PCA, se muestran los plots de loadings con Bokeh (con hover para ver la etiqueta)
     if reduction_method == "PCA" and result.get("pca_model") is not None:
         pca_model = result["pca_model"]
         components = pca_model.components_  # Shape: (n_components, n_features)
         st.subheader("Pesos de las Componentes Principales (Loadings)")
+        # Se crea un plot de barras por cada componente
         for i, comp in enumerate(components):
             source = ColumnDataSource(data=dict(
+                dimensions=embedding_cols,
                 weight=comp
             ))
             p = figure(x_range=embedding_cols, title=f"Componente Principal {i+1}",
+                       plot_height=400, plot_width=600,
+                       toolbar_location=None, tools="")
             p.vbar(x='dimensions', top='weight', width=0.8, source=source)
+            # Ocultar etiquetas del eje x para un aspecto más limpio
             p.xaxis.major_label_text_font_size = '0pt'
+            # Agregar HoverTool para mostrar la dimensión y su peso
             hover = HoverTool(tooltips=[("Dimensión", "@dimensions"), ("Peso", "@weight")])
             p.add_tools(hover)
             p.xaxis.axis_label = "Dimensiones originales"
             p.yaxis.axis_label = "Peso"
             st.bokeh_chart(p)
     data_table, df_table, source_table = create_table(result["df_distances"])
     real_subset_names = list(df_table.columns[1:])