Spaces:

SergioSCA
/

Multimodal_Network_Designer

Sleeping

App Files Files Community

SergioSCA commited on Mar 2, 2025

Commit

1568785

verified ·

1 Parent(s): a4788b3

Update functions.py

Browse files

Files changed (1) hide show

functions.py +45 -31

functions.py CHANGED Viewed

@@ -28,26 +28,6 @@ def generar_grafica_barras(tareas_seleccionadas, MODALIDAD_TAREAS):
     except Exception as e:
         raise ValueError(f"Error al generar gráfica: {str(e)}")
-# Buscar datasets en HuggingFace
-def buscar_datasets(tareas_seleccionadas, filtro_tamaño, filtro_licencia):
-    try:
-        query = "+".join(tareas_seleccionadas)
-        url = f"https://huggingface.co/api/datasets?search={query}"
-        response = requests.get(url)
-        response.raise_for_status()
-        datasets = response.json()
-        resultados = []
-        for dataset in datasets:
-            if filtro_tamaño and dataset.get("size_categories") != filtro_tamaño:
-                continue
-            if filtro_licencia and dataset.get("license") != filtro_licencia:
-                continue
-            resultados.append(f"- {dataset['id']}: {dataset['description']}")
-        return "\n".join(resultados)
-    except requests.exceptions.RequestException as e:
-        raise ValueError(f"Error al buscar datasets: {str(e)}")
 # Generar encabezado
 def generar_encabezado(tareas_seleccionadas):
     MODALIDAD_TAREAS = cargar_modalidades_tareas()
@@ -84,31 +64,65 @@ def generar_encabezado(tareas_seleccionadas):
     return ",".join(columnas_ordenadas)
-def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_por_pagina=5):
     try:
-        if not datasets_seleccionados:
-            raise ValueError("Debes seleccionar al menos un dataset.")
         columnas = encabezado.split(",")
         filas = []
-        # Procesar cada dataset seleccionado
-        for dataset_linea in datasets_seleccionados.split("\n"):
-            dataset_id = dataset_linea.strip("- ").split(":")[0]  # Extraer ID
             try:
                 dataset = load_dataset(dataset_id, split="train")
                 inicio = (pagina_actual - 1) * filas_por_pagina
                 fin = pagina_actual * filas_por_pagina
                 for i, fila in enumerate(dataset[inicio:fin]):
                     valores = []
-                    for col in columnas[1:]:  # Ignorar 'id'
-                        valores.append(str(fila.get(col, "valor_default")))
-                    filas.append(f"id_{inicio + i}," + ",".join(valores))
             except Exception as e:
-                filas.append(f"Error en dataset {dataset_id}: {str(e)}")
         contenido_csv = "\n".join([encabezado] + filas)
         return contenido_csv

     except Exception as e:
         raise ValueError(f"Error al generar gráfica: {str(e)}")
 # Generar encabezado
 def generar_encabezado(tareas_seleccionadas):
     MODALIDAD_TAREAS = cargar_modalidades_tareas()
     return ",".join(columnas_ordenadas)
+# Buscar datasets en HuggingFace con validación de columnas
+def buscar_datasets(tareas_seleccionadas, filtro_tamaño, filtro_licencia):
     try:
+        # Construir query con tareas y modalidades
+        query = "+".join(tareas_seleccionadas)
+        url = f"https://huggingface.co/api/datasets?search={query}"
+        response = requests.get(url)
+        response.raise_for_status()
+        datasets = response.json()
+        # Filtrar datasets útiles
+        datasets_utiles = []
+        for dataset in datasets:
+            # Verificar filtros básicos
+            if filtro_tamaño and dataset.get("size_categories") != filtro_tamaño:
+                continue
+            if filtro_licencia and dataset.get("license") != filtro_licencia:
+                continue
+            # Verificar que el dataset tenga columnas relevantes (ej. 'text' para NLP) <button class="citation-flag" data-index="1">
+            dataset_info = requests.get(f"https://huggingface.co/api/datasets/{dataset['id']}").json()
+            if "features" in dataset_info:
+                datasets_utiles.append(
+                    (dataset['id'], f"{dataset['id']}: {dataset['description']}")  # Formato (valor, etiqueta)
+                )
+        return datasets_utiles  # Devolver lista de tuples para CheckboxGroup
+    except Exception as e:
+        raise ValueError(f"Error al buscar datasets: {str(e)}")
+# Generar dataset combinado
+def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_por_pagina=5):
+    try:
         columnas = encabezado.split(",")
         filas = []
+        for dataset_id in datasets_seleccionados:  # Ahora es una lista de IDs seleccionados
             try:
+                # Cargar dataset y verificar columnas
                 dataset = load_dataset(dataset_id, split="train")
+                columnas_dataset = dataset.features.keys()
                 inicio = (pagina_actual - 1) * filas_por_pagina
                 fin = pagina_actual * filas_por_pagina
                 for i, fila in enumerate(dataset[inicio:fin]):
                     valores = []
+                    for col in columnas:
+                        if col == "id":
+                            valores.append(f"id_{inicio + i}")
+                        elif col in columnas_dataset:
+                            valores.append(str(fila[col]))
+                        else:
+                            valores.append("valor_default")  # Rellenar con default si falta la columna <button class="citation-flag" data-index="4">
+                    filas.append(",".join(valores))
             except Exception as e:
+                filas.append(f"Error en {dataset_id}: {str(e)}")
         contenido_csv = "\n".join([encabezado] + filas)
         return contenido_csv