Spaces:

SergioSCA
/

Multimodal_Network_Designer

Sleeping

App Files Files Community

SergioSCA commited on Mar 2, 2025

Commit

425d4e3

verified ·

1 Parent(s): 1568785

Update functions.py

Browse files

Files changed (1) hide show

functions.py +40 -26

functions.py CHANGED Viewed

@@ -64,49 +64,66 @@ def generar_encabezado(tareas_seleccionadas):
     return ",".join(columnas_ordenadas)
-# Buscar datasets en HuggingFace con validación de columnas
 def buscar_datasets(tareas_seleccionadas, filtro_tamaño, filtro_licencia):
     try:
-        # Construir query con tareas y modalidades
-        query = "+".join(tareas_seleccionadas)
-        url = f"https://huggingface.co/api/datasets?search={query}"
         response = requests.get(url)
         response.raise_for_status()
         datasets = response.json()
-        # Filtrar datasets útiles
         datasets_utiles = []
         for dataset in datasets:
-            # Verificar filtros básicos
-            if filtro_tamaño and dataset.get("size_categories") != filtro_tamaño:
-                continue
-            if filtro_licencia and dataset.get("license") != filtro_licencia:
-                continue
-            # Verificar que el dataset tenga columnas relevantes (ej. 'text' para NLP) <button class="citation-flag" data-index="1">
-            dataset_info = requests.get(f"https://huggingface.co/api/datasets/{dataset['id']}").json()
-            if "features" in dataset_info:
-                datasets_utiles.append(
-                    (dataset['id'], f"{dataset['id']}: {dataset['description']}")  # Formato (valor, etiqueta)
-                )
-        return datasets_utiles  # Devolver lista de tuples para CheckboxGroup
     except Exception as e:
         raise ValueError(f"Error al buscar datasets: {str(e)}")
-# Generar dataset combinado
 def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_por_pagina=5):
     try:
         columnas = encabezado.split(",")
         filas = []
-        for dataset_id in datasets_seleccionados:  # Ahora es una lista de IDs seleccionados
             try:
-                # Cargar dataset y verificar columnas
                 dataset = load_dataset(dataset_id, split="train")
                 columnas_dataset = dataset.features.keys()
                 inicio = (pagina_actual - 1) * filas_por_pagina
                 fin = pagina_actual * filas_por_pagina
@@ -114,18 +131,15 @@ def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_p
                     valores = []
                     for col in columnas:
                         if col == "id":
-                            valores.append(f"id_{inicio + i}")
-                        elif col in columnas_dataset:
-                            valores.append(str(fila[col]))
                         else:
-                            valores.append("valor_default")  # Rellenar con default si falta la columna <button class="citation-flag" data-index="4">
                     filas.append(",".join(valores))
             except Exception as e:
                 filas.append(f"Error en {dataset_id}: {str(e)}")
-        contenido_csv = "\n".join([encabezado] + filas)
-        return contenido_csv
     except Exception as e:
         raise ValueError(f"Error al generar el dataset: {str(e)}")

     return ",".join(columnas_ordenadas)
+# Buscar datasets en HuggingFace con validación avanzada
 def buscar_datasets(tareas_seleccionadas, filtro_tamaño, filtro_licencia):
     try:
+        # Traducir tareas al inglés para mejorar la búsqueda <button class="citation-flag" data-index="1">
+        tareas_ingles = [tarea.lower().replace(" ", "_") for tarea in tareas_seleccionadas]
+        query = "+".join(tareas_ingles)
+        url = f"https://huggingface.co/api/datasets?search={query}&full=True"  # Parámetro 'full' para más detalles <button class="citation-flag" data-index="1">
         response = requests.get(url)
         response.raise_for_status()
         datasets = response.json()
         datasets_utiles = []
         for dataset in datasets:
+            try:
+                # Verificar filtros
+                if filtro_tamaño and dataset.get("size_categories", "").lower() != filtro_tamaño:
+                    continue
+                if filtro_licencia and dataset.get("license", "").lower() != filtro_licencia:
+                    continue
+                # Verificar columnas relevantes
+                dataset_info = requests.get(f"https://huggingface.co/api/datasets/{dataset['id']}").json()
+                if "features" in dataset_info:
+                    columnas_dataset = list(dataset_info["features"].keys())
+                    # Priorizar datasets con columnas útiles (ej. 'text' para NLP) <button class="citation-flag" data-index="1">
+                    if any(col in columnas_dataset for col in ["text", "image", "audio", "code"]):
+                        datasets_utiles.append(
+                            (dataset['id'], f"{dataset['id']} ({dataset['tags']}) - {dataset['description']}")
+                        )
+            except requests.exceptions.RequestException:
+                continue  # Ignorar datasets con información inaccesible
+        return datasets_utiles
     except Exception as e:
         raise ValueError(f"Error al buscar datasets: {str(e)}")
+# Generar dataset combinado con validación de columnas
 def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_por_pagina=5):
     try:
         columnas = encabezado.split(",")
         filas = []
+        for dataset_id in datasets_seleccionados:
             try:
                 dataset = load_dataset(dataset_id, split="train")
                 columnas_dataset = dataset.features.keys()
+                # Mapear columnas del dataset a las del encabezado
+                mapeo = {}
+                for col in columnas:
+                    if col == "id":
+                        mapeo[col] = lambda idx: f"id_{idx}"
+                    elif col in columnas_dataset:
+                        mapeo[col] = lambda fila, c=col: str(fila[c])
+                    else:
+                        mapeo[col] = lambda _: "valor_default"  # Valor por defecto <button class="citation-flag" data-index="4">
                 inicio = (pagina_actual - 1) * filas_por_pagina
                 fin = pagina_actual * filas_por_pagina
                     valores = []
                     for col in columnas:
                         if col == "id":
+                            valores.append(mapeo[col](i))
                         else:
+                            valores.append(mapeo[col](fila))
                     filas.append(",".join(valores))
             except Exception as e:
                 filas.append(f"Error en {dataset_id}: {str(e)}")
+        return "\n".join([encabezado] + filas)
     except Exception as e:
         raise ValueError(f"Error al generar el dataset: {str(e)}")