Spaces:

SergioSCA
/

Multimodal_Network_Designer

Sleeping

App Files Files Community

SergioSCA commited on Mar 2, 2025

Commit

64c84a7

verified ·

1 Parent(s): 65d0047

Update functions.py

Browse files

Files changed (1) hide show

functions.py +22 -20

functions.py CHANGED Viewed

@@ -64,38 +64,35 @@ def generar_encabezado(tareas_seleccionadas):
     return ",".join(columnas_ordenadas)
-# Buscar datasets en HuggingFace con validación avanzada
 def buscar_datasets(tareas_seleccionadas, filtro_tamaño, filtro_licencia):
     try:
-        # Traducir tareas al inglés para mejorar la búsqueda <button class="citation-flag" data-index="1">
-        tareas_ingles = [tarea.lower().replace(" ", "_") for tarea in tareas_seleccionadas]
-        query = "+".join(tareas_ingles)
-        url = f"https://huggingface.co/api/datasets?search={query}&full=True"  # Parámetro 'full' para más detalles <button class="citation-flag" data-index="1">
         response = requests.get(url)
         response.raise_for_status()
         datasets = response.json()
         datasets_utiles = []
         for dataset in datasets:
             try:
-                # Verificar filtros
-                if filtro_tamaño and dataset.get("size_categories", "").lower() != filtro_tamaño:
-                    continue
                 if filtro_licencia and dataset.get("license", "").lower() != filtro_licencia:
                     continue
                 # Verificar columnas relevantes
                 dataset_info = requests.get(f"https://huggingface.co/api/datasets/{dataset['id']}").json()
                 if "features" in dataset_info:
-                    columnas_dataset = list(dataset_info["features"].keys())
-                    # Priorizar datasets con columnas útiles (ej. 'text' para NLP) <button class="citation-flag" data-index="1">
-                    if any(col in columnas_dataset for col in ["text", "image", "audio", "code"]):
-                        datasets_utiles.append(
-                            (dataset['id'], f"{dataset['id']} ({dataset['tags']}) - {dataset['description']}")
-                        )
             except requests.exceptions.RequestException:
-                continue  # Ignorar datasets con información inaccesible
         return datasets_utiles
@@ -103,7 +100,7 @@ def buscar_datasets(tareas_seleccionadas, filtro_tamaño, filtro_licencia):
         raise ValueError(f"Error al buscar datasets: {str(e)}")
-# Generar dataset combinado con validación de columnas
 def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_por_pagina=5):
     try:
         columnas = encabezado.split(",")
@@ -112,17 +109,22 @@ def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_p
         for dataset_id in datasets_seleccionados:
             try:
                 dataset = load_dataset(dataset_id, split="train")
-                columnas_dataset = dataset.features.keys()
-                # Mapear columnas del dataset a las del encabezado
                 mapeo = {}
                 for col in columnas:
                     if col == "id":
                         mapeo[col] = lambda idx: f"id_{idx}"
-                    elif col in columnas_dataset:
                         mapeo[col] = lambda fila, c=col: str(fila[c])
                     else:
-                        mapeo[col] = lambda _: "valor_default"  # Valor por defecto <button class="citation-flag" data-index="4">
                 inicio = (pagina_actual - 1) * filas_por_pagina
                 fin = pagina_actual * filas_por_pagina

     return ",".join(columnas_ordenadas)
+# Buscar datasets usando tags oficiales de HuggingFace
 def buscar_datasets(tareas_seleccionadas, filtro_tamaño, filtro_licencia):
     try:
+        # Usar tags oficiales para búsqueda precisa
+        query = "+".join([f"task:{tarea}" for tarea in tareas_seleccionadas])
+        url = f"https://huggingface.co/api/datasets?search={query}&sort=downloads"
         response = requests.get(url)
         response.raise_for_status()
         datasets = response.json()
+        # Filtrar datasets útiles
         datasets_utiles = []
         for dataset in datasets:
             try:
+                # Verificar licencia y tamaño
                 if filtro_licencia and dataset.get("license", "").lower() != filtro_licencia:
                     continue
+                if filtro_tamaño and dataset.get("size_categories", "").lower() != filtro_tamaño:
+                    continue
                 # Verificar columnas relevantes
                 dataset_info = requests.get(f"https://huggingface.co/api/datasets/{dataset['id']}").json()
                 if "features" in dataset_info:
+                    datasets_utiles.append(
+                        (dataset['id'], f"{dataset['id']} ({dataset['tags']}) - {dataset['description']}")
+                    )
             except requests.exceptions.RequestException:
+                continue
         return datasets_utiles
         raise ValueError(f"Error al buscar datasets: {str(e)}")
+# Generar dataset con mapeo dinámico de columnas
 def generar_dataset(encabezado, datasets_seleccionados, pagina_actual=1, filas_por_pagina=5):
     try:
         columnas = encabezado.split(",")
         for dataset_id in datasets_seleccionados:
             try:
                 dataset = load_dataset(dataset_id, split="train")
+                features = dataset.features
+                # Mapear columnas automáticamente
                 mapeo = {}
                 for col in columnas:
                     if col == "id":
                         mapeo[col] = lambda idx: f"id_{idx}"
+                    elif col in features:
                         mapeo[col] = lambda fila, c=col: str(fila[c])
                     else:
+                        # Buscar columna alternativa (ej. 'text' para 'text_input')
+                        columna_alternativa = next(
+                            (k for k in features if col.split("_")[0] in k),
+                            "valor_default"
+                        )
+                        mapeo[col] = lambda fila, c=columna_alternativa: str(fila.get(c, "N/A"))
                 inicio = (pagina_actual - 1) * filas_por_pagina
                 fin = pagina_actual * filas_por_pagina