#!/usr/bin/env python3 """ Vérifier les splits disponibles dans le dataset HF """ import os def check_dataset_structure(): print("🔍 Vérification de la structure du dataset HackathonCRA/2024") try: from huggingface_hub import HfApi dataset_id = "HackathonCRA/2024" hf_token = os.environ.get("HF_TOKEN") api = HfApi(token=hf_token) # Informations du dataset dataset_info = api.dataset_info(dataset_id) print(f"📝 Dataset: {dataset_id}") print(f"🔑 Token configuré: {'✅' if hf_token else '❌'}") # Lister les fichiers files = api.list_repo_files(dataset_id, repo_type="dataset") print(f"📄 Fichiers dans le repo: {len(files)}") for f in files: print(f" - {f}") # Essayer de charger avec datasets (sans pandas) print("\n🧪 Test de chargement avec datasets...") try: # Import minimal from datasets import load_dataset_builder builder = load_dataset_builder(dataset_id, token=hf_token) print(f"✅ Builder créé avec succès") print(f"📊 Config: {builder.config}") # Essayer de voir les splits if hasattr(builder.info, 'splits') and builder.info.splits: print(f"📦 Splits détectés: {list(builder.info.splits.keys())}") else: print("⚠️ Pas de splits détectés dans builder.info") except Exception as e: print(f"❌ Erreur avec datasets builder: {e}") # Test direct sans spécifier de split try: print("\n🔄 Test de chargement direct...") from datasets import load_dataset dataset = load_dataset(dataset_id, token=hf_token) print(f"✅ Dataset chargé!") print(f"📦 Splits disponibles: {list(dataset.keys())}") return list(dataset.keys()) except Exception as e: print(f"❌ Erreur de chargement: {e}") return None except Exception as e: print(f"❌ Erreur générale: {e}") return None if __name__ == "__main__": splits = check_dataset_structure() if splits: print(f"\n🎯 Splits trouvés: {splits}") print(f"💡 Utilisez '{splits[0]}' au lieu de 'train' dans votre code") else: print("\n❌ Impossible de déterminer les splits")