Spaces:

HackathonCRA
/

data

Sleeping

File size: 2,582 Bytes
#!/usr/bin/env python3
"""
Vérifier les splits disponibles dans le dataset HF
"""

import os

def check_dataset_structure():
    print("🔍 Vérification de la structure du dataset HackathonCRA/2024")
    
    try:
        from huggingface_hub import HfApi
        
        dataset_id = "HackathonCRA/2024"
        hf_token = os.environ.get("HF_TOKEN")
        
        api = HfApi(token=hf_token)
        
        # Informations du dataset
        dataset_info = api.dataset_info(dataset_id)
        print(f"📝 Dataset: {dataset_id}")
        print(f"🔑 Token configuré: {'✅' if hf_token else '❌'}")
        
        # Lister les fichiers
        files = api.list_repo_files(dataset_id, repo_type="dataset")
        print(f"📄 Fichiers dans le repo: {len(files)}")
        
        for f in files:
            print(f"   - {f}")
        
        # Essayer de charger avec datasets (sans pandas)
        print("\n🧪 Test de chargement avec datasets...")
        
        try:
            # Import minimal
            from datasets import load_dataset_builder
            
            builder = load_dataset_builder(dataset_id, token=hf_token)
            print(f"✅ Builder créé avec succès")
            print(f"📊 Config: {builder.config}")
            
            # Essayer de voir les splits
            if hasattr(builder.info, 'splits') and builder.info.splits:
                print(f"📦 Splits détectés: {list(builder.info.splits.keys())}")
            else:
                print("⚠️ Pas de splits détectés dans builder.info")
            
        except Exception as e:
            print(f"❌ Erreur avec datasets builder: {e}")
        
        # Test direct sans spécifier de split
        try:
            print("\n🔄 Test de chargement direct...")
            from datasets import load_dataset
            dataset = load_dataset(dataset_id, token=hf_token)
            print(f"✅ Dataset chargé!")
            print(f"📦 Splits disponibles: {list(dataset.keys())}")
            
            return list(dataset.keys())
            
        except Exception as e:
            print(f"❌ Erreur de chargement: {e}")
            return None
            
    except Exception as e:
        print(f"❌ Erreur générale: {e}")
        return None

if __name__ == "__main__":
    splits = check_dataset_structure()
    if splits:
        print(f"\n🎯 Splits trouvés: {splits}")
        print(f"💡 Utilisez '{splits[0]}' au lieu de 'train' dans votre code")
    else:
        print("\n❌ Impossible de déterminer les splits")