data / check_dataset_splits.py
Tracy André
updated
1815135
raw
history blame
2.58 kB
#!/usr/bin/env python3
"""
Vérifier les splits disponibles dans le dataset HF
"""
import os
def check_dataset_structure():
print("🔍 Vérification de la structure du dataset HackathonCRA/2024")
try:
from huggingface_hub import HfApi
dataset_id = "HackathonCRA/2024"
hf_token = os.environ.get("HF_TOKEN")
api = HfApi(token=hf_token)
# Informations du dataset
dataset_info = api.dataset_info(dataset_id)
print(f"📝 Dataset: {dataset_id}")
print(f"🔑 Token configuré: {'✅' if hf_token else '❌'}")
# Lister les fichiers
files = api.list_repo_files(dataset_id, repo_type="dataset")
print(f"📄 Fichiers dans le repo: {len(files)}")
for f in files:
print(f" - {f}")
# Essayer de charger avec datasets (sans pandas)
print("\n🧪 Test de chargement avec datasets...")
try:
# Import minimal
from datasets import load_dataset_builder
builder = load_dataset_builder(dataset_id, token=hf_token)
print(f"✅ Builder créé avec succès")
print(f"📊 Config: {builder.config}")
# Essayer de voir les splits
if hasattr(builder.info, 'splits') and builder.info.splits:
print(f"📦 Splits détectés: {list(builder.info.splits.keys())}")
else:
print("⚠️ Pas de splits détectés dans builder.info")
except Exception as e:
print(f"❌ Erreur avec datasets builder: {e}")
# Test direct sans spécifier de split
try:
print("\n🔄 Test de chargement direct...")
from datasets import load_dataset
dataset = load_dataset(dataset_id, token=hf_token)
print(f"✅ Dataset chargé!")
print(f"📦 Splits disponibles: {list(dataset.keys())}")
return list(dataset.keys())
except Exception as e:
print(f"❌ Erreur de chargement: {e}")
return None
except Exception as e:
print(f"❌ Erreur générale: {e}")
return None
if __name__ == "__main__":
splits = check_dataset_structure()
if splits:
print(f"\n🎯 Splits trouvés: {splits}")
print(f"💡 Utilisez '{splits[0]}' au lieu de 'train' dans votre code")
else:
print("\n❌ Impossible de déterminer les splits")