Spaces:

HackathonCRA
/

data

Sleeping

data / check_dataset_splits.py

Tracy André

updated

1815135 4 months ago

2.58 kB

	#!/usr/bin/env python3
	"""
	Vérifier les splits disponibles dans le dataset HF
	"""

	import os

	def check_dataset_structure():
	print("🔍 Vérification de la structure du dataset HackathonCRA/2024")

	try:
	from huggingface_hub import HfApi

	dataset_id = "HackathonCRA/2024"
	hf_token = os.environ.get("HF_TOKEN")

	api = HfApi(token=hf_token)

	# Informations du dataset
	dataset_info = api.dataset_info(dataset_id)
	print(f"📝 Dataset: {dataset_id}")
	print(f"🔑 Token configuré: {'✅' if hf_token else '❌'}")

	# Lister les fichiers
	files = api.list_repo_files(dataset_id, repo_type="dataset")
	print(f"📄 Fichiers dans le repo: {len(files)}")

	for f in files:
	print(f" - {f}")

	# Essayer de charger avec datasets (sans pandas)
	print("\n🧪 Test de chargement avec datasets...")

	try:
	# Import minimal
	from datasets import load_dataset_builder

	builder = load_dataset_builder(dataset_id, token=hf_token)
	print(f"✅ Builder créé avec succès")
	print(f"📊 Config: {builder.config}")

	# Essayer de voir les splits
	if hasattr(builder.info, 'splits') and builder.info.splits:
	print(f"📦 Splits détectés: {list(builder.info.splits.keys())}")
	else:
	print("⚠️ Pas de splits détectés dans builder.info")

	except Exception as e:
	print(f"❌ Erreur avec datasets builder: {e}")

	# Test direct sans spécifier de split
	try:
	print("\n🔄 Test de chargement direct...")
	from datasets import load_dataset
	dataset = load_dataset(dataset_id, token=hf_token)
	print(f"✅ Dataset chargé!")
	print(f"📦 Splits disponibles: {list(dataset.keys())}")

	return list(dataset.keys())

	except Exception as e:
	print(f"❌ Erreur de chargement: {e}")
	return None

	except Exception as e:
	print(f"❌ Erreur générale: {e}")
	return None

	if __name__ == "__main__":
	splits = check_dataset_structure()
	if splits:
	print(f"\n🎯 Splits trouvés: {splits}")
	print(f"💡 Utilisez '{splits[0]}' au lieu de 'train' dans votre code")
	else:
	print("\n❌ Impossible de déterminer les splits")