Spaces:
Sleeping
Sleeping
| #!/usr/bin/env python3 | |
| """ | |
| Vérifier les splits disponibles dans le dataset HF | |
| """ | |
| import os | |
| def check_dataset_structure(): | |
| print("🔍 Vérification de la structure du dataset HackathonCRA/2024") | |
| try: | |
| from huggingface_hub import HfApi | |
| dataset_id = "HackathonCRA/2024" | |
| hf_token = os.environ.get("HF_TOKEN") | |
| api = HfApi(token=hf_token) | |
| # Informations du dataset | |
| dataset_info = api.dataset_info(dataset_id) | |
| print(f"📝 Dataset: {dataset_id}") | |
| print(f"🔑 Token configuré: {'✅' if hf_token else '❌'}") | |
| # Lister les fichiers | |
| files = api.list_repo_files(dataset_id, repo_type="dataset") | |
| print(f"📄 Fichiers dans le repo: {len(files)}") | |
| for f in files: | |
| print(f" - {f}") | |
| # Essayer de charger avec datasets (sans pandas) | |
| print("\n🧪 Test de chargement avec datasets...") | |
| try: | |
| # Import minimal | |
| from datasets import load_dataset_builder | |
| builder = load_dataset_builder(dataset_id, token=hf_token) | |
| print(f"✅ Builder créé avec succès") | |
| print(f"📊 Config: {builder.config}") | |
| # Essayer de voir les splits | |
| if hasattr(builder.info, 'splits') and builder.info.splits: | |
| print(f"📦 Splits détectés: {list(builder.info.splits.keys())}") | |
| else: | |
| print("⚠️ Pas de splits détectés dans builder.info") | |
| except Exception as e: | |
| print(f"❌ Erreur avec datasets builder: {e}") | |
| # Test direct sans spécifier de split | |
| try: | |
| print("\n🔄 Test de chargement direct...") | |
| from datasets import load_dataset | |
| dataset = load_dataset(dataset_id, token=hf_token) | |
| print(f"✅ Dataset chargé!") | |
| print(f"📦 Splits disponibles: {list(dataset.keys())}") | |
| return list(dataset.keys()) | |
| except Exception as e: | |
| print(f"❌ Erreur de chargement: {e}") | |
| return None | |
| except Exception as e: | |
| print(f"❌ Erreur générale: {e}") | |
| return None | |
| if __name__ == "__main__": | |
| splits = check_dataset_structure() | |
| if splits: | |
| print(f"\n🎯 Splits trouvés: {splits}") | |
| print(f"💡 Utilisez '{splits[0]}' au lieu de 'train' dans votre code") | |
| else: | |
| print("\n❌ Impossible de déterminer les splits") | |