Spaces:

HackathonCRA
/

data

Sleeping

App Files Files Community

Tracy André commited on Sep 17, 2025

Commit

b5ed585

1 Parent(s): 788567c

updated

Browse files

Files changed (4) hide show

app.py +23 -12
fix_env.sh +23 -0
test_hf_connection.py +64 -0
test_hf_simple.py +54 -0

app.py CHANGED Viewed

@@ -32,38 +32,49 @@ class AgricultureAnalyzer:
         # D'abord, essayer de charger depuis Hugging Face
         try:
             print(f"🤗 Tentative de chargement depuis Hugging Face: {dataset_id}")
-            dataset = load_dataset(dataset_id, token=hf_token)
-            # Ligne 35 - Changer use_auth_token en token
-            # Lignes 37-50 - Améliorer la gestion du dataset multi-fichiers
             if 'train' in dataset:
                 # Convertir en DataFrame pandas
                 df_raw = dataset['train'].to_pandas()
-                print(f"✅ Dataset chargé: {len(df_raw)} lignes trouvées")
-                # Le dataset HF concatène tous les CSV (2014-2025)
-                # Filtrer par année si possible
                 if 'millesime' in df_raw.columns:
-                    # Prendre les données les plus récentes (2023-2025)
-                    recent_data = df_raw[df_raw['millesime'] >= 2023]
                     if len(recent_data) > 0:
                         self.df = recent_data
-                        print(f"✅ Données filtrées: {len(self.df)} lignes des années récentes")
                     else:
                         self.df = df_raw
                         print(f"✅ Toutes les données utilisées: {len(self.df)} lignes")
                 else:
                     self.df = df_raw
-                    print(f"✅ Données chargées: {len(self.df)} lignes")
                 return self.analyze_data()
             else:
                 # Si pas de split 'train', prendre le premier disponible
                 available_splits = list(dataset.keys())
                 if available_splits:
-                    self.df = dataset[available_splits[0]].to_pandas()
-                    print(f"✅ Données chargées depuis Hugging Face (split: {available_splits[0]})")
                     return self.analyze_data()
         except Exception as e:
             print(f"⚠️ Erreur lors du chargement depuis Hugging Face: {e}")

         # D'abord, essayer de charger depuis Hugging Face
         try:
             print(f"🤗 Tentative de chargement depuis Hugging Face: {dataset_id}")
+            # Chargement du dataset avec gestion d'erreur améliorée
+            if hf_token:
+                dataset = load_dataset(dataset_id, token=hf_token)
+                print(f"🔑 Authentification avec token réussie")
+            else:
+                print(f"⚠️ Aucun token HF_TOKEN trouvé, tentative sans authentification")
+                dataset = load_dataset(dataset_id)
+            print(f"📊 Splits disponibles: {list(dataset.keys())}")
             if 'train' in dataset:
                 # Convertir en DataFrame pandas
                 df_raw = dataset['train'].to_pandas()
+                print(f"✅ Dataset chargé: {len(df_raw)} lignes, {len(df_raw.columns)} colonnes")
+                print(f"🏷️ Colonnes disponibles: {list(df_raw.columns)[:10]}...")  # Afficher les 10 premières colonnes
+                # Filtrer par année si la colonne millesime existe
                 if 'millesime' in df_raw.columns:
+                    print(f"📅 Années disponibles: {sorted(df_raw['millesime'].unique())}")
+                    # Prendre les données récentes (2022-2025)
+                    recent_data = df_raw[df_raw['millesime'] >= 2022]
                     if len(recent_data) > 0:
                         self.df = recent_data
+                        print(f"✅ Données filtrées: {len(self.df)} lignes pour les années récentes")
                     else:
                         self.df = df_raw
                         print(f"✅ Toutes les données utilisées: {len(self.df)} lignes")
                 else:
                     self.df = df_raw
+                    print(f"✅ Données chargées (pas de filtrage par année): {len(self.df)} lignes")
                 return self.analyze_data()
             else:
                 # Si pas de split 'train', prendre le premier disponible
                 available_splits = list(dataset.keys())
                 if available_splits:
+                    first_split = available_splits[0]
+                    self.df = dataset[first_split].to_pandas()
+                    print(f"✅ Données chargées depuis le split '{first_split}': {len(self.df)} lignes")
                     return self.analyze_data()
+                else:
+                    raise Exception("Aucun split trouvé dans le dataset")
         except Exception as e:
             print(f"⚠️ Erreur lors du chargement depuis Hugging Face: {e}")

fix_env.sh ADDED Viewed

	@@ -0,0 +1,23 @@

+#!/bin/bash
+# Script pour corriger l'environnement local
+echo "🔧 Correction de l'environnement pour Mac ARM64"
+# Créer un nouvel environnement conda propre
+echo "📦 Création d'un environnement conda propre..."
+conda create -n hackathon-clean python=3.10 -y
+source $(conda info --base)/etc/profile.d/conda.sh
+conda activate hackathon-clean
+# Installation des packages dans le bon ordre
+echo "📥 Installation des dépendances..."
+pip install --no-cache-dir numpy==1.24.3
+pip install --no-cache-dir pandas
+pip install --no-cache-dir matplotlib seaborn plotly
+pip install --no-cache-dir datasets huggingface_hub
+pip install --no-cache-dir gradio==4.31.0
+echo "✅ Environnement configuré !"
+echo "🚀 Pour utiliser cet environnement:"
+echo "   conda activate hackathon-clean"
+echo "   python app.py"

test_hf_connection.py ADDED Viewed

	@@ -0,0 +1,64 @@

+#!/usr/bin/env python3
+"""
+Script de test pour vérifier la connexion au dataset HuggingFace
+"""
+import os
+from datasets import load_dataset
+# Configuration
+dataset_id = "HackathonCRA/2024"
+hf_token = os.environ.get("HF_TOKEN")
+print("🧪 Test de connexion au dataset HuggingFace")
+print(f"📦 Dataset: {dataset_id}")
+print(f"🔑 Token configuré: {'✅ Oui' if hf_token else '❌ Non'}")
+print()
+try:
+    # Test 1: Chargement du dataset
+    print("🔄 Chargement du dataset...")
+    if hf_token:
+        dataset = load_dataset(dataset_id, token=hf_token)
+        print("✅ Chargement avec token réussi")
+    else:
+        print("⚠️ Tentative sans token...")
+        dataset = load_dataset(dataset_id)
+        print("✅ Chargement sans token réussi")
+    # Test 2: Exploration de la structure
+    print(f"📊 Splits disponibles: {list(dataset.keys())}")
+    if 'train' in dataset:
+        train_data = dataset['train']
+        print(f"📈 Nombre d'enregistrements dans 'train': {len(train_data)}")
+        # Conversion en DataFrame pour inspection
+        df = train_data.to_pandas()
+        print(f"📝 Colonnes disponibles ({len(df.columns)}): {list(df.columns)}")
+        print(f"📏 Forme des données: {df.shape}")
+        # Vérifier les colonnes importantes
+        important_cols = ['millesime', 'familleprod', 'produit', 'quantitetot', 'numparcell']
+        available_important = [col for col in important_cols if col in df.columns]
+        print(f"🎯 Colonnes importantes trouvées: {available_important}")
+        # Statistiques rapides
+        if 'millesime' in df.columns:
+            print(f"📅 Années disponibles: {sorted(df['millesime'].unique())}")
+        if 'familleprod' in df.columns:
+            print(f"🧪 Types de produits: {df['familleprod'].value_counts().head()}")
+        print("✅ Test de connexion réussi !")
+    else:
+        print("⚠️ Pas de split 'train' trouvé")
+except Exception as e:
+    print(f"❌ Erreur lors du test: {e}")
+    print()
+    print("💡 Solutions possibles:")
+    print("1. Vérifiez que le dataset existe: https://huggingface.co/datasets/HackathonCRA/2024")
+    print("2. Configurez votre token HF: export HF_TOKEN='votre_token'")
+    print("3. Vérifiez vos permissions d'accès au dataset")

test_hf_simple.py ADDED Viewed

	@@ -0,0 +1,54 @@

+#!/usr/bin/env python3
+"""
+Test simplifié de connexion HuggingFace sans numpy
+"""
+import os
+def test_hf_connection():
+    print("🧪 Test de connexion simple au dataset HuggingFace")
+    dataset_id = "HackathonCRA/2024"
+    hf_token = os.environ.get("HF_TOKEN")
+    print(f"📦 Dataset: {dataset_id}")
+    print(f"🔑 Token configuré: {'✅ Oui' if hf_token else '❌ Non'}")
+    try:
+        # Import ici pour éviter les conflits
+        from huggingface_hub import HfApi
+        api = HfApi(token=hf_token)
+        # Test d'accès au dataset
+        print("🔄 Test d'accès au dataset...")
+        dataset_info = api.dataset_info(dataset_id)
+        print(f"✅ Dataset accessible !")
+        print(f"📝 Description: {dataset_info.description or 'Pas de description'}")
+        print(f"🏷️ Tags: {dataset_info.tags}")
+        print(f"📊 Dernière modification: {dataset_info.last_modified}")
+        # Lister les fichiers
+        files = api.list_repo_files(dataset_id, repo_type="dataset")
+        csv_files = [f for f in files if f.endswith('.csv')]
+        print(f"📄 Fichiers CSV trouvés ({len(csv_files)}):")
+        for f in csv_files[:5]:  # Afficher les 5 premiers
+            print(f"  - {f}")
+        if len(csv_files) > 5:
+            print(f"  ... et {len(csv_files) - 5} autres")
+        return True
+    except Exception as e:
+        print(f"❌ Erreur: {e}")
+        print()
+        print("💡 Solutions possibles:")
+        print("1. Vérifiez que le dataset existe: https://huggingface.co/datasets/HackathonCRA/2024")
+        print("2. Configurez votre token: export HF_TOKEN='votre_token'")
+        print("3. Vérifiez vos permissions d'accès")
+        return False
+if __name__ == "__main__":
+    test_hf_connection()