Spaces:

HackathonCRA
/

data

Sleeping

Tracy André commited on Sep 17, 2025

Commit

788567c

1 Parent(s): ebeb919

updated

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,20 +32,29 @@ class AgricultureAnalyzer:
         # D'abord, essayer de charger depuis Hugging Face
         try:
             print(f"🤗 Tentative de chargement depuis Hugging Face: {dataset_id}")
-            dataset = load_dataset(dataset_id, use_auth_token=hf_token)
-            # Le dataset peut avoir plusieurs splits, essayer 'train' en premier
             if 'train' in dataset:
                 # Convertir en DataFrame pandas
-                self.df = dataset['train'].to_pandas()
-                print(f"✅ Données chargées depuis Hugging Face: {dataset_id}")
-                # Si le dataset contient plusieurs fichiers CSV, prendre le premier qui contient les données d'intervention
-                if 'file' in self.df.columns:
-                    # Filtrer pour ne garder que les fichiers d'intervention
-                    intervention_files = self.df[self.df['file'].str.contains('Interventions', na=False)]
-                    if not intervention_files.empty:
-                        self.df = intervention_files
                 return self.analyze_data()
             else:

         # D'abord, essayer de charger depuis Hugging Face
         try:
             print(f"🤗 Tentative de chargement depuis Hugging Face: {dataset_id}")
+            dataset = load_dataset(dataset_id, token=hf_token)
+            # Ligne 35 - Changer use_auth_token en token
+            # Lignes 37-50 - Améliorer la gestion du dataset multi-fichiers
             if 'train' in dataset:
                 # Convertir en DataFrame pandas
+                df_raw = dataset['train'].to_pandas()
+                print(f"✅ Dataset chargé: {len(df_raw)} lignes trouvées")
+                # Le dataset HF concatène tous les CSV (2014-2025)
+                # Filtrer par année si possible
+                if 'millesime' in df_raw.columns:
+                    # Prendre les données les plus récentes (2023-2025)
+                    recent_data = df_raw[df_raw['millesime'] >= 2023]
+                    if len(recent_data) > 0:
+                        self.df = recent_data
+                        print(f"✅ Données filtrées: {len(self.df)} lignes des années récentes")
+                    else:
+                        self.df = df_raw
+                        print(f"✅ Toutes les données utilisées: {len(self.df)} lignes")
+                else:
+                    self.df = df_raw
+                    print(f"✅ Données chargées: {len(self.df)} lignes")
                 return self.analyze_data()
             else: