Tracy André commited on
Commit
788567c
·
1 Parent(s): ebeb919
Files changed (1) hide show
  1. app.py +19 -10
app.py CHANGED
@@ -32,20 +32,29 @@ class AgricultureAnalyzer:
32
  # D'abord, essayer de charger depuis Hugging Face
33
  try:
34
  print(f"🤗 Tentative de chargement depuis Hugging Face: {dataset_id}")
35
- dataset = load_dataset(dataset_id, use_auth_token=hf_token)
36
 
37
- # Le dataset peut avoir plusieurs splits, essayer 'train' en premier
 
38
  if 'train' in dataset:
39
  # Convertir en DataFrame pandas
40
- self.df = dataset['train'].to_pandas()
41
- print(f"✅ Données chargées depuis Hugging Face: {dataset_id}")
42
 
43
- # Si le dataset contient plusieurs fichiers CSV, prendre le premier qui contient les données d'intervention
44
- if 'file' in self.df.columns:
45
- # Filtrer pour ne garder que les fichiers d'intervention
46
- intervention_files = self.df[self.df['file'].str.contains('Interventions', na=False)]
47
- if not intervention_files.empty:
48
- self.df = intervention_files
 
 
 
 
 
 
 
 
49
 
50
  return self.analyze_data()
51
  else:
 
32
  # D'abord, essayer de charger depuis Hugging Face
33
  try:
34
  print(f"🤗 Tentative de chargement depuis Hugging Face: {dataset_id}")
35
+ dataset = load_dataset(dataset_id, token=hf_token)
36
 
37
+ # Ligne 35 - Changer use_auth_token en token
38
+ # Lignes 37-50 - Améliorer la gestion du dataset multi-fichiers
39
  if 'train' in dataset:
40
  # Convertir en DataFrame pandas
41
+ df_raw = dataset['train'].to_pandas()
42
+ print(f"✅ Dataset chargé: {len(df_raw)} lignes trouvées")
43
 
44
+ # Le dataset HF concatène tous les CSV (2014-2025)
45
+ # Filtrer par année si possible
46
+ if 'millesime' in df_raw.columns:
47
+ # Prendre les données les plus récentes (2023-2025)
48
+ recent_data = df_raw[df_raw['millesime'] >= 2023]
49
+ if len(recent_data) > 0:
50
+ self.df = recent_data
51
+ print(f"✅ Données filtrées: {len(self.df)} lignes des années récentes")
52
+ else:
53
+ self.df = df_raw
54
+ print(f"✅ Toutes les données utilisées: {len(self.df)} lignes")
55
+ else:
56
+ self.df = df_raw
57
+ print(f"✅ Données chargées: {len(self.df)} lignes")
58
 
59
  return self.analyze_data()
60
  else: