Spaces:

HackathonCRA
/

data

Sleeping

App Files Files Community

Tracy André commited on Sep 17, 2025

Commit

588939d

1 Parent(s): 1815135

updated

Browse files

Files changed (4) hide show

PARSING_ERROR_FIX.md +110 -0
app.py +91 -13
test_parsing_fix.py +65 -0
validate_app_structure.py +101 -0

PARSING_ERROR_FIX.md ADDED Viewed

	@@ -0,0 +1,110 @@

+# 🔧 Correction de l'Erreur de Parsing PyArrow
+## 🚨 Problème Identifié
+**Erreur** : `Failed to parse string: 'Coué - ' as a scalar of type double`
+**Cause** : HuggingFace Datasets essaie de deviner automatiquement les types de colonnes et interprète mal certaines données textuelles comme des nombres.
+## ✅ Solution Implémentée
+### 1. **Chargement Robust avec Fallback**
+L'application essaie maintenant **3 méthodes** dans l'ordre :
+1. **Chargement HF normal** (rapide)
+2. **Chargement HF avec types flexibles** (si erreur)
+3. **Chargement CSV direct** (fallback ultime)
+### 2. **Chargement CSV Direct**
+En cas d'échec du parsing automatique :
+```python
+# Chargement direct des fichiers CSV depuis HF
+csv_files = [
+    "Interventions-...-2020.csv",
+    "Interventions-...-2021.csv",
+    # ... etc
+]
+for csv_file in csv_files:
+    file_url = f"https://huggingface.co/datasets/{dataset_id}/resolve/main/{csv_file}"
+    df = pd.read_csv(file_url, dtype=str, na_filter=False)  # Tout en string
+```
+### 3. **Gestion des Types**
+- **Tout forcé en string** initialement
+- **Conversion sélective** des colonnes numériques après chargement
+- **Nettoyage des données** problématiques
+## 🎯 Fonctionnalités de la Solution
+### ✅ Messages de Debug Améliorés
+```
+🤗 Chargement du dataset Hugging Face: HackathonCRA/2024
+⚠️ Erreur de parsing automatique: Failed to parse string...
+🔄 Tentative avec types de données flexibles...
+📊 Chargement alternatif: fichiers CSV individuels...
+   ⚙️ Chargement: Interventions-...-2020.csv
+   ⚙️ Chargement: Interventions-...-2021.csv
+✅ Chargement alternatif réussi: XXXX lignes
+```
+### ✅ Filtrage Intelligent
+- **Exclusion automatique** des fichiers XLSX
+- **Gestion flexible** des colonnes 'file' ou 'source_file'
+- **Conversion robuste** de la colonne 'millesime'
+### ✅ Gestion d'Erreurs
+- **3 niveaux de fallback**
+- **Messages détaillés** pour debugging
+- **Préservation des données** même en cas de problème
+## 🚀 Résultat sur HuggingFace Spaces
+### Comportement Attendu
+1. **Tentative normale** → Échoue avec erreur parsing
+2. **Chargement alternatif** → Réussit avec CSV direct
+3. **Données propres** → 6 fichiers CSV (2020-2025)
+4. **Application fonctionnelle** → Analyse des adventices
+### Logs de Succès
+```
+📊 Chargement alternatif: fichiers CSV individuels...
+   ⚙️ Chargement: Interventions-...-2020.csv
+   ⚙️ Chargement: Interventions-...-2021.csv
+   ⚙️ Chargement: Interventions-...-2022.csv
+   ⚙️ Chargement: Interventions-...-2023.csv
+   ⚙️ Chargement: Interventions-...-2024.csv
+   ⚙️ Chargement: Interventions-...-2025.csv
+✅ Chargement alternatif réussi: XXXX lignes
+📊 Splits disponibles: ['train']
+🎯 Utilisation du split: 'train'
+✅ Dataset chargé: XXXX lignes, XX colonnes
+```
+## 🔧 Modifications du Code
+### Imports Ajoutés
+```python
+import pandas as pd
+from datasets import DatasetDict, Dataset
+```
+### Logique de Chargement
+1. **Try/catch** sur `load_dataset()`
+2. **Chargement CSV direct** avec `pd.read_csv(dtype=str)`
+3. **Conversion** en `Dataset` HuggingFace
+4. **Filtrage et nettoyage** des données
+## 🎉 Application Robuste
+Votre application peut maintenant :
+- ✅ **Gérer les erreurs de parsing** PyArrow
+- ✅ **Charger les données CSV** directement depuis HF
+- ✅ **Fonctionner même avec données "sales"**
+- ✅ **Être déployée sur HF Spaces** sans problème
+**La solution est robuste et prête pour la production !** 🚀✨

app.py CHANGED Viewed

@@ -11,6 +11,7 @@ import plotly.graph_objects as go
 from plotly.subplots import make_subplots
 import warnings
 from datasets import load_dataset
 warnings.filterwarnings('ignore')
 # Configuration Hugging Face
@@ -32,13 +33,71 @@ class AgricultureAnalyzer:
         try:
             print(f"🤗 Chargement du dataset Hugging Face: {dataset_id}")
-            # Chargement du dataset
-            if hf_token:
-                dataset = load_dataset(dataset_id, token=hf_token)
-                print(f"🔑 Authentification avec token réussie")
-            else:
-                print(f"⚠️ Tentative sans token (dataset public)")
-                dataset = load_dataset(dataset_id)
             available_splits = list(dataset.keys())
             print(f"📊 Splits disponibles: {available_splits}")
@@ -61,11 +120,18 @@ class AgricultureAnalyzer:
             # Afficher quelques colonnes pour debug
             print(f"🏷️ Colonnes: {list(df_raw.columns)[:10]}{'...' if len(df_raw.columns) > 10 else ''}")
-            # Filtrer pour exclure les fichiers XLSX si une colonne 'file' existe
             if 'file' in df_raw.columns:
-                print(f"📁 Types de fichiers détectés: {df_raw['file'].unique()[:5]}")
                 # Ne garder que les fichiers CSV (exclure XLSX)
-                csv_mask = df_raw['file'].str.endswith('.csv', na=False)
                 csv_data = df_raw[csv_mask]
                 print(f"📊 Avant filtrage CSV: {len(df_raw)} lignes")
@@ -73,10 +139,21 @@ class AgricultureAnalyzer:
                     df_raw = csv_data
                     print(f"🗂️ Après filtrage CSV: {len(df_raw)} lignes restantes")
                 else:
-                    print(f"⚠️ Aucun fichier CSV trouvé dans la colonne 'file', conservation de toutes les données")
             # Filtrer par année si disponible
             if 'millesime' in df_raw.columns:
                 years = sorted(df_raw['millesime'].unique())
                 print(f"📅 Années disponibles: {years}")
@@ -99,12 +176,13 @@ class AgricultureAnalyzer:
         except Exception as e:
             print(f"❌ ERREUR lors du chargement du dataset HuggingFace:")
-            print(f"   {str(e)}")
             print(f"💡 Solutions:")
             print(f"   1. Vérifiez l'URL: https://huggingface.co/datasets/{dataset_id}")
             print(f"   2. Configurez votre token: export HF_TOKEN='votre_token'")
             print(f"   3. Vérifiez vos permissions d'accès")
-            raise Exception(f"Dataset HuggingFace requis: {dataset_id}")
     def create_sample_data(self):

 from plotly.subplots import make_subplots
 import warnings
 from datasets import load_dataset
+import pandas as pd
 warnings.filterwarnings('ignore')
 # Configuration Hugging Face
         try:
             print(f"🤗 Chargement du dataset Hugging Face: {dataset_id}")
+            # Chargement du dataset avec gestion des erreurs de parsing
+            try:
+                if hf_token:
+                    # Essayer d'abord avec le token
+                    dataset = load_dataset(dataset_id, token=hf_token)
+                    print(f"🔑 Authentification avec token réussie")
+                else:
+                    print(f"⚠️ Tentative sans token (dataset public)")
+                    dataset = load_dataset(dataset_id)
+            except Exception as parse_error:
+                print(f"⚠️ Erreur de parsing automatique: {str(parse_error)[:100]}...")
+                print(f"🔄 Tentative avec types de données flexibles...")
+                # Forcer tous les types en string pour éviter les erreurs de parsing
+                try:
+                    # Chargement avec configuration CSV personnalisée
+                    from datasets import DatasetDict
+                    import pandas as pd
+                    # Alternative: charger les fichiers CSV individuellement
+                    csv_files = [
+                        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2020.csv",
+                        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2021.csv",
+                        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2022.csv",
+                        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2023.csv",
+                        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2024.csv",
+                        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2025.csv"
+                    ]
+                    print(f"📊 Chargement alternatif: fichiers CSV individuels...")
+                    # Charger chaque fichier avec pandas et concaténer
+                    all_dataframes = []
+                    for csv_file in csv_files:
+                        try:
+                            # URL directe vers le fichier
+                            file_url = f"https://huggingface.co/datasets/{dataset_id}/resolve/main/{csv_file}"
+                            print(f"   ⚙️ Chargement: {csv_file}")
+                            # Charger avec pandas en forçant tout en string
+                            df_temp = pd.read_csv(file_url, dtype=str, na_filter=False)
+                            df_temp['source_file'] = csv_file  # Ajouter la source
+                            all_dataframes.append(df_temp)
+                        except Exception as file_error:
+                            print(f"   ⚠️ Erreur pour {csv_file}: {str(file_error)[:50]}...")
+                            continue
+                    if all_dataframes:
+                        # Concaténer tous les DataFrames
+                        df_combined = pd.concat(all_dataframes, ignore_index=True)
+                        print(f"✅ Chargement alternatif réussi: {len(df_combined)} lignes")
+                        # Convertir en format Dataset
+                        from datasets import Dataset
+                        dataset = DatasetDict({
+                            'train': Dataset.from_pandas(df_combined)
+                        })
+                    else:
+                        raise Exception("Aucun fichier CSV n'a pu être chargé")
+                except Exception as alt_error:
+                    print(f"❌ Échec du chargement alternatif: {str(alt_error)[:100]}...")
+                    raise parse_error  # Relancer l'erreur originale
             available_splits = list(dataset.keys())
             print(f"📊 Splits disponibles: {available_splits}")
             # Afficher quelques colonnes pour debug
             print(f"🏷️ Colonnes: {list(df_raw.columns)[:10]}{'...' if len(df_raw.columns) > 10 else ''}")
+            # Filtrer pour exclure les fichiers XLSX
+            # Vérifier les colonnes 'file' ou 'source_file'
+            file_column = None
             if 'file' in df_raw.columns:
+                file_column = 'file'
+            elif 'source_file' in df_raw.columns:
+                file_column = 'source_file'
+            if file_column:
+                print(f"📁 Types de fichiers détectés: {df_raw[file_column].unique()[:5]}")
                 # Ne garder que les fichiers CSV (exclure XLSX)
+                csv_mask = df_raw[file_column].str.endswith('.csv', na=False)
                 csv_data = df_raw[csv_mask]
                 print(f"📊 Avant filtrage CSV: {len(df_raw)} lignes")
                     df_raw = csv_data
                     print(f"🗂️ Après filtrage CSV: {len(df_raw)} lignes restantes")
                 else:
+                    print(f"⚠️ Aucun fichier CSV trouvé dans la colonne '{file_column}', conservation de toutes les données")
+            else:
+                print(f"⚠️ Pas de colonne de fichier détectée, on garde toutes les données")
             # Filtrer par année si disponible
             if 'millesime' in df_raw.columns:
+                # Convertir la colonne millesime en numérique si elle est en string
+                try:
+                    df_raw['millesime'] = pd.to_numeric(df_raw['millesime'], errors='coerce')
+                    # Supprimer les lignes avec millesime invalide
+                    df_raw = df_raw.dropna(subset=['millesime'])
+                    df_raw['millesime'] = df_raw['millesime'].astype(int)
+                except Exception as e:
+                    print(f"⚠️ Problème conversion millesime: {e}")
                 years = sorted(df_raw['millesime'].unique())
                 print(f"📅 Années disponibles: {years}")
         except Exception as e:
             print(f"❌ ERREUR lors du chargement du dataset HuggingFace:")
+            print(f"   {str(e)[:200]}...")
             print(f"💡 Solutions:")
             print(f"   1. Vérifiez l'URL: https://huggingface.co/datasets/{dataset_id}")
             print(f"   2. Configurez votre token: export HF_TOKEN='votre_token'")
             print(f"   3. Vérifiez vos permissions d'accès")
+            print(f"   4. Problème de parsing: données avec types incohérents")
+            raise Exception(f"Dataset HuggingFace requis: {dataset_id} - Erreur: {str(e)[:100]}...")
     def create_sample_data(self):

test_parsing_fix.py ADDED Viewed

	@@ -0,0 +1,65 @@

+#!/usr/bin/env python3
+"""
+Test de la correction du problème de parsing
+"""
+import pandas as pd
+def test_direct_csv_loading():
+    """Test du chargement direct des CSV depuis HuggingFace"""
+    dataset_id = "HackathonCRA/2024"
+    csv_files = [
+        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2020.csv",
+        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2021.csv",
+        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2022.csv",
+        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2023.csv",
+        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2024.csv",
+        "Interventions-(sortie-excel)-Station_Expérimentale_de_Kerguéhennec-2025.csv"
+    ]
+    print("🧪 Test du chargement CSV direct depuis HuggingFace")
+    print("=" * 60)
+    all_dataframes = []
+    for csv_file in csv_files:
+        try:
+            # URL directe vers le fichier
+            file_url = f"https://huggingface.co/datasets/{dataset_id}/resolve/main/{csv_file}"
+            print(f"📥 Test: {csv_file}")
+            # Charger avec pandas en forçant tout en string
+            df_temp = pd.read_csv(file_url, dtype=str, na_filter=False, nrows=5)  # Juste 5 lignes pour test
+            print(f"   ✅ Succès: {df_temp.shape[0]} lignes, {df_temp.shape[1]} colonnes")
+            print(f"   📊 Colonnes: {list(df_temp.columns)[:5]}...")
+            df_temp['source_file'] = csv_file
+            all_dataframes.append(df_temp)
+        except Exception as e:
+            print(f"   ❌ Erreur: {str(e)[:100]}...")
+            continue
+    if all_dataframes:
+        # Concaténer
+        df_combined = pd.concat(all_dataframes, ignore_index=True)
+        print(f"\n🎯 RÉSULTAT:")
+        print(f"   ✅ {len(csv_files)} fichiers testés")
+        print(f"   ✅ {len(all_dataframes)} fichiers chargés avec succès")
+        print(f"   ✅ {df_combined.shape[0]} lignes totales")
+        print(f"   ✅ {df_combined.shape[1]} colonnes")
+        # Vérifier millesime
+        if 'millesime' in df_combined.columns:
+            print(f"   📅 Années détectées: {sorted(df_combined['millesime'].unique())}")
+        print(f"\n💡 La solution de chargement direct fonctionne !")
+        return True
+    else:
+        print(f"\n❌ Aucun fichier n'a pu être chargé")
+        return False
+if __name__ == "__main__":
+    test_direct_csv_loading()

validate_app_structure.py ADDED Viewed

	@@ -0,0 +1,101 @@

+#!/usr/bin/env python3
+"""
+Validation de la structure finale de l'application
+"""
+import os
+def validate_app_structure():
+    """Valide que tous les fichiers nécessaires sont présents"""
+    print("🔍 Validation de la structure de l'application")
+    print("=" * 50)
+    required_files = {
+        'app.py': 'Application Gradio principale',
+        'requirements.txt': 'Dépendances Python',
+        'README.md': 'Métadonnées HuggingFace Spaces',
+        'sample_data.csv': 'Données de fallback (non utilisées)'
+    }
+    optional_files = {
+        'DEPLOY_HF.md': 'Guide de déploiement',
+        'PARSING_ERROR_FIX.md': 'Documentation de la correction',
+        'FINAL_SUMMARY.md': 'Résumé des modifications'
+    }
+    print("📁 Fichiers requis:")
+    all_present = True
+    for filename, description in required_files.items():
+        if os.path.exists(filename):
+            size = os.path.getsize(filename)
+            print(f"   ✅ {filename:<20} ({size:,} bytes) - {description}")
+        else:
+            print(f"   ❌ {filename:<20} MANQUANT - {description}")
+            all_present = False
+    print("\n📁 Fichiers optionnels:")
+    for filename, description in optional_files.items():
+        if os.path.exists(filename):
+            size = os.path.getsize(filename)
+            print(f"   ✅ {filename:<25} ({size:,} bytes) - {description}")
+        else:
+            print(f"   ⚪ {filename:<25} Absent - {description}")
+    print("\n🔧 Validation du contenu:")
+    # Vérifier app.py
+    if os.path.exists('app.py'):
+        with open('app.py', 'r', encoding='utf-8') as f:
+            content = f.read()
+        checks = [
+            ('HackathonCRA/2024', 'Dataset ID configuré'),
+            ('load_dataset', 'Import datasets présent'),
+            ('dtype=str', 'Chargement CSV robuste'),
+            ('csv_files =', 'Fallback CSV direct'),
+            ('pandas', 'Import pandas'),
+            ('AgricultureAnalyzer', 'Classe principale')
+        ]
+        for check, description in checks:
+            if check in content:
+                print(f"   ✅ {description}")
+            else:
+                print(f"   ⚠️ {description} - Non trouvé: '{check}'")
+    # Vérifier requirements.txt
+    if os.path.exists('requirements.txt'):
+        with open('requirements.txt', 'r') as f:
+            requirements = f.read()
+        deps = [
+            'gradio',
+            'datasets',
+            'huggingface_hub',
+            'pandas',
+            'numpy',
+            'plotly'
+        ]
+        print(f"\n📦 Dépendances:")
+        for dep in deps:
+            if dep in requirements:
+                print(f"   ✅ {dep}")
+            else:
+                print(f"   ❌ {dep} manquant")
+    print(f"\n🎯 RÉSULTAT:")
+    if all_present:
+        print("   ✅ Tous les fichiers requis sont présents")
+        print("   ✅ Application prête pour HuggingFace Spaces")
+        print("   🚀 Vous pouvez déployer maintenant !")
+    else:
+        print("   ❌ Des fichiers requis sont manquants")
+        print("   🔧 Corrigez avant le déploiement")
+    return all_present
+if __name__ == "__main__":
+    validate_app_structure()