Spaces:

ASI-Engineer
/

oc_p5-dev

Sleeping

App Files Files Community

ASI-Engineer commited on Dec 31, 2025

Commit

c49544d

verified ·

1 Parent(s): 50dc1d6

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

README.md +320 -77
src/schemas.py +13 -12

README.md CHANGED Viewed

@@ -1,106 +1,349 @@
----
-title: Employee Turnover Prediction API
-emoji: 👔
-colorFrom: blue
-colorTo: purple
-sdk: gradio
-pinned: true
-license: mit
-app_port: 7860
----
-# Employee Turnover Prediction API 🚀 (v3.2.1)
-API de prédiction du turnover des employés (XGBoost + SMOTE) avec endpoints batch, validation stricte et documentation à jour.
-## 🎯 Fonctionnalités
-- ✅ Prédiction de turnover (0 = reste, 1 = part)
 - 📦 Endpoint batch CSV (3 fichiers bruts)
-- 🎛️ Sliders Gradio et schémas Pydantic alignés sur les min/max réels
-- 📊 Probabilités et niveau de risque (Low/Medium/High)
-- 🔐 Authentification API Key (obligatoire)
-- 📝 Logs structurés JSON
-- 🛡️ Rate limiting (20 req/min)
-- 📚 Documentation OpenAPI/Swagger
-## 🔗 Endpoints
-| Endpoint | Description |
-|----------|-------------|
-| `/docs` | Documentation interactive Swagger |
-| `/health` | Status de l'API |
-| `/ui` | Interface Gradio interactive |
-| `/predict` | Prédiction unitaire (JSON, contraintes réelles) |
-| `/predict/batch` | Prédiction batch (3 fichiers CSV bruts) |
-## 🚀 Utilisation
-### Prédiction unitaire (toutes contraintes appliquées)
 ```bash
-curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict \
   -H "Content-Type: application/json" \
-  -H "X-API-Key: your-key" \
-  -d '{
-    "nombre_participation_pee": 0,
-    "nb_formations_suivies": 2,
-    "nombre_employee_sous_responsabilite": 1,
-    "distance_domicile_travail": 15,
-    "niveau_education": 3,
-    "domaine_etude": "Infra & Cloud",
-    "ayant_enfants": "Y",
-    "frequence_deplacement": "Occasionnel",
-    "annees_depuis_la_derniere_promotion": 2,
-    "annes_sous_responsable_actuel": 5,
-    "satisfaction_employee_environnement": 3,
-    "note_evaluation_precedente": 4,
-    "niveau_hierarchique_poste": 2,
-    "satisfaction_employee_nature_travail": 3,
-    "satisfaction_employee_equipe": 3,
-    "satisfaction_employee_equilibre_pro_perso": 2,
-    "note_evaluation_actuelle": 4,
-    "heure_supplementaires": "Non",
-    "augementation_salaire_precedente": 5.5,
-    "age": 35,
-    "genre": "M",
-    "revenu_mensuel": 4500.0,
-    "statut_marital": "Marié(e)",
-    "departement": "Commercial",
-    "poste": "Manager",
-    "nombre_experiences_precedentes": 3,
-    "nombre_heures_travailless": 80,
-    "annee_experience_totale": 10,
-    "annees_dans_l_entreprise": 5,
-    "annees_dans_le_poste_actuel": 2
-  }'
 ```
-### Prédiction batch (3 fichiers CSV bruts)
 ```bash
-curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict/batch \
-  -H "X-API-Key: your-key" \
-  -F "sondage_file=@extrait_sondage.csv" \
-  -F "eval_file=@extrait_eval.csv" \
-  -F "sirh_file=@extrait_sirh.csv"
 ```
-**Réponse :**
-```json
 {
   "total_employees": 1470,
-  "predictions": [...],
   "summary": {
     "total_stay": 1169,
     "total_leave": 301,
-    "high_risk_count": 222
   }
 }
 ```
-## 📚 Documentation complète
-Voir [docs/API.md](docs/API.md) ou le [GitHub Repository](https://github.com/chaton59/OC_P5) pour la documentation complète et les contraintes détaillées (min/max, enums, etc).

+# 🚀 Employee Turnover Prediction API - v3.2.1
+## 📊 Vue d'ensemble
+API REST de prédiction du turnover des employés basée sur un modèle XGBoost avec SMOTE.
+**✨ Nouveautés v3.2.1** :
+- 🎛️ Sliders Gradio et schémas Pydantic alignés sur les min/max réels des données d'entraînement
 - 📦 Endpoint batch CSV (3 fichiers bruts)
+- 🔑 Authentification API Key (prod)
+- 🔧 Correction preprocessing (scaling, ordre des colonnes)
+- 📝 Documentation et exemples mis à jour
+## 🏗️ Architecture
+```
+OC_P5/
+├── app.py                    # Point d'entrée FastAPI
+├── src/
+│   ├── auth.py              # Authentification API Key
+│   ├── config.py            # Configuration centralisée
+│   ├── logger.py            # Logging structuré (NOUVEAU)
+│   ├── models.py            # Chargement modèle HF Hub
+│   ├── preprocessing.py     # Pipeline preprocessing
+│   ├── rate_limit.py        # Rate limiting (NOUVEAU)
+│   └── schemas.py           # Validation Pydantic
+├── tests/                   # Suite pytest (84 tests, 75.12% couverture)
+├── logs/                    # Logs JSON (NOUVEAU)
+│   ├── api.log              # Tous les logs
+│   └── error.log            # Erreurs uniquement
+├── docs/                    # Documentation
+├── ml_model/                # Scripts training
+└── data/                    # Données sources
+## 🗄️ Schéma de la Base de Données (PostgreSQL)
+Schéma UML pour traçabilité ML (basé sur P5 prédiction turnover employé) :
+![Schéma BDD](docs/schema.png)
+- **dataset** : Dataset original (référence pour tests/retraining). Colonnes adaptées au modèle de prédiction turnover.
+- **ml_logs** : Logs inputs/outputs (JSON pour flexibilité, timestamp pour audits).
+Choix : Structure relationnelle pour efficacité volume data ; sécurité via user dédié (ml_user).
+Instructions : Voir create_db.py pour création.
+📖 **Guide complet pour débutants** : [docs/database_guide.md](docs/database_guide.md)
+### 🖥️ Outils DB Visuels
+Pour une gestion visuelle de la base de données PostgreSQL, utilisez DBeaver (recommandé pour la mission POC).
+#### Installation de DBeaver
+1. Téléchargez DBeaver Community depuis [dbeaver.io](https://dbeaver.io/download/).
+2. Installez l'application sur votre système (Windows/Mac/Linux).
+#### Configuration de la connexion PostgreSQL
+1. Ouvrez DBeaver et cliquez sur "New Database Connection".
+2. Sélectionnez "PostgreSQL" comme type de base de données.
+3. Renseignez les paramètres de connexion :
+   - **Host** : `localhost` (ou l'IP de votre serveur PostgreSQL)
+   - **Port** : `5432` (port par défaut PostgreSQL)
+   - **Database** : `oc_p5_db`
+   - **Username** : `ml_user`
+   - **Password** : Le mot de passe défini dans votre fichier `.env` (variable `DB_PASSWORD`)
+4. Cliquez sur "Test Connection" pour vérifier.
+5. Enregistrez la connexion.
+#### Utilisation
+- Explorez les tables `dataset` et `ml_logs`.
+- Exécutez des requêtes SQL directement dans l'interface.
+- Visualisez les données et les schémas.
+### 💾 Insertion du Dataset
 ```bash
+# Insérer le dataset complet (1470 employés)
+poetry run python scripts/insert_dataset.py
+# Vérifier l'insertion
+psql -h localhost -U ml_user -d oc_p5_db -c "SELECT COUNT(*) FROM dataset;"
+```
+### Prérequis
+- Python 3.12+
+- Poetry 1.7+
+- Git
+### Setup rapide
+```bash
+# 1. Cloner le repo
+git clone https://github.com/chaton59/OC_P5.git
+cd OC_P5
+# 2. Installer les dépendances
+poetry install
+# 3. Configurer l'environnement
+cp .env.example .env
+# Éditer .env avec vos valeurs
+# 4. Lancer l'API
+poetry run uvicorn app:app --reload
+# 5. Accéder à la documentation
+# http://localhost:8000/docs
+```
+## 📝 Configuration (.env)
+```bash
+# Mode développement (désactive auth + active logs détaillés)
+DEBUG=true
+# API Key (requis en production)
+API_KEY=your-secret-key-here
+# Logging (DEBUG, INFO, WARNING, ERROR, CRITICAL)
+LOG_LEVEL=INFO
+# HuggingFace Model
+HF_MODEL_REPO=ASI-Engineer/employee-turnover-model
+MODEL_FILENAME=model/model.pkl
+```
+## 🔒 Authentification
+### Mode DEBUG (développement)
+```bash
+# L'API Key n'est PAS requise
+curl http://localhost:8000/predict -H "Content-Type: application/json" -d '{...}'
+```
+### Mode PRODUCTION
+```bash
+# L'API Key est REQUISE
+curl http://localhost:8000/predict \
+  -H "X-API-Key: your-secret-key" \
   -H "Content-Type: application/json" \
+  -d '{...}'
 ```
+## 📡 Endpoints
+### 🏥 Health Check
 ```bash
+GET /health
+# Réponse
+{
+  "status": "healthy",
+  "model_loaded": true,
+  "model_type": "Pipeline",
+  "version": "3.2.1"
+}
 ```
+### 🔮 Prédiction unitaire
+```bash
+POST /predict
+Content-Type: application/json
+X-API-Key: your-key (en production)
+# Payload (exemple, contraintes réelles appliquées)
+{
+  "nombre_participation_pee": 0,
+  "nb_formations_suivies": 2,
+  "nombre_employee_sous_responsabilite": 1,
+  "distance_domicile_travail": 15,
+  "niveau_education": 3,
+  "domaine_etude": "Infra & Cloud",
+  "ayant_enfants": "Y",
+  "frequence_deplacement": "Occasionnel",
+  "annees_depuis_la_derniere_promotion": 2,
+  "annes_sous_responsable_actuel": 5,
+  "satisfaction_employee_environnement": 3,
+  "note_evaluation_precedente": 4,
+  "niveau_hierarchique_poste": 2,
+  "satisfaction_employee_nature_travail": 3,
+  "satisfaction_employee_equipe": 3,
+  "satisfaction_employee_equilibre_pro_perso": 2,
+  "note_evaluation_actuelle": 4,
+  "heure_supplementaires": "Non",
+  "augementation_salaire_precedente": 5.5,
+  "age": 35,
+  "genre": "M",
+  "revenu_mensuel": 4500.0,
+  "statut_marital": "Marié(e)",
+  "departement": "Commercial",
+  "poste": "Manager",
+  "nombre_experiences_precedentes": 3,
+  "nombre_heures_travailless": 80,
+  "annee_experience_totale": 10,
+  "annees_dans_l_entreprise": 5,
+  "annees_dans_le_poste_actuel": 2
+}
+# Réponse
+{
+  "prediction": 0,                    # 0 = reste, 1 = part
+  "probability_0": 0.85,              # Probabilité de rester
+  "probability_1": 0.15,              # Probabilité de partir
+  "risk_level": "Low"                 # Low, Medium, High
+}
+```
+### 📦 Prédiction batch (CSV)
+```bash
+POST /predict/batch
+X-API-Key: your-key (en production)
+# Envoi des 3 fichiers CSV bruts
+curl -X POST "http://localhost:8000/predict/batch" \
+  -H "X-API-Key: your-key" \
+  -F "sondage_file=@data/extrait_sondage.csv" \
+  -F "eval_file=@data/extrait_eval.csv" \
+  -F "sirh_file=@data/extrait_sirh.csv"
+# Réponse
 {
   "total_employees": 1470,
+  "predictions": [
+    {"employee_id": 1, "prediction": 1, "probability_leave": 0.84, "risk_level": "High"},
+    {"employee_id": 2, "prediction": 0, "probability_leave": 0.11, "risk_level": "Low"}
+  ],
   "summary": {
     "total_stay": 1169,
     "total_leave": 301,
+    "high_risk_count": 222,
+    "medium_risk_count": 233,
+    "low_risk_count": 1015
   }
 }
 ```
+## 📊 Logging
+### Logs structurés JSON
+**Fichiers** :
+- `logs/api.log` : Tous les logs
+- `logs/error.log` : Erreurs uniquement
+**Format** :
+```json
+{
+  "timestamp": "2025-12-26T10:30:45",
+  "level": "INFO",
+  "logger": "employee_turnover_api",
+  "message": "Request POST /predict",
+  "method": "POST",
+  "path": "/predict",
+  "status_code": 200,
+  "duration_ms": 23.45,
+  "client_host": "127.0.0.1"
+}
+```
+## 🛡️ Rate Limiting
+**Configuration** :
+- **Développement** : Désactivé (DEBUG=true)
+- **Production** : 20 requêtes/minute par IP ou API Key
+**En cas de dépassement** :
+```json
+{
+  "error": "Rate limit exceeded",
+  "message": "20 per 1 minute"
+}
+```
+## ✅ Tests
+```bash
+# Tous les tests
+poetry run pytest tests/ -v
+# Avec couverture
+poetry run pytest tests/ --cov --cov-report=html
+# Voir rapport HTML
+open htmlcov/index.html
+```
+**Résultats** :
+- ✅ 84 tests passés
+- 📊 75.12% de couverture globale
+## 🚀 Déploiement
+### Variables d'environnement requises
+```bash
+DEBUG=false
+API_KEY=<votre-clé-sécurisée>
+LOG_LEVEL=INFO
+```
+### HuggingFace Spaces
+Prêt pour déploiement avec `app.py` et `requirements.txt`
+## 📚 Documentation
+- **API Interactive** : http://localhost:8000/docs
+- **ReDoc** : http://localhost:8000/redoc
+- **Guide complet** : [docs/API_GUIDE.md](docs/API_GUIDE.md)
+- **Standards** : [docs/standards.md](docs/standards.md)
+- **Couverture tests** : [docs/TEST_COVERAGE.md](docs/TEST_COVERAGE.md)
+## 📦 Dépendances principales
+- **FastAPI** 0.115.14 : Framework web
+- **Pydantic** 2.12.5 : Validation données
+- **XGBoost** 2.1.3 : Modèle ML
+- **SlowAPI** 0.1.9 : Rate limiting
+- **python-json-logger** 4.0.0 : Logs structurés
+- **pytest** 9.0.2 : Tests
+## 🔄 Changelog
+### v3.2.1 (janvier 2026)
+- 🎛️ Sliders Gradio et schémas Pydantic alignés sur les min/max réels des données d'entraînement
+- 📦 Endpoint batch CSV (3 fichiers bruts)
+- 🔑 Authentification API Key (prod)
+- 🔧 Correction preprocessing (scaling, ordre des colonnes)
+- 📝 Documentation et exemples mis à jour
+### v2.2.0 (27 décembre 2025)
+- 📦 Nouvel endpoint `/predict/batch` pour traitement CSV direct
+- 🔧 Fix preprocessing : ajout du scaling des features
+- 🔧 Fix preprocessing : correction de l'ordre des colonnes
+- 📊 Amélioration précision des prédictions (~90%)
+### v2.1.0 (26 décembre 2025)
+- ✨ Système de logging structuré JSON
+- 🛡️ Rate limiting avec SlowAPI
+- ⚡ Amélioration gestion d'erreurs
+- 📊 Monitoring des performances
+### v2.0.0 (26 décembre 2025)
+- ✅ Suite de tests complète (84 tests)
+- 🔐 Authentification API Key
+- 📊 88% de couverture de code
+## 👥 Auteurs
+- **Projet** : OpenClassrooms P5
+- **Repo** : [github.com/chaton59/OC_P5](https://github.com/chaton59/OC_P5)

src/schemas.py CHANGED Viewed

@@ -6,9 +6,16 @@ Ces schémas correspondent aux colonnes brutes du dataset avant preprocessing,
 permettant une validation stricte des inputs avec messages d'erreur clairs.
 """
 from enum import Enum
-from typing import Literal
-from pydantic import BaseModel, Field, field_validator, ConfigDict
 # Enums pour les valeurs catégorielles
@@ -132,8 +139,10 @@ class EmployeeInput(BaseModel):
     heure_supplementaires: Literal["Oui", "Non"] = Field(
         ..., description="Fait des heures supplémentaires"
     )
-    augementation_salaire_precedente: float = Field(
-        ..., ge=0, le=100, description="Augmentation salaire précédente (%)"
     )
     # === Données SIRH ===
@@ -164,14 +173,6 @@ class EmployeeInput(BaseModel):
         ..., ge=0, le=18, description="Années dans le poste actuel (0-18)"
     )
-    @field_validator("augementation_salaire_precedente")
-    @classmethod
-    def validate_augmentation(cls, v: float) -> float:
-        """Nettoie le format de l'augmentation (enlève % si présent)."""
-        if isinstance(v, str):
-            v = float(v.replace(" %", "").replace("%", ""))
-        return v
     model_config = ConfigDict(
         json_schema_extra={
             "example": {

 permettant une validation stricte des inputs avec messages d'erreur clairs.
 """
 from enum import Enum
+from typing import Annotated, Literal
+from pydantic import BaseModel, BeforeValidator, ConfigDict, Field
+def validate_augmentation(v):
+    """Nettoie le format de l'augmentation (enlève % si présent)."""
+    if isinstance(v, str):
+        v = float(v.replace(" %", "").replace("%", ""))
+    return v
 # Enums pour les valeurs catégorielles
     heure_supplementaires: Literal["Oui", "Non"] = Field(
         ..., description="Fait des heures supplémentaires"
     )
+    augementation_salaire_precedente: Annotated[
+        float, BeforeValidator(validate_augmentation)
+    ] = Field(
+        default=..., ge=0, le=100, description="Augmentation salaire précédente (%)"
     )
     # === Données SIRH ===
         ..., ge=0, le=18, description="Années dans le poste actuel (0-18)"
     )
     model_config = ConfigDict(
         json_schema_extra={
             "example": {