Spaces:

ASI-Engineer
/

oc_p5-dev

Sleeping

App Files Files Community

ASI-Engineer commited on Dec 27, 2025

Commit

abd571c

verified ·

1 Parent(s): 38aa465

Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +259 -34
README_HF.md +33 -9
app.py +158 -3
src/config.py +1 -1
src/preprocessing.py +227 -16
src/schemas.py +49 -0

README.md CHANGED Viewed

@@ -1,49 +1,274 @@
----
-title: Employee Turnover Prediction API
-emoji: 👔
-colorFrom: blue
-colorTo: purple
-sdk: docker
-pinned: true
-license: mit
-app_port: 7860
----
-# Employee Turnover Prediction API 🚀
-API de prédiction du turnover des employés avec XGBoost + SMOTE.
-## 🎯 Fonctionnalités
-- ✅ Prédiction de turnover (0 = reste, 1 = part)
-- 📊 Probabilités et niveau de risque (Low/Medium/High)
 - 🔐 Authentification API Key
-- 📝 Logs structurés JSON
-- 🛡️ Rate limiting (20 req/min)
-- 📚 Documentation OpenAPI/Swagger
-## 🔗 Endpoints
-- **Docs** : `/docs` - Documentation interactive
-- **Health** : `/health` - Status de l'API
-- **Predict** : `/predict` - Prédiction de turnover
-## 🚀 Utilisation
 ```bash
-# Health check
-curl https://asi-engineer-employee-turnover-api.hf.space/health
-# Prédiction
-curl -X POST https://asi-engineer-employee-turnover-api.hf.space/predict \
   -H "Content-Type: application/json" \
-  -d '{
-    "satisfaction_employee_environnement": 3,
-    "satisfaction_employee_nature_travail": 4,
-    ...
-  }'
 ```
-## 📚 Documentation complète
-Voir [GitHub Repository](https://github.com/chaton59/OC_P5) pour la documentation complète.

+# 🚀 Employee Turnover Prediction API - v2.2.0
+## 📊 Vue d'ensemble
+API REST de prédiction du turnover des employés basée sur un modèle XGBoost avec SMOTE.
+**✨ Nouveautés v2.2.0** :
+- 📦 **Endpoint batch CSV** : Envoyez directement vos 3 fichiers CSV bruts
+- 🔧 Correction du preprocessing (scaling + ordre des colonnes)
+- 📊 Prédictions plus précises (~90% accuracy)
+**✨ v2.1.0** :
+- 📝 Logging structuré JSON
+- 🛡️ Rate limiting (20 req/min par IP)
+- ⚡ Gestion d'erreurs améliorée
 - 🔐 Authentification API Key
+## 🏗️ Architecture
+```
+OC_P5/
+├── app.py                    # Point d'entrée FastAPI
+├── src/
+│   ├── auth.py              # Authentification API Key
+│   ├── config.py            # Configuration centralisée
+│   ├── logger.py            # Logging structuré (NOUVEAU)
+│   ├── models.py            # Chargement modèle HF Hub
+│   ├── preprocessing.py     # Pipeline preprocessing
+│   ├── rate_limit.py        # Rate limiting (NOUVEAU)
+│   └── schemas.py           # Validation Pydantic
+├── tests/                   # Suite pytest (33 tests, 88% couverture)
+├── logs/                    # Logs JSON (NOUVEAU)
+│   ├── api.log              # Tous les logs
+│   └── error.log            # Erreurs uniquement
+├── docs/                    # Documentation
+├── ml_model/                # Scripts training
+└── data/                    # Données sources
+```
+## 🚀 Installation
+### Prérequis
+- Python 3.12+
+- Poetry 1.7+
+- Git
+### Setup rapide
 ```bash
+# 1. Cloner le repo
+git clone https://github.com/chaton59/OC_P5.git
+cd OC_P5
+# 2. Installer les dépendances
+poetry install
+# 3. Configurer l'environnement
+cp .env.example .env
+# Éditer .env avec vos valeurs
+# 4. Lancer l'API
+poetry run uvicorn app:app --reload
+# 5. Accéder à la documentation
+# http://localhost:8000/docs
+```
+## 📝 Configuration (.env)
+```bash
+# Mode développement (désactive auth + active logs détaillés)
+DEBUG=true
+# API Key (requis en production)
+API_KEY=your-secret-key-here
+# Logging (DEBUG, INFO, WARNING, ERROR, CRITICAL)
+LOG_LEVEL=INFO
+# HuggingFace Model
+HF_MODEL_REPO=ASI-Engineer/employee-turnover-model
+MODEL_FILENAME=model/model.pkl
+```
+## 🔒 Authentification
+### Mode DEBUG (développement)
+```bash
+# L'API Key n'est PAS requise
+curl http://localhost:8000/predict -H "Content-Type: application/json" -d '{...}'
+```
+### Mode PRODUCTION
+```bash
+# L'API Key est REQUISE
+curl http://localhost:8000/predict \
+  -H "X-API-Key: your-secret-key" \
   -H "Content-Type: application/json" \
+  -d '{...}'
+```
+## 📡 Endpoints
+### 🏥 Health Check
+```bash
+GET /health
+# Réponse
+{
+  "status": "healthy",
+  "model_loaded": true,
+  "model_type": "Pipeline",
+  "version": "2.2.0"
+}
+```
+### 🔮 Prédiction unitaire
+```bash
+POST /predict
+Content-Type: application/json
+X-API-Key: your-key (en production)
+# Payload (tous les champs d'un employé)
+{
+  "nombre_participation_pee": 0,
+  "nb_formations_suivies": 2,
+  "satisfaction_employee_environnement": 3,
+  ...
+}
+# Réponse
+{
+  "prediction": 0,                    # 0 = reste, 1 = part
+  "probability_0": 0.85,              # Probabilité de rester
+  "probability_1": 0.15,              # Probabilité de partir
+  "risk_level": "Low"                 # Low, Medium, High
+}
+```
+### 📦 Prédiction batch (NOUVEAU)
+```bash
+POST /predict/batch
+X-API-Key: your-key (en production)
+# Envoi des 3 fichiers CSV bruts
+curl -X POST "http://localhost:8000/predict/batch" \
+  -H "X-API-Key: your-key" \
+  -F "sondage_file=@data/extrait_sondage.csv" \
+  -F "eval_file=@data/extrait_eval.csv" \
+  -F "sirh_file=@data/extrait_sirh.csv"
+# Réponse
+{
+  "total_employees": 1470,
+  "predictions": [
+    {"employee_id": 1, "prediction": 1, "probability_leave": 0.84, "risk_level": "High"},
+    {"employee_id": 2, "prediction": 0, "probability_leave": 0.11, "risk_level": "Low"}
+  ],
+  "summary": {
+    "total_stay": 1169,
+    "total_leave": 301,
+    "high_risk_count": 222,
+    "medium_risk_count": 233,
+    "low_risk_count": 1015
+  }
+}
 ```
+## 📊 Logging
+### Logs structurés JSON
+**Fichiers** :
+- `logs/api.log` : Tous les logs
+- `logs/error.log` : Erreurs uniquement
+**Format** :
+```json
+{
+  "timestamp": "2025-12-26T10:30:45",
+  "level": "INFO",
+  "logger": "employee_turnover_api",
+  "message": "Request POST /predict",
+  "method": "POST",
+  "path": "/predict",
+  "status_code": 200,
+  "duration_ms": 23.45,
+  "client_host": "127.0.0.1"
+}
+```
+## 🛡️ Rate Limiting
+**Configuration** :
+- **Développement** : Désactivé (DEBUG=true)
+- **Production** : 20 requêtes/minute par IP ou API Key
+**En cas de dépassement** :
+```json
+{
+  "error": "Rate limit exceeded",
+  "message": "20 per 1 minute"
+}
+```
+## ✅ Tests
+```bash
+# Tous les tests
+poetry run pytest tests/ -v
+# Avec couverture
+poetry run pytest tests/ --cov --cov-report=html
+# Voir rapport HTML
+open htmlcov/index.html
+```
+**Résultats** :
+- ✅ 33 tests passés
+- 📊 88% de couverture globale
+## 🚀 Déploiement
+### Variables d'environnement requises
+```bash
+DEBUG=false
+API_KEY=<votre-clé-sécurisée>
+LOG_LEVEL=INFO
+```
+### HuggingFace Spaces
+Prêt pour déploiement avec `app.py` et `requirements.txt`
+## 📚 Documentation
+- **API Interactive** : http://localhost:8000/docs
+- **ReDoc** : http://localhost:8000/redoc
+- **Guide complet** : [docs/API_GUIDE.md](docs/API_GUIDE.md)
+- **Standards** : [docs/standards.md](docs/standards.md)
+- **Couverture tests** : [docs/TEST_COVERAGE.md](docs/TEST_COVERAGE.md)
+## 📦 Dépendances principales
+- **FastAPI** 0.115.14 : Framework web
+- **Pydantic** 2.12.5 : Validation données
+- **XGBoost** 2.1.3 : Modèle ML
+- **SlowAPI** 0.1.9 : Rate limiting
+- **python-json-logger** 4.0.0 : Logs structurés
+- **pytest** 9.0.2 : Tests
+## 🔄 Changelog
+### v2.2.0 (27 décembre 2025)
+- 📦 Nouvel endpoint `/predict/batch` pour traitement CSV direct
+- 🔧 Fix preprocessing : ajout du scaling des features
+- 🔧 Fix preprocessing : correction de l'ordre des colonnes
+- 📊 Amélioration précision des prédictions (~90%)
+### v2.1.0 (26 décembre 2025)
+- ✨ Système de logging structuré JSON
+- 🛡️ Rate limiting avec SlowAPI
+- ⚡ Amélioration gestion d'erreurs
+- 📊 Monitoring des performances
+### v2.0.0 (26 décembre 2025)
+- ✅ Suite de tests complète (36 tests)
+- 🔐 Authentification API Key
+- 📊 88% de couverture de code
+## 👥 Auteurs
+- **Projet** : OpenClassrooms P5
+- **Repo** : [github.com/chaton59/OC_P5](https://github.com/chaton59/OC_P5)

README_HF.md CHANGED Viewed

@@ -16,6 +16,7 @@ API de prédiction du turnover des employés avec XGBoost + SMOTE.
 ## 🎯 Fonctionnalités
 - ✅ Prédiction de turnover (0 = reste, 1 = part)
 - 📊 Probabilités et niveau de risque (Low/Medium/High)
 - 🔐 Authentification API Key
 - 📝 Logs structurés JSON
@@ -24,26 +25,49 @@ API de prédiction du turnover des employés avec XGBoost + SMOTE.
 ## 🔗 Endpoints
-- **Docs** : `/docs` - Documentation interactive
-- **Health** : `/health` - Status de l'API
-- **Predict** : `/predict` - Prédiction de turnover
 ## 🚀 Utilisation
 ```bash
-# Health check
-curl https://asi-engineer-employee-turnover-api.hf.space/health
-# Prédiction
-curl -X POST https://asi-engineer-employee-turnover-api.hf.space/predict \
   -H "Content-Type: application/json" \
   -d '{
     "satisfaction_employee_environnement": 3,
-    "satisfaction_employee_nature_travail": 4,
     ...
   }'
 ```
 ## 📚 Documentation complète
 Voir [GitHub Repository](https://github.com/chaton59/OC_P5) pour la documentation complète.

 ## 🎯 Fonctionnalités
 - ✅ Prédiction de turnover (0 = reste, 1 = part)
+- 📦 **Nouveau** : Endpoint batch pour traiter vos fichiers CSV directement
 - 📊 Probabilités et niveau de risque (Low/Medium/High)
 - 🔐 Authentification API Key
 - 📝 Logs structurés JSON
 ## 🔗 Endpoints
+| Endpoint | Description |
+|----------|-------------|
+| `/docs` | Documentation interactive Swagger |
+| `/health` | Status de l'API |
+| `/ui` | Interface Gradio interactive |
+| `/predict` | Prédiction unitaire (JSON) |
+| `/predict/batch` | Prédiction batch (3 fichiers CSV) |
 ## 🚀 Utilisation
+### Prédiction unitaire
 ```bash
+curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict \
   -H "Content-Type: application/json" \
   -d '{
+    "nombre_participation_pee": 0,
+    "nb_formations_suivies": 2,
     "satisfaction_employee_environnement": 3,
     ...
   }'
 ```
+### Prédiction batch (fichiers CSV)
+```bash
+curl -X POST https://asi-engineer-oc-p5-dev.hf.space/predict/batch \
+  -F "sondage_file=@extrait_sondage.csv" \
+  -F "eval_file=@extrait_eval.csv" \
+  -F "sirh_file=@extrait_sirh.csv"
+```
+**Réponse :**
+```json
+{
+  "total_employees": 1470,
+  "predictions": [...],
+  "summary": {
+    "total_stay": 1169,
+    "total_leave": 301,
+    "high_risk_count": 222
+  }
+}
+```
 ## 📚 Documentation complète
 Voir [GitHub Repository](https://github.com/chaton59/OC_P5) pour la documentation complète.

app.py CHANGED Viewed

@@ -8,12 +8,15 @@ Cette API expose le modèle de prédiction de départ des employés avec :
 - Health check pour monitoring
 - Documentation OpenAPI/Swagger automatique
 - Interface Gradio pour utilisation interactive
 """
 import time
 from contextlib import asynccontextmanager
 import gradio as gr
-from fastapi import Depends, FastAPI, HTTPException, Request
 from fastapi.middleware.cors import CORSMiddleware
 from slowapi import _rate_limit_exceeded_handler
 from slowapi.errors import RateLimitExceeded
@@ -23,9 +26,19 @@ from src.config import get_settings
 from src.gradio_ui import create_gradio_interface
 from src.logger import logger, log_model_load, log_request
 from src.models import get_model_info, load_model
-from src.preprocessing import preprocess_for_prediction
 from src.rate_limit import limiter
-from src.schemas import EmployeeInput, HealthCheck, PredictionOutput
 # Charger la configuration
 settings = get_settings()
@@ -240,6 +253,148 @@ async def predict(request: Request, employee: EmployeeInput):
         )
 # Monter l'interface Gradio sur /ui
 gradio_app = create_gradio_interface()
 app = gr.mount_gradio_app(app, gradio_app, path="/ui")

 - Health check pour monitoring
 - Documentation OpenAPI/Swagger automatique
 - Interface Gradio pour utilisation interactive
+- Endpoint batch pour traitement de fichiers CSV
 """
+import io
 import time
 from contextlib import asynccontextmanager
 import gradio as gr
+import pandas as pd
+from fastapi import Depends, FastAPI, File, HTTPException, Request, UploadFile
 from fastapi.middleware.cors import CORSMiddleware
 from slowapi import _rate_limit_exceeded_handler
 from slowapi.errors import RateLimitExceeded
 from src.gradio_ui import create_gradio_interface
 from src.logger import logger, log_model_load, log_request
 from src.models import get_model_info, load_model
+from src.preprocessing import (
+    merge_csv_dataframes,
+    preprocess_dataframe_for_prediction,
+    preprocess_for_prediction,
+)
 from src.rate_limit import limiter
+from src.schemas import (
+    BatchPredictionOutput,
+    EmployeeInput,
+    EmployeePrediction,
+    HealthCheck,
+    PredictionOutput,
+)
 # Charger la configuration
 settings = get_settings()
         )
+@app.post(
+    "/predict/batch",
+    response_model=BatchPredictionOutput,
+    tags=["Prediction"],
+    dependencies=[Depends(verify_api_key)] if settings.is_api_key_required else [],
+)
+@limiter.limit("5/minute")
+async def predict_batch(
+    request: Request,
+    sondage_file: UploadFile = File(..., description="Fichier CSV du sondage"),
+    eval_file: UploadFile = File(..., description="Fichier CSV des évaluations"),
+    sirh_file: UploadFile = File(..., description="Fichier CSV SIRH"),
+):
+    """
+    Endpoint de prédiction batch à partir de fichiers CSV.
+    **PROTÉGÉ PAR API KEY** : Requiert le header `X-API-Key` en production.
+    Prend en entrée les 3 fichiers CSV (sondage, évaluation, SIRH),
+    les fusionne, applique le preprocessing et retourne les prédictions
+    pour tous les employés.
+    Args:
+        sondage_file: Fichier CSV contenant les données de sondage.
+        eval_file: Fichier CSV contenant les données d'évaluation.
+        sirh_file: Fichier CSV contenant les données SIRH.
+    Returns:
+        BatchPredictionOutput: Prédictions pour tous les employés.
+    Raises:
+        HTTPException: 400 si les fichiers sont invalides.
+        HTTPException: 500 si erreur lors du traitement.
+    """
+    try:
+        # 1. Lire les fichiers CSV
+        sondage_content = await sondage_file.read()
+        eval_content = await eval_file.read()
+        sirh_content = await sirh_file.read()
+        sondage_df = pd.read_csv(io.BytesIO(sondage_content))
+        eval_df = pd.read_csv(io.BytesIO(eval_content))
+        sirh_df = pd.read_csv(io.BytesIO(sirh_content))
+        logger.info(
+            f"Fichiers CSV chargés: sondage={len(sondage_df)}, "
+            f"eval={len(eval_df)}, sirh={len(sirh_df)} lignes"
+        )
+        # 2. Fusionner les DataFrames
+        merged_df = merge_csv_dataframes(sondage_df, eval_df, sirh_df)
+        employee_ids = merged_df["original_employee_id"].tolist()
+        merged_df = merged_df.drop(columns=["original_employee_id"])
+        # Supprimer la colonne cible si présente
+        if "a_quitte_l_entreprise" in merged_df.columns:
+            merged_df = merged_df.drop(columns=["a_quitte_l_entreprise"])
+        logger.info(f"DataFrame fusionné: {len(merged_df)} employés")
+        # 3. Preprocessing
+        X = preprocess_dataframe_for_prediction(merged_df)
+        # 4. Charger le modèle et prédire
+        model = load_model()
+        predictions = model.predict(X.values)
+        probabilities = model.predict_proba(X.values)
+        # 5. Construire la réponse
+        results = []
+        risk_counts = {"Low": 0, "Medium": 0, "High": 0}
+        leave_count = 0
+        for i, emp_id in enumerate(employee_ids):
+            prob_stay = float(probabilities[i][0])
+            prob_leave = float(probabilities[i][1])
+            pred = int(predictions[i])
+            if prob_leave < 0.3:
+                risk = "Low"
+            elif prob_leave < 0.7:
+                risk = "Medium"
+            else:
+                risk = "High"
+            risk_counts[risk] += 1
+            if pred == 1:
+                leave_count += 1
+            results.append(
+                EmployeePrediction(
+                    employee_id=int(emp_id),
+                    prediction=pred,
+                    probability_stay=prob_stay,
+                    probability_leave=prob_leave,
+                    risk_level=risk,
+                )
+            )
+        summary = {
+            "total_stay": len(results) - leave_count,
+            "total_leave": leave_count,
+            "high_risk_count": risk_counts["High"],
+            "medium_risk_count": risk_counts["Medium"],
+            "low_risk_count": risk_counts["Low"],
+        }
+        logger.info(f"Prédictions terminées: {summary}")
+        return BatchPredictionOutput(
+            total_employees=len(results),
+            predictions=results,
+            summary=summary,
+        )
+    except pd.errors.EmptyDataError:
+        raise HTTPException(
+            status_code=400,
+            detail={
+                "error": "Empty CSV file",
+                "message": "Un des fichiers CSV est vide.",
+            },
+        )
+    except KeyError as e:
+        raise HTTPException(
+            status_code=400,
+            detail={
+                "error": "Missing column",
+                "message": f"Colonne manquante dans les CSV: {e}",
+            },
+        )
+    except Exception as e:
+        logger.exception("Unexpected error during batch prediction")
+        raise HTTPException(
+            status_code=500,
+            detail={
+                "error": "Batch prediction failed",
+                "message": str(e),
+            },
+        )
 # Monter l'interface Gradio sur /ui
 gradio_app = create_gradio_interface()
 app = gr.mount_gradio_app(app, gradio_app, path="/ui")

src/config.py CHANGED Viewed

@@ -26,7 +26,7 @@ class Settings:
     API_KEY: str = os.getenv("API_KEY", "dev-key-change-me-in-production")
     # ===== API =====
-    API_VERSION: str = os.getenv("API_VERSION", "1.0.0")
     API_HOST: str = os.getenv("API_HOST", "0.0.0.0")
     API_PORT: int = int(os.getenv("API_PORT", "8000"))

     API_KEY: str = os.getenv("API_KEY", "dev-key-change-me-in-production")
     # ===== API =====
+    API_VERSION: str = os.getenv("API_VERSION", "2.2.0")
     API_HOST: str = os.getenv("API_HOST", "0.0.0.0")
     API_PORT: int = int(os.getenv("API_PORT", "8000"))

src/preprocessing.py CHANGED Viewed

@@ -5,8 +5,7 @@ Module de preprocessing pour transformer les données d'entrée avant prédictio
 Ce module applique les mêmes transformations que le pipeline d'entraînement :
 - Feature engineering (ratios, moyennes)
 - Encoding (OneHot, Ordinal)
-Note: Pas de scaling car XGBoost est insensible à l'échelle des features.
 """
 import numpy as np
 import pandas as pd
@@ -14,6 +13,98 @@ from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
 from src.schemas import EmployeeInput
 def create_input_dataframe(employee: EmployeeInput) -> pd.DataFrame:
     """
@@ -119,7 +210,7 @@ def encode_and_scale(df: pd.DataFrame) -> pd.DataFrame:
         df: DataFrame avec features engineered.
     Returns:
-        DataFrame transformé avec 50 colonnes (comme training).
     """
     df = df.copy()
@@ -184,10 +275,71 @@ def encode_and_scale(df: pd.DataFrame) -> pd.DataFrame:
     # Concaténer les encodages OneHot
     df = pd.concat([df, encoded_non_ord], axis=1)
-    # NOTE: PAS de scaling !
-    # XGBoost est un modèle basé sur des arbres, insensible à l'échelle.
-    # Le scaling sur une seule observation causait des valeurs constantes
-    # car StandardScaler.fit_transform() sur 1 ligne donne toujours 0.
     return df
@@ -221,12 +373,71 @@ def preprocess_for_prediction(employee: EmployeeInput) -> np.ndarray:
     return df.values
-# TODO: Implémenter le chargement des artifacts sauvegardés
-# def load_preprocessing_artifacts(run_id: str) -> dict:
-#     """
-#     Charge les encoders et scaler depuis MLflow.
-#
-#     Returns:
-#         dict avec keys: 'onehot_encoder', 'ordinal_encoder', 'scaler'
-#     """
-#     pass

 Ce module applique les mêmes transformations que le pipeline d'entraînement :
 - Feature engineering (ratios, moyennes)
 - Encoding (OneHot, Ordinal)
+- Scaling (StandardScaler avec paramètres sauvegardés)
 """
 import numpy as np
 import pandas as pd
 from src.schemas import EmployeeInput
+# Paramètres du scaler sauvegardés depuis l'entraînement
+# Ces valeurs doivent correspondre exactement à celles utilisées lors du training
+SCALER_PARAMS = {
+    "columns": [
+        "nombre_participation_pee",
+        "nb_formations_suivies",
+        "nombre_employee_sous_responsabilite",
+        "distance_domicile_travail",
+        "niveau_education",
+        "annees_depuis_la_derniere_promotion",
+        "annes_sous_responsable_actuel",
+        "satisfaction_employee_environnement",
+        "note_evaluation_precedente",
+        "niveau_hierarchique_poste",
+        "satisfaction_employee_nature_travail",
+        "satisfaction_employee_equipe",
+        "satisfaction_employee_equilibre_pro_perso",
+        "note_evaluation_actuelle",
+        "augementation_salaire_precedente",
+        "age",
+        "revenu_mensuel",
+        "nombre_experiences_precedentes",
+        "nombre_heures_travailless",
+        "annee_experience_totale",
+        "annees_dans_l_entreprise",
+        "annees_dans_le_poste_actuel",
+        "revenu_par_anciennete",
+        "experience_par_anciennete",
+        "satisfaction_moyenne",
+        "promo_par_anciennete",
+        "frequence_deplacement",
+    ],
+    "mean": [
+        0.7938775510204081,
+        2.7993197278911564,
+        1.0,
+        9.19251700680272,
+        2.912925170068027,
+        2.1789115646258503,
+        4.102721088435374,
+        2.721768707482993,
+        2.7299319727891156,
+        2.0639455782312925,
+        2.7285714285714286,
+        2.7122448979591836,
+        2.7612244897959184,
+        3.1537414965986397,
+        15.209523809523809,
+        36.923809523809524,
+        6502.931292517007,
+        2.6931972789115646,
+        80.0,
+        11.268707482993197,
+        6.980272108843537,
+        4.214965986394557,
+        1170.0019803036198,
+        1.9285635921785853,
+        2.730952380952381,
+        0.23624418065415922,
+        1.0863945578231293,
+    ],
+    "scale": [
+        0.8517867966287158,
+        1.2888320187689346,
+        1.0,
+        8.104106529671768,
+        1.0238165299102608,
+        3.1873417003246085,
+        3.502524756587405,
+        1.0927103547111134,
+        0.7113190741884202,
+        1.1065633247112856,
+        1.1024709415085499,
+        1.0808410657505316,
+        0.7062354909319911,
+        0.3607007746349458,
+        3.658692627979528,
+        9.132265690615387,
+        4706.355164823003,
+        2.497159198593844,
+        1.0,
+        7.7078836108215345,
+        6.0028580432875085,
+        3.575242796407657,
+        1353.331540788815,
+        2.2050718706188372,
+        0.5056427624070211,
+        0.2687717006578023,
+        0.5319888822661019,
+    ],
+}
 def create_input_dataframe(employee: EmployeeInput) -> pd.DataFrame:
     """
         df: DataFrame avec features engineered.
     Returns:
+        DataFrame transformé avec 50 colonnes dans l'ordre exact du modèle.
     """
     df = df.copy()
     # Concaténer les encodages OneHot
     df = pd.concat([df, encoded_non_ord], axis=1)
+    # === RÉORDONNER LES COLONNES SELON L'ORDRE DU MODÈLE ===
+    # Ordre exact des features attendues par le modèle (50 colonnes)
+    expected_columns = [
+        "nombre_participation_pee",
+        "nb_formations_suivies",
+        "nombre_employee_sous_responsabilite",
+        "distance_domicile_travail",
+        "niveau_education",
+        "annees_depuis_la_derniere_promotion",
+        "annes_sous_responsable_actuel",
+        "satisfaction_employee_environnement",
+        "note_evaluation_precedente",
+        "niveau_hierarchique_poste",
+        "satisfaction_employee_nature_travail",
+        "satisfaction_employee_equipe",
+        "satisfaction_employee_equilibre_pro_perso",
+        "note_evaluation_actuelle",
+        "augementation_salaire_precedente",
+        "age",
+        "revenu_mensuel",
+        "nombre_experiences_precedentes",
+        "nombre_heures_travailless",
+        "annee_experience_totale",
+        "annees_dans_l_entreprise",
+        "annees_dans_le_poste_actuel",
+        "revenu_par_anciennete",
+        "experience_par_anciennete",
+        "satisfaction_moyenne",
+        "promo_par_anciennete",
+        "genre_F",
+        "genre_M",
+        "statut_marital_Célibataire",
+        "statut_marital_Divorcé(e)",
+        "statut_marital_Marié(e)",
+        "departement_Commercial",
+        "departement_Consulting",
+        "departement_Ressources Humaines",
+        "poste_Assistant de Direction",
+        "poste_Cadre Commercial",
+        "poste_Consultant",
+        "poste_Directeur Technique",
+        "poste_Manager",
+        "poste_Représentant Commercial",
+        "poste_Ressources Humaines",
+        "poste_Senior Manager",
+        "poste_Tech Lead",
+        "domaine_etude_Autre",
+        "domaine_etude_Entrepreunariat",
+        "domaine_etude_Infra & Cloud",
+        "domaine_etude_Marketing",
+        "domaine_etude_Ressources Humaines",
+        "domaine_etude_Transformation Digitale",
+        "frequence_deplacement",
+    ]
+    # Réordonner les colonnes
+    df = df[expected_columns]
+    # === SCALING ===
+    # Appliquer le StandardScaler avec les paramètres sauvegardés
+    for i, col in enumerate(SCALER_PARAMS["columns"]):
+        if col in df.columns:
+            mean = SCALER_PARAMS["mean"][i]
+            scale = SCALER_PARAMS["scale"][i]
+            df[col] = (df[col] - mean) / scale
     return df
     return df.values
+def preprocess_dataframe_for_prediction(df: pd.DataFrame) -> pd.DataFrame:
+    """
+    Préprocess un DataFrame complet (issu de CSV fusionnés) pour prédiction batch.
+    Args:
+        df: DataFrame avec toutes les colonnes nécessaires.
+    Returns:
+        DataFrame transformé prêt pour model.predict().
+    """
+    # Feature engineering
+    df_processed = engineer_features(df)
+    # Encoding et scaling
+    df_processed = encode_and_scale(df_processed)
+    return df_processed
+def merge_csv_dataframes(
+    sondage_df: pd.DataFrame,
+    eval_df: pd.DataFrame,
+    sirh_df: pd.DataFrame,
+) -> pd.DataFrame:
+    """
+    Fusionne les 3 DataFrames CSV comme lors de l'entraînement.
+    Args:
+        sondage_df: DataFrame du fichier sondage.
+        eval_df: DataFrame du fichier évaluation.
+        sirh_df: DataFrame du fichier SIRH.
+    Returns:
+        DataFrame fusionné avec toutes les colonnes.
+    """
+    # Nettoyage de l'évaluation
+    eval_df = eval_df.copy()
+    eval_df["augementation_salaire_precedente"] = eval_df[
+        "augementation_salaire_precedente"
+    ].apply(lambda x: float(str(x).replace(" %", "")) if isinstance(x, str) else x)
+    eval_df["employee_id"] = eval_df["eval_number"].apply(
+        lambda x: int(str(x).replace("E_", "")) if isinstance(x, str) else x
+    )
+    # Nettoyage du sondage
+    sondage_df = sondage_df.copy()
+    sondage_df["employee_id"] = sondage_df["code_sondage"].apply(
+        lambda x: int(x) if isinstance(x, (str, int)) else None
+    )
+    # Fusion
+    central_df = pd.merge(sondage_df, eval_df, on="employee_id", how="inner")
+    central_df = pd.merge(
+        central_df, sirh_df, left_on="employee_id", right_on="id_employee", how="inner"
+    )
+    # Conserver l'ID pour le retour
+    central_df["original_employee_id"] = central_df["employee_id"]
+    # Supprimer les colonnes de jointure
+    central_df.drop(
+        ["code_sondage", "eval_number", "id_employee", "employee_id"],
+        axis=1,
+        inplace=True,
+        errors="ignore",
+    )
+    return central_df

src/schemas.py CHANGED Viewed

@@ -248,3 +248,52 @@ class HealthCheck(BaseModel):
                 "version": "1.0.0",
             }
         }

                 "version": "1.0.0",
             }
         }
+class EmployeePrediction(BaseModel):
+    """Prédiction pour un employé dans le batch."""
+    employee_id: int = Field(..., description="ID de l'employé")
+    prediction: int = Field(..., description="Classe prédite (0=reste, 1=part)")
+    probability_stay: float = Field(
+        ..., ge=0, le=1, description="Probabilité de rester"
+    )
+    probability_leave: float = Field(
+        ..., ge=0, le=1, description="Probabilité de partir"
+    )
+    risk_level: str = Field(..., description="Niveau de risque (Low/Medium/High)")
+class BatchPredictionOutput(BaseModel):
+    """Schéma de sortie pour les prédictions par lots (CSV)."""
+    total_employees: int = Field(..., description="Nombre total d'employés traités")
+    predictions: list[EmployeePrediction] = Field(
+        ..., description="Liste des prédictions"
+    )
+    summary: dict = Field(..., description="Résumé des prédictions")
+    class Config:
+        """Configuration Pydantic."""
+        json_schema_extra = {
+            "example": {
+                "total_employees": 100,
+                "predictions": [
+                    {
+                        "employee_id": 1,
+                        "prediction": 0,
+                        "probability_stay": 0.85,
+                        "probability_leave": 0.15,
+                        "risk_level": "Low",
+                    }
+                ],
+                "summary": {
+                    "total_stay": 80,
+                    "total_leave": 20,
+                    "high_risk_count": 15,
+                    "medium_risk_count": 10,
+                    "low_risk_count": 75,
+                },
+            }
+        }