Spaces:
Runtime error
Runtime error
Aurélie GABU commited on
Commit ·
23d4613
1
Parent(s): 1302937
Insertion du dataset avec les tables correspondantes et mise en place de la gestion de la BDD via PostgreSQL
Browse files- App/database.py +4 -6
- App/model.py +51 -0
- App/predict.py +26 -2
- App/schemas.py +0 -1
- README.md +168 -47
- scripts/create_tables.py +6 -0
- scripts/insert_dataset.py +1 -4
App/database.py
CHANGED
|
@@ -1,7 +1,7 @@
|
|
| 1 |
import os
|
| 2 |
from dotenv import load_dotenv
|
| 3 |
from sqlalchemy import create_engine
|
| 4 |
-
from sqlalchemy.orm import sessionmaker
|
| 5 |
|
| 6 |
load_dotenv()
|
| 7 |
|
|
@@ -11,10 +11,8 @@ DB_HOST = os.getenv("DB_HOST")
|
|
| 11 |
DB_PORT = os.getenv("DB_PORT")
|
| 12 |
DB_NAME = os.getenv("DB_NAME")
|
| 13 |
|
| 14 |
-
DATABASE_URL = (
|
| 15 |
-
f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"
|
| 16 |
-
f"@{DB_HOST}:{DB_PORT}/{DB_NAME}"
|
| 17 |
-
)
|
| 18 |
|
| 19 |
engine = create_engine(DATABASE_URL)
|
| 20 |
-
SessionLocal = sessionmaker(bind=engine)
|
|
|
|
|
|
| 1 |
import os
|
| 2 |
from dotenv import load_dotenv
|
| 3 |
from sqlalchemy import create_engine
|
| 4 |
+
from sqlalchemy.orm import sessionmaker, declarative_base
|
| 5 |
|
| 6 |
load_dotenv()
|
| 7 |
|
|
|
|
| 11 |
DB_PORT = os.getenv("DB_PORT")
|
| 12 |
DB_NAME = os.getenv("DB_NAME")
|
| 13 |
|
| 14 |
+
DATABASE_URL = (f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"f"@{DB_HOST}:{DB_PORT}/{DB_NAME}")
|
|
|
|
|
|
|
|
|
|
| 15 |
|
| 16 |
engine = create_engine(DATABASE_URL)
|
| 17 |
+
SessionLocal = sessionmaker(autocommit = False, autoflush = False, bind = engine)
|
| 18 |
+
Base = declarative_base()
|
App/model.py
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
from sqlalchemy import Column, Integer, String, Float, Boolean, DateTime, ForeignKey
|
| 2 |
+
from sqlalchemy.sql import func
|
| 3 |
+
from App.database import Base
|
| 4 |
+
|
| 5 |
+
class Input(Base):
|
| 6 |
+
__tablename__ = "inputs"
|
| 7 |
+
|
| 8 |
+
id = Column(Integer, primary_key=True, index=True)
|
| 9 |
+
genre = Column(String)
|
| 10 |
+
statut_marital = Column(String)
|
| 11 |
+
departement = Column(String)
|
| 12 |
+
poste = Column(String)
|
| 13 |
+
domaine_etude = Column(String)
|
| 14 |
+
frequence_deplacement = Column(String)
|
| 15 |
+
heure_supplementaires = Column(Boolean)
|
| 16 |
+
evolution_cat_evol = Column(String)
|
| 17 |
+
categorie_employe = Column(String)
|
| 18 |
+
satisfaction_employee_nature_travail = Column(Integer)
|
| 19 |
+
nombre_participation_pee = Column(Integer)
|
| 20 |
+
ecart_note_evaluation = Column(Integer)
|
| 21 |
+
revenu_mensuel = Column(Integer)
|
| 22 |
+
distance_domicile_travail = Column(Integer)
|
| 23 |
+
satisfaction_globale = Column(Float)
|
| 24 |
+
niveau_education = Column(Integer)
|
| 25 |
+
note_evaluation_actuelle = Column(Integer)
|
| 26 |
+
satisfaction_employee_equipe = Column(Integer)
|
| 27 |
+
age = Column(Integer)
|
| 28 |
+
revenu_par_annee_experience_interne = Column(Integer)
|
| 29 |
+
satisfaction_employee_equilibre_pro_perso = Column(Integer)
|
| 30 |
+
nombre_experiences_precedentes = Column(Integer)
|
| 31 |
+
annees_dans_l_entreprise = Column(Integer)
|
| 32 |
+
nb_formations_suivies = Column(Integer)
|
| 33 |
+
revenu_par_annee_experience_totale = Column(Integer)
|
| 34 |
+
ratio_sans_promotion = Column(Integer)
|
| 35 |
+
satisfaction_employee_environnement = Column(Integer)
|
| 36 |
+
exp_hors_entreprise = Column(Integer)
|
| 37 |
+
mobilite_promotion = Column(Integer)
|
| 38 |
+
annees_depuis_la_derniere_promotion = Column(Integer)
|
| 39 |
+
|
| 40 |
+
created_at = Column(DateTime(timezone=True), server_default=func.now())
|
| 41 |
+
|
| 42 |
+
class Predictions(Base):
|
| 43 |
+
__tablename__ = "predictions"
|
| 44 |
+
id = Column(Integer, primary_key=True, index=True)
|
| 45 |
+
input_id = Column(Integer, ForeignKey("inputs.id"))
|
| 46 |
+
|
| 47 |
+
prediction_label = Column(String)
|
| 48 |
+
prediction_proba = Column(Float)
|
| 49 |
+
model_version = Column(String)
|
| 50 |
+
|
| 51 |
+
created_at = Column(DateTime(timezone=True), server_default=func.now())
|
App/predict.py
CHANGED
|
@@ -4,6 +4,9 @@ from App.schemas import EmployeeFeatures
|
|
| 4 |
import json
|
| 5 |
from pathlib import Path
|
| 6 |
from huggingface_hub import hf_hub_download
|
|
|
|
|
|
|
|
|
|
| 7 |
|
| 8 |
MODEL_REPO = "Diaure/xgb_model"
|
| 9 |
|
|
@@ -43,7 +46,28 @@ def predict_employee(data: dict):
|
|
| 43 |
pred = model.predict(df)[0]
|
| 44 |
proba = model.predict_proba(df)[0][1]
|
| 45 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 46 |
return {
|
| 47 |
"Prediction": classes_mapping[str(pred)],
|
| 48 |
-
"Probabilite_depart": float(proba)
|
| 49 |
-
}
|
|
|
|
| 4 |
import json
|
| 5 |
from pathlib import Path
|
| 6 |
from huggingface_hub import hf_hub_download
|
| 7 |
+
from sqlalchemy.orm import Session
|
| 8 |
+
from App.database import SessionLocal
|
| 9 |
+
from App.model import Input, Predictions
|
| 10 |
|
| 11 |
MODEL_REPO = "Diaure/xgb_model"
|
| 12 |
|
|
|
|
| 46 |
pred = model.predict(df)[0]
|
| 47 |
proba = model.predict_proba(df)[0][1]
|
| 48 |
|
| 49 |
+
db: Session = SessionLocal()
|
| 50 |
+
|
| 51 |
+
try:
|
| 52 |
+
# enregistrer les inputs: à chaque appel de POST/predict, on stocke d'abord les entrées de l'utilisateur
|
| 53 |
+
input_row = Input(**data)
|
| 54 |
+
db.add(input_row)
|
| 55 |
+
db.commit()
|
| 56 |
+
db.refresh(input_row)
|
| 57 |
+
|
| 58 |
+
# puis on récupère les ids générés automatiquement et enregistre les prédictions liés aux ids
|
| 59 |
+
pred_row = Predictions(input_id = input_row.id, prediction_label = classes_mapping[str(pred)], prediction_proba = float(proba), model_version = "v1")
|
| 60 |
+
db.add(pred_row)
|
| 61 |
+
db.commit()
|
| 62 |
+
|
| 63 |
+
except Exception as e:
|
| 64 |
+
print("🔥 ERREUR DB :", e)
|
| 65 |
+
raise e
|
| 66 |
+
|
| 67 |
+
finally:
|
| 68 |
+
db.close()
|
| 69 |
+
|
| 70 |
+
# puis on renvoie la réponse API
|
| 71 |
return {
|
| 72 |
"Prediction": classes_mapping[str(pred)],
|
| 73 |
+
"Probabilite_depart": float(proba)}
|
|
|
App/schemas.py
CHANGED
|
@@ -10,7 +10,6 @@ class EmployeeFeatures(BaseModel):
|
|
| 10 |
heure_supplementaires: bool
|
| 11 |
evolution_cat_evol: str
|
| 12 |
categorie_employe: str
|
| 13 |
-
|
| 14 |
satisfaction_employee_nature_travail: int
|
| 15 |
nombre_participation_pee: int
|
| 16 |
ecart_note_evaluation: int
|
|
|
|
| 10 |
heure_supplementaires: bool
|
| 11 |
evolution_cat_evol: str
|
| 12 |
categorie_employe: str
|
|
|
|
| 13 |
satisfaction_employee_nature_travail: int
|
| 14 |
nombre_participation_pee: int
|
| 15 |
ecart_note_evaluation: int
|
README.md
CHANGED
|
@@ -15,9 +15,7 @@ pinned: false
|
|
| 15 |
opérationnels et accessibles via une API performante.
|
| 16 |
|
| 17 |
Ce projet correspond à un **Proof of Concept (POC)** visant à déployer un modèle de machine
|
| 18 |
-
learning en production en appliquant les bonnes pratiques d’ingénierie logicielle
|
| 19 |
-
versionnage, tests, base de données et automatisation.
|
| 20 |
-
|
| 21 |
|
| 22 |
|
| 23 |
## Objectifs du projet
|
|
@@ -29,7 +27,7 @@ versionnage, tests, base de données et automatisation.
|
|
| 29 |
|
| 30 |
|
| 31 |
## Périmètre fonctionnel
|
| 32 |
-
Le projet inclut
|
| 33 |
- Une API développée avec **FastAPI**
|
| 34 |
- L’exposition d’un modèle de machine learning via des endpoints REST
|
| 35 |
- Une base de données **PostgreSQL** pour stocker les entrées/sorties du modèle
|
|
@@ -37,53 +35,75 @@ Le projet inclut :
|
|
| 37 |
- Un pipeline **CI/CD** pour automatiser les tests et le déploiement
|
| 38 |
- Une documentation technique claire
|
| 39 |
|
| 40 |
-
## CI/CD et
|
|
|
|
|
|
|
|
|
|
|
|
|
| 41 |
|
| 42 |
-
|
| 43 |
|
| 44 |
-
|
| 45 |
-
|
|
|
|
|
|
|
| 46 |
- installation d’un environnement Python 3.11 isolé
|
| 47 |
- installation des dépendances définies dans le projet
|
| 48 |
-
- exécution des tests
|
| 49 |
|
| 50 |
-
L’objectif est de
|
| 51 |
-
- le projet
|
| 52 |
-
-
|
| 53 |
-
-
|
|
|
|
| 54 |
|
| 55 |
-
|
| 56 |
|
| 57 |
-
|
| 58 |
-
- un schéma d’entrée validé avec **Pydantic**
|
| 59 |
-
- un préprocesseur entraîné et sauvegardé
|
| 60 |
-
- un modèle de machine learning sérialisé avec **joblib**
|
| 61 |
|
| 62 |
-
|
| 63 |
-
-
|
| 64 |
-
-
|
| 65 |
-
- `mapping_classes.json`
|
| 66 |
|
| 67 |
-
|
| 68 |
|
| 69 |
-
|
|
|
|
|
|
|
|
|
|
| 70 |
|
| 71 |
-
|
| 72 |
-
|
| 73 |
-
|
| 74 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 75 |
|
| 76 |
-
|
| 77 |
|
| 78 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 79 |
`POST /predict`
|
| 80 |
|
| 81 |
-
Cet endpoint reçoit les caractéristiques d’un employé et retourne
|
| 82 |
|
| 83 |
- une prédiction lisible ("Reste" ou "Part")
|
| 84 |
- la probabilité associée au départ
|
| 85 |
|
| 86 |
-
Exemple de
|
| 87 |
```json
|
| 88 |
{
|
| 89 |
"Prediction": "Part",
|
|
@@ -93,26 +113,121 @@ Exemple de réponse :
|
|
| 93 |
Les données d’entrée sont validées automatiquement avant l’appel au modèle,
|
| 94 |
garantissant la cohérence avec les variables utilisées lors de l’entraînement.
|
| 95 |
|
| 96 |
-
|
| 97 |
|
| 98 |
L’API expose un endpoint principal de prédiction.
|
| 99 |
|
| 100 |
**POST /predict**
|
| 101 |
- Description : retourne une prédiction de départ d’un employé
|
| 102 |
-
- Validation des données
|
| 103 |
-
- Réponses possibles
|
| 104 |
-
- 200
|
| 105 |
-
- 422
|
| 106 |
|
| 107 |
-
##
|
| 108 |
-
|
| 109 |
-
|
| 110 |
-
|
| 111 |
-
-
|
| 112 |
-
-
|
| 113 |
-
-
|
| 114 |
-
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 115 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 116 |
|
| 117 |
|
| 118 |
## Structure du projet
|
|
@@ -121,7 +236,9 @@ futurisys_ml-api/
|
|
| 121 |
├── github/workflows
|
| 122 |
│ ├── ci.yml # Description des évènement déclenchants des tests
|
| 123 |
├── app/ # Code applicatif principal
|
|
|
|
| 124 |
│ ├── main.py # Point d’entrée de l’API
|
|
|
|
| 125 |
│ ├── predict.py # Application du modèle
|
| 126 |
│ ├── schemas.py # Validation des données (Pydantic)
|
| 127 |
│ ── model/ # Elements du modèle
|
|
@@ -129,10 +246,14 @@ futurisys_ml-api/
|
|
| 129 |
│ ├── modele_final_xgb.joblib # Modèle final avec hyperparamètres
|
| 130 |
│ ├── preprocesseur_fitted.joblib # Pipeline entrainé
|
| 131 |
|
|
| 132 |
-
├── scripts/
|
| 133 |
-
├──
|
|
|
|
|
|
|
|
|
|
| 134 |
│ ├── test_api.py # Test automatisé de l'API via Pytest
|
| 135 |
|
|
|
|
|
| 136 |
├── .gitignore # Nettoyage du dépôt
|
| 137 |
├── pyproject.toml # Librairies des modules entrainement ML
|
| 138 |
├── README.md # Présentation du projet
|
|
|
|
| 15 |
opérationnels et accessibles via une API performante.
|
| 16 |
|
| 17 |
Ce projet correspond à un **Proof of Concept (POC)** visant à déployer un modèle de machine
|
| 18 |
+
learning en production en appliquant les bonnes pratiques d’ingénierie logicielle: versionnage, tests, base de données et automatisation.
|
|
|
|
|
|
|
| 19 |
|
| 20 |
|
| 21 |
## Objectifs du projet
|
|
|
|
| 27 |
|
| 28 |
|
| 29 |
## Périmètre fonctionnel
|
| 30 |
+
Le projet inclut:
|
| 31 |
- Une API développée avec **FastAPI**
|
| 32 |
- L’exposition d’un modèle de machine learning via des endpoints REST
|
| 33 |
- Une base de données **PostgreSQL** pour stocker les entrées/sorties du modèle
|
|
|
|
| 35 |
- Un pipeline **CI/CD** pour automatiser les tests et le déploiement
|
| 36 |
- Une documentation technique claire
|
| 37 |
|
| 38 |
+
## CI/CD et Déploiement
|
| 39 |
+
|
| 40 |
+
Ce projet met en œuvre une approche CI/CD complète, séparant:
|
| 41 |
+
- l’intégration continue (**CI**): garantir la qualité du code
|
| 42 |
+
- le déploiement continu (**CD**): rendre l’API accessible publiquement
|
| 43 |
|
| 44 |
+
### `Intégration Continue (CI) – GitHub Actions`
|
| 45 |
|
| 46 |
+
L’intégration continue est assurée via GitHub Actions.
|
| 47 |
+
|
| 48 |
+
À chaque **push** sur les branches de travail et à chaque **pull request** vers **`develop`**,
|
| 49 |
+
le pipeline exécute automatiquement les étapes suivantes:
|
| 50 |
- installation d’un environnement Python 3.11 isolé
|
| 51 |
- installation des dépendances définies dans le projet
|
| 52 |
+
- exécution des tests automatisés avec Pytest
|
| 53 |
|
| 54 |
+
L’objectif est de:
|
| 55 |
+
- vérifier que le projet est installable
|
| 56 |
+
- garantir que l’API démarre correctement
|
| 57 |
+
- valider le chargement du modèle et le endpoint /*`predict`*
|
| 58 |
+
- éviter toute régression avant fusion vers **`develop`**.
|
| 59 |
|
| 60 |
+
### `Déploiement Continu (CD) – Hugging Face Spaces`
|
| 61 |
|
| 62 |
+
Le déploiement de l’API est réalisé sur Hugging Face Spaces qui permet:
|
|
|
|
|
|
|
|
|
|
| 63 |
|
| 64 |
+
- d’héberger gratuitement des applications ML
|
| 65 |
+
- de déployer une API Dockerisée
|
| 66 |
+
- d’exposer un service accessible publiquement sans gérer de serveur
|
|
|
|
| 67 |
|
| 68 |
+
Dans ce projet, Hugging Face est utilisé comme plateforme de démonstration et de mise à disposition de l’API.
|
| 69 |
|
| 70 |
+
Le déploiement repose sur un Dockerfile, qui définit:
|
| 71 |
+
- l’image Python utilisée (Python 3.11)
|
| 72 |
+
- l’installation des dépendances
|
| 73 |
+
- le lancement de l’API avec Uvicorn
|
| 74 |
|
| 75 |
+
Il garantit la reproductibilité de l'environnement lors de l'exécution de l'API.
|
| 76 |
+
|
| 77 |
+
A noter que les ***fichiers binaires*** ne sont pas stochés dans le dépôt GiHub principal pour les raisons suivantes:
|
| 78 |
+
- Hugging Face bloque les push Git contenant des fichiers binaires lourds
|
| 79 |
+
- Git n’est pas conçu pour versionner des artefacts ML volumineux.
|
| 80 |
+
|
| 81 |
+
Pour contourner la situation, dans le projet, les artefacts sont stockés dans un Space Hugging Face dédié, séparé du code. Lors du démarrage de lAPI:
|
| 82 |
+
- le code télécharge dynamiquement les artefacts via huggingface_hub
|
| 83 |
+
- l’API peut démarrer même si les fichiers ne sont pas présents localement
|
| 84 |
+
|
| 85 |
+
|
| 86 |
+
### `Lancer l’API en local`
|
| 87 |
|
| 88 |
+
L’API est déployée publiquement sur Hugging Face Spaces.
|
| 89 |
|
| 90 |
+
- URL de l’API :
|
| 91 |
+
https://diaure-futurisys-ml-api.hf.space
|
| 92 |
+
- Documentation interactive (Swagger UI):
|
| 93 |
+
https://diaure-futurisys-ml-api.hf.space/docs. Ele permet de:
|
| 94 |
+
- visualiser les endpoints
|
| 95 |
+
- tester directement l’endpoint `/predict`
|
| 96 |
+
- voir les schémas d’entrée et de sortie.
|
| 97 |
+
|
| 98 |
+
### `Endpoint principal`
|
| 99 |
`POST /predict`
|
| 100 |
|
| 101 |
+
Cet endpoint reçoit les caractéristiques d’un employé et retourne:
|
| 102 |
|
| 103 |
- une prédiction lisible ("Reste" ou "Part")
|
| 104 |
- la probabilité associée au départ
|
| 105 |
|
| 106 |
+
Exemple de r��ponse:
|
| 107 |
```json
|
| 108 |
{
|
| 109 |
"Prediction": "Part",
|
|
|
|
| 113 |
Les données d’entrée sont validées automatiquement avant l’appel au modèle,
|
| 114 |
garantissant la cohérence avec les variables utilisées lors de l’entraînement.
|
| 115 |
|
| 116 |
+
### `Documentation des endpoints`
|
| 117 |
|
| 118 |
L’API expose un endpoint principal de prédiction.
|
| 119 |
|
| 120 |
**POST /predict**
|
| 121 |
- Description : retourne une prédiction de départ d’un employé
|
| 122 |
+
- Validation des données: Pydantic
|
| 123 |
+
- Réponses possibles:
|
| 124 |
+
- 200: prédiction valide
|
| 125 |
+
- 422: données invalides
|
| 126 |
|
| 127 |
+
## Base de données et traçabilité des prédictions
|
| 128 |
+
### `Objectifs`
|
| 129 |
+
|
| 130 |
+
L’intégration d’une base de données PostgreSQL permet d’inscrire le projet dans une logique MLOps et de répondre à plusieurs objectifs clés:
|
| 131 |
+
- assurer la traçabilité complète des prédictions du modèle
|
| 132 |
+
- conserver l’historique des données d’entrée utilisateur
|
| 133 |
+
- stocker les résultats de prédiction (label, probabilité, version du modèle)
|
| 134 |
+
- préparer une architecture compatible avec un déploiement en production.
|
| 135 |
+
|
| 136 |
+
### `Méthodologie utilisée`
|
| 137 |
+
- **PostgreSQL** a été retenu pour:
|
| 138 |
+
- sa robustesse et sa fiabilité
|
| 139 |
+
- sa compatibilité native avec SQLAlchemy
|
| 140 |
+
- son usage courant en environnement professionnel
|
| 141 |
+
|
| 142 |
+
- **SQLAlchemy** est utilisé comme couche d’abstraction:
|
| 143 |
+
- gestion centralisée de la connexion à la base
|
| 144 |
+
- cohérence entre le schéma Python et la base SQL
|
| 145 |
+
|
| 146 |
+
Les identifiants de connexion sont stockés dans des variables d’environnement (`.env`) afin d’éviter toute exposition de secrets dans le dépôt Git.
|
| 147 |
+
|
| 148 |
+
### `Modélisation de la base de données`
|
| 149 |
+
La base de données repose sur trois tables distinctes, chacune ayant un rôle précis.
|
| 150 |
+
1. `employees_dataset - Dataset de référence`
|
| 151 |
+
Il contient le dataset final nettoyé et préparé lors de l'entraînement du modèle en incluant l'ensemble des **32 deatures** du modèle. Il sert de:
|
| 152 |
+
- référence de schéma
|
| 153 |
+
- source de validation
|
| 154 |
+
- base documentaire du modèle
|
| 155 |
+
|
| 156 |
+
C'est une table qui n'est jamais alimentée par l'utilisateur.
|
| 157 |
|
| 158 |
+
```python
|
| 159 |
+
load_dotenv()
|
| 160 |
+
|
| 161 |
+
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
|
| 162 |
+
csv_path = os.path.join(BASE_DIR, "dataset_final.csv")
|
| 163 |
+
|
| 164 |
+
df = pd.read_csv(csv_path, encoding="latin-1")
|
| 165 |
+
|
| 166 |
+
DB_USER = os.getenv("DB_USER")
|
| 167 |
+
DB_PASSWORD = os.getenv("DB_PASSWORD")
|
| 168 |
+
DB_HOST = os.getenv("DB_HOST")
|
| 169 |
+
DB_PORT = os.getenv("DB_PORT")
|
| 170 |
+
DB_NAME = os.getenv("DB_NAME")
|
| 171 |
+
|
| 172 |
+
DATABASE_URL = (f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"f"@{DB_HOST}:{DB_PORT}/{DB_NAME}")
|
| 173 |
+
|
| 174 |
+
engine = create_engine(DATABASE_URL)
|
| 175 |
+
|
| 176 |
+
df.to_sql("employees_dataset", engine, if_exists="replace", index=False)
|
| 177 |
+
```
|
| 178 |
+
|
| 179 |
+
2. `inputs - Entrées utilisateur`
|
| 180 |
+
- Enregistre chaque requête utilisateur envoyée à l'endpoint `/predict`
|
| 181 |
+
- Contient exactement les features attendues par le modèle
|
| 182 |
+
- Structure strictement alignée avec le schéma Pydandic(`EmployeeFeatures`)
|
| 183 |
+
- Permet:
|
| 184 |
+
- l'audit des predictions
|
| 185 |
+
- l'analyse à posteriori
|
| 186 |
+
- la reproductibilité des résultats.
|
| 187 |
+
```python
|
| 188 |
+
class Input(Base):
|
| 189 |
+
__tablename__ = "inputs"
|
| 190 |
+
|
| 191 |
+
id = Column(Integer, primary_key=True, index=True)
|
| 192 |
+
genre = Column(String)
|
| 193 |
+
statut_marital = Column(String)
|
| 194 |
+
departement = Column(String)
|
| 195 |
+
poste = Column(String)
|
| 196 |
+
```
|
| 197 |
+
|
| 198 |
+
3. `predictions - Résultats du modèle`
|
| 199 |
+
- Continet:
|
| 200 |
+
- le label de prédiction
|
| 201 |
+
- la probabilité associée
|
| 202 |
+
- Reliée à `inputs` via une clé étrangère
|
| 203 |
+
- Garantit une trçabilité complète.
|
| 204 |
+
```python
|
| 205 |
+
class Predictions(Base):
|
| 206 |
+
__tablename__ = "predictions"
|
| 207 |
+
id = Column(Integer, primary_key=True, index=True)
|
| 208 |
+
input_id = Column(Integer, ForeignKey("inputs.id"))
|
| 209 |
+
|
| 210 |
+
prediction_label = Column(String)
|
| 211 |
+
prediction_proba = Column(Float)
|
| 212 |
+
model_version = Column(String)
|
| 213 |
+
```
|
| 214 |
+
|
| 215 |
+
### `Interaction API <> Base de données`
|
| 216 |
+
Lors d’un appel à l’endpoint `POST /predict`:
|
| 217 |
+
- les données utilisateur sont validées via **Pydantic**
|
| 218 |
+
- les entrées sont enregistrées dans la table **inputs**
|
| 219 |
+
- le modèle est exécuté
|
| 220 |
+
- la prédiction est enregistrée dans la table **predictions**
|
| 221 |
+
- la réponse est retournée à l’utilisateur.
|
| 222 |
+
|
| 223 |
+
## Stack technique
|
| 224 |
+
- **Langage**: Python
|
| 225 |
+
- **API**: FastAPI
|
| 226 |
+
- **Machine Learning**: scikit-learn
|
| 227 |
+
- **Base de données**: PostgreSQL
|
| 228 |
+
- **Tests**: Pytest, pytest-cov
|
| 229 |
+
- **CI/CD**: GitHub Actions
|
| 230 |
+
- **Versionnage**: Git / GitHub
|
| 231 |
|
| 232 |
|
| 233 |
## Structure du projet
|
|
|
|
| 236 |
├── github/workflows
|
| 237 |
│ ├── ci.yml # Description des évènement déclenchants des tests
|
| 238 |
├── app/ # Code applicatif principal
|
| 239 |
+
│ ├── database.py # Point de connexion à la base PostgreSQL
|
| 240 |
│ ├── main.py # Point d’entrée de l’API
|
| 241 |
+
│ ├── model.py # Définition des tables de la database
|
| 242 |
│ ├── predict.py # Application du modèle
|
| 243 |
│ ├── schemas.py # Validation des données (Pydantic)
|
| 244 |
│ ── model/ # Elements du modèle
|
|
|
|
| 246 |
│ ├── modele_final_xgb.joblib # Modèle final avec hyperparamètres
|
| 247 |
│ ├── preprocesseur_fitted.joblib # Pipeline entrainé
|
| 248 |
|
|
| 249 |
+
├── scripts/ # Scripts bd (BD, données)
|
| 250 |
+
│ ├── create_tables.py # Créaton des tables définies dans model.py
|
| 251 |
+
│ ├── dataset_final.csv # Data final
|
| 252 |
+
│ ├── insert_dataset.py # Code chargement de la table dataset_final
|
| 253 |
+
├── tests/ # Tests unitaires, fonctionnels
|
| 254 |
│ ├── test_api.py # Test automatisé de l'API via Pytest
|
| 255 |
|
|
| 256 |
+
├── .env # Stockage des variables sensibles et de configuration
|
| 257 |
├── .gitignore # Nettoyage du dépôt
|
| 258 |
├── pyproject.toml # Librairies des modules entrainement ML
|
| 259 |
├── README.md # Présentation du projet
|
scripts/create_tables.py
ADDED
|
@@ -0,0 +1,6 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
from App.database import engine
|
| 2 |
+
from App.database import Base
|
| 3 |
+
|
| 4 |
+
Base.metadata.create_all(bind=engine)
|
| 5 |
+
|
| 6 |
+
print("Tables créées avec succès")
|
scripts/insert_dataset.py
CHANGED
|
@@ -16,10 +16,7 @@ DB_HOST = os.getenv("DB_HOST")
|
|
| 16 |
DB_PORT = os.getenv("DB_PORT")
|
| 17 |
DB_NAME = os.getenv("DB_NAME")
|
| 18 |
|
| 19 |
-
DATABASE_URL = (
|
| 20 |
-
f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"
|
| 21 |
-
f"@{DB_HOST}:{DB_PORT}/{DB_NAME}"
|
| 22 |
-
)
|
| 23 |
|
| 24 |
engine = create_engine(DATABASE_URL)
|
| 25 |
|
|
|
|
| 16 |
DB_PORT = os.getenv("DB_PORT")
|
| 17 |
DB_NAME = os.getenv("DB_NAME")
|
| 18 |
|
| 19 |
+
DATABASE_URL = (f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"f"@{DB_HOST}:{DB_PORT}/{DB_NAME}")
|
|
|
|
|
|
|
|
|
|
| 20 |
|
| 21 |
engine = create_engine(DATABASE_URL)
|
| 22 |
|