Aurélie GABU commited on
Commit
23d4613
·
1 Parent(s): 1302937

Insertion du dataset avec les tables correspondantes et mise en place de la gestion de la BDD via PostgreSQL

Browse files
App/database.py CHANGED
@@ -1,7 +1,7 @@
1
  import os
2
  from dotenv import load_dotenv
3
  from sqlalchemy import create_engine
4
- from sqlalchemy.orm import sessionmaker
5
 
6
  load_dotenv()
7
 
@@ -11,10 +11,8 @@ DB_HOST = os.getenv("DB_HOST")
11
  DB_PORT = os.getenv("DB_PORT")
12
  DB_NAME = os.getenv("DB_NAME")
13
 
14
- DATABASE_URL = (
15
- f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"
16
- f"@{DB_HOST}:{DB_PORT}/{DB_NAME}"
17
- )
18
 
19
  engine = create_engine(DATABASE_URL)
20
- SessionLocal = sessionmaker(bind=engine)
 
 
1
  import os
2
  from dotenv import load_dotenv
3
  from sqlalchemy import create_engine
4
+ from sqlalchemy.orm import sessionmaker, declarative_base
5
 
6
  load_dotenv()
7
 
 
11
  DB_PORT = os.getenv("DB_PORT")
12
  DB_NAME = os.getenv("DB_NAME")
13
 
14
+ DATABASE_URL = (f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"f"@{DB_HOST}:{DB_PORT}/{DB_NAME}")
 
 
 
15
 
16
  engine = create_engine(DATABASE_URL)
17
+ SessionLocal = sessionmaker(autocommit = False, autoflush = False, bind = engine)
18
+ Base = declarative_base()
App/model.py ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from sqlalchemy import Column, Integer, String, Float, Boolean, DateTime, ForeignKey
2
+ from sqlalchemy.sql import func
3
+ from App.database import Base
4
+
5
+ class Input(Base):
6
+ __tablename__ = "inputs"
7
+
8
+ id = Column(Integer, primary_key=True, index=True)
9
+ genre = Column(String)
10
+ statut_marital = Column(String)
11
+ departement = Column(String)
12
+ poste = Column(String)
13
+ domaine_etude = Column(String)
14
+ frequence_deplacement = Column(String)
15
+ heure_supplementaires = Column(Boolean)
16
+ evolution_cat_evol = Column(String)
17
+ categorie_employe = Column(String)
18
+ satisfaction_employee_nature_travail = Column(Integer)
19
+ nombre_participation_pee = Column(Integer)
20
+ ecart_note_evaluation = Column(Integer)
21
+ revenu_mensuel = Column(Integer)
22
+ distance_domicile_travail = Column(Integer)
23
+ satisfaction_globale = Column(Float)
24
+ niveau_education = Column(Integer)
25
+ note_evaluation_actuelle = Column(Integer)
26
+ satisfaction_employee_equipe = Column(Integer)
27
+ age = Column(Integer)
28
+ revenu_par_annee_experience_interne = Column(Integer)
29
+ satisfaction_employee_equilibre_pro_perso = Column(Integer)
30
+ nombre_experiences_precedentes = Column(Integer)
31
+ annees_dans_l_entreprise = Column(Integer)
32
+ nb_formations_suivies = Column(Integer)
33
+ revenu_par_annee_experience_totale = Column(Integer)
34
+ ratio_sans_promotion = Column(Integer)
35
+ satisfaction_employee_environnement = Column(Integer)
36
+ exp_hors_entreprise = Column(Integer)
37
+ mobilite_promotion = Column(Integer)
38
+ annees_depuis_la_derniere_promotion = Column(Integer)
39
+
40
+ created_at = Column(DateTime(timezone=True), server_default=func.now())
41
+
42
+ class Predictions(Base):
43
+ __tablename__ = "predictions"
44
+ id = Column(Integer, primary_key=True, index=True)
45
+ input_id = Column(Integer, ForeignKey("inputs.id"))
46
+
47
+ prediction_label = Column(String)
48
+ prediction_proba = Column(Float)
49
+ model_version = Column(String)
50
+
51
+ created_at = Column(DateTime(timezone=True), server_default=func.now())
App/predict.py CHANGED
@@ -4,6 +4,9 @@ from App.schemas import EmployeeFeatures
4
  import json
5
  from pathlib import Path
6
  from huggingface_hub import hf_hub_download
 
 
 
7
 
8
  MODEL_REPO = "Diaure/xgb_model"
9
 
@@ -43,7 +46,28 @@ def predict_employee(data: dict):
43
  pred = model.predict(df)[0]
44
  proba = model.predict_proba(df)[0][1]
45
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
46
  return {
47
  "Prediction": classes_mapping[str(pred)],
48
- "Probabilite_depart": float(proba)
49
- }
 
4
  import json
5
  from pathlib import Path
6
  from huggingface_hub import hf_hub_download
7
+ from sqlalchemy.orm import Session
8
+ from App.database import SessionLocal
9
+ from App.model import Input, Predictions
10
 
11
  MODEL_REPO = "Diaure/xgb_model"
12
 
 
46
  pred = model.predict(df)[0]
47
  proba = model.predict_proba(df)[0][1]
48
 
49
+ db: Session = SessionLocal()
50
+
51
+ try:
52
+ # enregistrer les inputs: à chaque appel de POST/predict, on stocke d'abord les entrées de l'utilisateur
53
+ input_row = Input(**data)
54
+ db.add(input_row)
55
+ db.commit()
56
+ db.refresh(input_row)
57
+
58
+ # puis on récupère les ids générés automatiquement et enregistre les prédictions liés aux ids
59
+ pred_row = Predictions(input_id = input_row.id, prediction_label = classes_mapping[str(pred)], prediction_proba = float(proba), model_version = "v1")
60
+ db.add(pred_row)
61
+ db.commit()
62
+
63
+ except Exception as e:
64
+ print("🔥 ERREUR DB :", e)
65
+ raise e
66
+
67
+ finally:
68
+ db.close()
69
+
70
+ # puis on renvoie la réponse API
71
  return {
72
  "Prediction": classes_mapping[str(pred)],
73
+ "Probabilite_depart": float(proba)}
 
App/schemas.py CHANGED
@@ -10,7 +10,6 @@ class EmployeeFeatures(BaseModel):
10
  heure_supplementaires: bool
11
  evolution_cat_evol: str
12
  categorie_employe: str
13
-
14
  satisfaction_employee_nature_travail: int
15
  nombre_participation_pee: int
16
  ecart_note_evaluation: int
 
10
  heure_supplementaires: bool
11
  evolution_cat_evol: str
12
  categorie_employe: str
 
13
  satisfaction_employee_nature_travail: int
14
  nombre_participation_pee: int
15
  ecart_note_evaluation: int
README.md CHANGED
@@ -15,9 +15,7 @@ pinned: false
15
  opérationnels et accessibles via une API performante.
16
 
17
  Ce projet correspond à un **Proof of Concept (POC)** visant à déployer un modèle de machine
18
- learning en production en appliquant les bonnes pratiques d’ingénierie logicielle :
19
- versionnage, tests, base de données et automatisation.
20
-
21
 
22
 
23
  ## Objectifs du projet
@@ -29,7 +27,7 @@ versionnage, tests, base de données et automatisation.
29
 
30
 
31
  ## Périmètre fonctionnel
32
- Le projet inclut :
33
  - Une API développée avec **FastAPI**
34
  - L’exposition d’un modèle de machine learning via des endpoints REST
35
  - Une base de données **PostgreSQL** pour stocker les entrées/sorties du modèle
@@ -37,53 +35,75 @@ Le projet inclut :
37
  - Un pipeline **CI/CD** pour automatiser les tests et le déploiement
38
  - Une documentation technique claire
39
 
40
- ## CI/CD et qualité du code
 
 
 
 
41
 
42
- Ce projet utilise une pipeline d’intégration continue (CI) via GitHub Actions.
43
 
44
- À chaque push sur les branches de travail et à chaque pull request vers `develop`,
45
- le pipeline exécute automatiquement les étapes suivantes :
 
 
46
  - installation d’un environnement Python 3.11 isolé
47
  - installation des dépendances définies dans le projet
48
- - exécution des tests unitaires via pytest
49
 
50
- L’objectif est de garantir que :
51
- - le projet reste installable
52
- - les transformations et composants (chargement du modèle, prédiction) ne régressent pas
53
- - toute fusion vers la branche `develop` est validée automatiquement
 
54
 
55
- ## Architecture de l’API
56
 
57
- L’API est développée avec **FastAPI** et repose sur :
58
- - un schéma d’entrée validé avec **Pydantic**
59
- - un préprocesseur entraîné et sauvegardé
60
- - un modèle de machine learning sérialisé avec **joblib**
61
 
62
- Les artefacts du modèle sont stockés dans le dossier `App/model/` :
63
- - `preprocesseur_fitted.joblib`
64
- - `model_final_xgb.joblib`
65
- - `mapping_classes.json`
66
 
67
- ## Lancer l’API en local
68
 
69
- Depuis la racine du projet :
 
 
 
70
 
71
- ```bash
72
- uvicorn App.main:app --reload --log-level debug
73
- ```
74
- L’API est alors accessible à l’adresse http://127.0.0.1:8000/
 
 
 
 
 
 
 
 
75
 
76
- La documentation interactive à http://127.0.0.1:8000/docs
77
 
78
- ### Endpoint principal
 
 
 
 
 
 
 
 
79
  `POST /predict`
80
 
81
- Cet endpoint reçoit les caractéristiques d’un employé et retourne :
82
 
83
  - une prédiction lisible ("Reste" ou "Part")
84
  - la probabilité associée au départ
85
 
86
- Exemple de réponse :
87
  ```json
88
  {
89
  "Prediction": "Part",
@@ -93,26 +113,121 @@ Exemple de réponse :
93
  Les données d’entrée sont validées automatiquement avant l’appel au modèle,
94
  garantissant la cohérence avec les variables utilisées lors de l’entraînement.
95
 
96
- ## Documentation des endpoints
97
 
98
  L’API expose un endpoint principal de prédiction.
99
 
100
  **POST /predict**
101
  - Description : retourne une prédiction de départ d’un employé
102
- - Validation des données : Pydantic
103
- - Réponses possibles :
104
- - 200 : prédiction valide
105
- - 422 : données invalides
106
 
107
- ## Stack technique
108
- - **Langage** : Python
109
- - **API** : FastAPI
110
- - **Machine Learning** : scikit-learn
111
- - **Base de données** : PostgreSQL
112
- - **Tests** : Pytest, pytest-cov
113
- - **CI/CD** : GitHub Actions
114
- - **Versionnage** : Git / GitHub
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
115
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
116
 
117
 
118
  ## Structure du projet
@@ -121,7 +236,9 @@ futurisys_ml-api/
121
  ├── github/workflows
122
  │ ├── ci.yml # Description des évènement déclenchants des tests
123
  ├── app/ # Code applicatif principal
 
124
  │ ├── main.py # Point d’entrée de l’API
 
125
  │ ├── predict.py # Application du modèle
126
  │ ├── schemas.py # Validation des données (Pydantic)
127
  │ ── model/ # Elements du modèle
@@ -129,10 +246,14 @@ futurisys_ml-api/
129
  │ ├── modele_final_xgb.joblib # Modèle final avec hyperparamètres
130
  │ ├── preprocesseur_fitted.joblib # Pipeline entrainé
131
  |
132
- ├── scripts/ # Scripts bd (BD, données)
133
- ├── tests/ # Tests unitaires, fonctionnels
 
 
 
134
  │ ├── test_api.py # Test automatisé de l'API via Pytest
135
  |
 
136
  ├── .gitignore # Nettoyage du dépôt
137
  ├── pyproject.toml # Librairies des modules entrainement ML
138
  ├── README.md # Présentation du projet
 
15
  opérationnels et accessibles via une API performante.
16
 
17
  Ce projet correspond à un **Proof of Concept (POC)** visant à déployer un modèle de machine
18
+ learning en production en appliquant les bonnes pratiques d’ingénierie logicielle: versionnage, tests, base de données et automatisation.
 
 
19
 
20
 
21
  ## Objectifs du projet
 
27
 
28
 
29
  ## Périmètre fonctionnel
30
+ Le projet inclut:
31
  - Une API développée avec **FastAPI**
32
  - L’exposition d’un modèle de machine learning via des endpoints REST
33
  - Une base de données **PostgreSQL** pour stocker les entrées/sorties du modèle
 
35
  - Un pipeline **CI/CD** pour automatiser les tests et le déploiement
36
  - Une documentation technique claire
37
 
38
+ ## CI/CD et Déploiement
39
+
40
+ Ce projet met en œuvre une approche CI/CD complète, séparant:
41
+ - l’intégration continue (**CI**): garantir la qualité du code
42
+ - le déploiement continu (**CD**): rendre l’API accessible publiquement
43
 
44
+ ### `Intégration Continue (CI) GitHub Actions`
45
 
46
+ L’intégration continue est assurée via GitHub Actions.
47
+
48
+ À chaque **push** sur les branches de travail et à chaque **pull request** vers **`develop`**,
49
+ le pipeline exécute automatiquement les étapes suivantes:
50
  - installation d’un environnement Python 3.11 isolé
51
  - installation des dépendances définies dans le projet
52
+ - exécution des tests automatisés avec Pytest
53
 
54
+ L’objectif est de:
55
+ - vérifier que le projet est installable
56
+ - garantir que l’API démarre correctement
57
+ - valider le chargement du modèle et le endpoint /*`predict`*
58
+ - éviter toute régression avant fusion vers **`develop`**.
59
 
60
+ ### `Déploiement Continu (CD) – Hugging Face Spaces`
61
 
62
+ Le déploiement de l’API est réalisé sur Hugging Face Spaces qui permet:
 
 
 
63
 
64
+ - d’héberger gratuitement des applications ML
65
+ - de déployer une API Dockerisée
66
+ - d’exposer un service accessible publiquement sans gérer de serveur
 
67
 
68
+ Dans ce projet, Hugging Face est utilisé comme plateforme de démonstration et de mise à disposition de l’API.
69
 
70
+ Le déploiement repose sur un Dockerfile, qui définit:
71
+ - l’image Python utilisée (Python 3.11)
72
+ - l’installation des dépendances
73
+ - le lancement de l’API avec Uvicorn
74
 
75
+ Il garantit la reproductibilité de l'environnement lors de l'exécution de l'API.
76
+
77
+ A noter que les ***fichiers binaires*** ne sont pas stochés dans le dépôt GiHub principal pour les raisons suivantes:
78
+ - Hugging Face bloque les push Git contenant des fichiers binaires lourds
79
+ - Git n’est pas conçu pour versionner des artefacts ML volumineux.
80
+
81
+ Pour contourner la situation, dans le projet, les artefacts sont stockés dans un Space Hugging Face dédié, séparé du code. Lors du démarrage de lAPI:
82
+ - le code télécharge dynamiquement les artefacts via huggingface_hub
83
+ - l’API peut démarrer même si les fichiers ne sont pas présents localement
84
+
85
+
86
+ ### `Lancer l’API en local`
87
 
88
+ L’API est déployée publiquement sur Hugging Face Spaces.
89
 
90
+ - URL de l’API :
91
+ https://diaure-futurisys-ml-api.hf.space
92
+ - Documentation interactive (Swagger UI):
93
+ https://diaure-futurisys-ml-api.hf.space/docs. Ele permet de:
94
+ - visualiser les endpoints
95
+ - tester directement l’endpoint `/predict`
96
+ - voir les schémas d’entrée et de sortie.
97
+
98
+ ### `Endpoint principal`
99
  `POST /predict`
100
 
101
+ Cet endpoint reçoit les caractéristiques d’un employé et retourne:
102
 
103
  - une prédiction lisible ("Reste" ou "Part")
104
  - la probabilité associée au départ
105
 
106
+ Exemple de r��ponse:
107
  ```json
108
  {
109
  "Prediction": "Part",
 
113
  Les données d’entrée sont validées automatiquement avant l’appel au modèle,
114
  garantissant la cohérence avec les variables utilisées lors de l’entraînement.
115
 
116
+ ### `Documentation des endpoints`
117
 
118
  L’API expose un endpoint principal de prédiction.
119
 
120
  **POST /predict**
121
  - Description : retourne une prédiction de départ d’un employé
122
+ - Validation des données: Pydantic
123
+ - Réponses possibles:
124
+ - 200: prédiction valide
125
+ - 422: données invalides
126
 
127
+ ## Base de données et traçabilité des prédictions
128
+ ### `Objectifs`
129
+
130
+ L’intégration d’une base de données PostgreSQL permet d’inscrire le projet dans une logique MLOps et de répondre à plusieurs objectifs clés:
131
+ - assurer la traçabilité complète des prédictions du modèle
132
+ - conserver l’historique des données d’entrée utilisateur
133
+ - stocker les résultats de prédiction (label, probabilité, version du modèle)
134
+ - préparer une architecture compatible avec un déploiement en production.
135
+
136
+ ### `Méthodologie utilisée`
137
+ - **PostgreSQL** a été retenu pour:
138
+ - sa robustesse et sa fiabilité
139
+ - sa compatibilité native avec SQLAlchemy
140
+ - son usage courant en environnement professionnel
141
+
142
+ - **SQLAlchemy** est utilisé comme couche d’abstraction:
143
+ - gestion centralisée de la connexion à la base
144
+ - cohérence entre le schéma Python et la base SQL
145
+
146
+ Les identifiants de connexion sont stockés dans des variables d’environnement (`.env`) afin d’éviter toute exposition de secrets dans le dépôt Git.
147
+
148
+ ### `Modélisation de la base de données`
149
+ La base de données repose sur trois tables distinctes, chacune ayant un rôle précis.
150
+ 1. `employees_dataset - Dataset de référence`
151
+ Il contient le dataset final nettoyé et préparé lors de l'entraînement du modèle en incluant l'ensemble des **32 deatures** du modèle. Il sert de:
152
+ - référence de schéma
153
+ - source de validation
154
+ - base documentaire du modèle
155
+
156
+ C'est une table qui n'est jamais alimentée par l'utilisateur.
157
 
158
+ ```python
159
+ load_dotenv()
160
+
161
+ BASE_DIR = os.path.dirname(os.path.abspath(__file__))
162
+ csv_path = os.path.join(BASE_DIR, "dataset_final.csv")
163
+
164
+ df = pd.read_csv(csv_path, encoding="latin-1")
165
+
166
+ DB_USER = os.getenv("DB_USER")
167
+ DB_PASSWORD = os.getenv("DB_PASSWORD")
168
+ DB_HOST = os.getenv("DB_HOST")
169
+ DB_PORT = os.getenv("DB_PORT")
170
+ DB_NAME = os.getenv("DB_NAME")
171
+
172
+ DATABASE_URL = (f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"f"@{DB_HOST}:{DB_PORT}/{DB_NAME}")
173
+
174
+ engine = create_engine(DATABASE_URL)
175
+
176
+ df.to_sql("employees_dataset", engine, if_exists="replace", index=False)
177
+ ```
178
+
179
+ 2. `inputs - Entrées utilisateur`
180
+ - Enregistre chaque requête utilisateur envoyée à l'endpoint `/predict`
181
+ - Contient exactement les features attendues par le modèle
182
+ - Structure strictement alignée avec le schéma Pydandic(`EmployeeFeatures`)
183
+ - Permet:
184
+ - l'audit des predictions
185
+ - l'analyse à posteriori
186
+ - la reproductibilité des résultats.
187
+ ```python
188
+ class Input(Base):
189
+ __tablename__ = "inputs"
190
+
191
+ id = Column(Integer, primary_key=True, index=True)
192
+ genre = Column(String)
193
+ statut_marital = Column(String)
194
+ departement = Column(String)
195
+ poste = Column(String)
196
+ ```
197
+
198
+ 3. `predictions - Résultats du modèle`
199
+ - Continet:
200
+ - le label de prédiction
201
+ - la probabilité associée
202
+ - Reliée à `inputs` via une clé étrangère
203
+ - Garantit une trçabilité complète.
204
+ ```python
205
+ class Predictions(Base):
206
+ __tablename__ = "predictions"
207
+ id = Column(Integer, primary_key=True, index=True)
208
+ input_id = Column(Integer, ForeignKey("inputs.id"))
209
+
210
+ prediction_label = Column(String)
211
+ prediction_proba = Column(Float)
212
+ model_version = Column(String)
213
+ ```
214
+
215
+ ### `Interaction API <> Base de données`
216
+ Lors d’un appel à l’endpoint `POST /predict`:
217
+ - les données utilisateur sont validées via **Pydantic**
218
+ - les entrées sont enregistrées dans la table **inputs**
219
+ - le modèle est exécuté
220
+ - la prédiction est enregistrée dans la table **predictions**
221
+ - la réponse est retournée à l’utilisateur.
222
+
223
+ ## Stack technique
224
+ - **Langage**: Python
225
+ - **API**: FastAPI
226
+ - **Machine Learning**: scikit-learn
227
+ - **Base de données**: PostgreSQL
228
+ - **Tests**: Pytest, pytest-cov
229
+ - **CI/CD**: GitHub Actions
230
+ - **Versionnage**: Git / GitHub
231
 
232
 
233
  ## Structure du projet
 
236
  ├── github/workflows
237
  │ ├── ci.yml # Description des évènement déclenchants des tests
238
  ├── app/ # Code applicatif principal
239
+ │ ├── database.py # Point de connexion à la base PostgreSQL
240
  │ ├── main.py # Point d’entrée de l’API
241
+ │ ├── model.py # Définition des tables de la database
242
  │ ├── predict.py # Application du modèle
243
  │ ├── schemas.py # Validation des données (Pydantic)
244
  │ ── model/ # Elements du modèle
 
246
  │ ├── modele_final_xgb.joblib # Modèle final avec hyperparamètres
247
  │ ├── preprocesseur_fitted.joblib # Pipeline entrainé
248
  |
249
+ ├── scripts/ # Scripts bd (BD, données)
250
+ ├── create_tables.py # Créaton des tables définies dans model.py
251
+ │ ├── dataset_final.csv # Data final
252
+ │ ├── insert_dataset.py # Code chargement de la table dataset_final
253
+ ├── tests/ # Tests unitaires, fonctionnels
254
  │ ├── test_api.py # Test automatisé de l'API via Pytest
255
  |
256
+ ├── .env # Stockage des variables sensibles et de configuration
257
  ├── .gitignore # Nettoyage du dépôt
258
  ├── pyproject.toml # Librairies des modules entrainement ML
259
  ├── README.md # Présentation du projet
scripts/create_tables.py ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ from App.database import engine
2
+ from App.database import Base
3
+
4
+ Base.metadata.create_all(bind=engine)
5
+
6
+ print("Tables créées avec succès")
scripts/insert_dataset.py CHANGED
@@ -16,10 +16,7 @@ DB_HOST = os.getenv("DB_HOST")
16
  DB_PORT = os.getenv("DB_PORT")
17
  DB_NAME = os.getenv("DB_NAME")
18
 
19
- DATABASE_URL = (
20
- f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"
21
- f"@{DB_HOST}:{DB_PORT}/{DB_NAME}"
22
- )
23
 
24
  engine = create_engine(DATABASE_URL)
25
 
 
16
  DB_PORT = os.getenv("DB_PORT")
17
  DB_NAME = os.getenv("DB_NAME")
18
 
19
+ DATABASE_URL = (f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"f"@{DB_HOST}:{DB_PORT}/{DB_NAME}")
 
 
 
20
 
21
  engine = create_engine(DATABASE_URL)
22