File size: 9,548 Bytes
be12a0f
 
 
 
 
 
 
 
 
 
c03139d
be12a0f
 
4a7ca9a
9a917c1
1e83921
 
53aa80c
1e83921
 
f84949e
4a7ca9a
f84949e
4a7ca9a
f84949e
4a7ca9a
 
 
 
f84949e
4a7ca9a
3d9a801
4a7ca9a
566d4b5
4a7ca9a
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
566d4b5
4a7ca9a
 
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
566d4b5
4a7ca9a
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
 
 
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
 
 
 
 
 
 
566d4b5
4a7ca9a
566d4b5
4a7ca9a
13607ec
4a7ca9a
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
---
title: OCR_Projet05
emoji: 🔥
colorFrom: purple
colorTo: purple
sdk: gradio
sdk_version: 5.49.1
app_file: app.py
pinned: true
short_description: Projet 05 formation Openclassrooms
python_version: 3.11
---

# OCR Projet 05 – Prédiction d’attrition

[![GitHub Actions Workflow Status](https://img.shields.io/github/actions/workflow/status/stephmnt/OCR_Projet05/deploy.yml)](https://github.com/stephmnt/OCR_Projet05/actions/workflows/deploy.yml)
[![GitHub Release Date](https://img.shields.io/github/release-date/stephmnt/OCR_Projet05?display_date=published_at&style=flat-square)](https://github.com/stephmnt/OCR_Projet05/releases)
[![project_license](https://img.shields.io/github/license/stephmnt/OCR_projet05.svg)](https://github.com/stephmnt/OCR_Projet05/blob/main/LICENSE)
[![MkDocs](https://img.shields.io/badge/MkDocs-526CFE?logo=materialformkdocs&logoColor=fff)](https://stephmnt.github.io/OCR_Projet05/)
[![Cookie Cutter](https://img.shields.io/badge/CCDS-Project%20template-328F97?logo=cookiecutter)](https://cookiecutter-data-science.drivendata.org/)

Ce dépôt contient le projet OCR_Projet05. Il s’agit d’une application Gradio déployable sur Hugging Face Spaces, alimentée par un pipeline de préparation de données, un entraînement automatique et des services d’inférence orientés RH (prédiction de départ d’employés).  

Ce document décrit :

- la **présentation fonctionnelle** ;
- les **instructions d’installation, d’utilisation et de déploiement** (local + Hugging Face) ;
- le **processus de stockage/gestion des données** (PostgreSQL + journaux) ;
- les **besoins analytiques** (tableaux de bord, métriques clés).

---

## 1. Vue d’ensemble du projet

- **Objectif métier** : détecter les employés à risque de départ en exploitant 3 sources brutes (SIRH, évaluation, sondage interne).
- **Technologie** : pipeline Python (Typer, pandas, scikit-learn, SQLAlchemy) + application Gradio (`app.py`) déployée sur Hugging Face.
- **Modèle** : pipeline scikit-learn (prétraitement + classifieur) sérialisé dans `models/best_model.joblib`, paramétré avec un seuil de décision optimisé (visible dans l’UI).
- **Journaux** : deux sous-dossiers `logs/pipeline_logs` et `logs/tests_logs` contiennent respectivement les traces du pipeline `main.py` et les sorties Pytest.

Arborescence clé :

```
├── projet_05/                # Package Python principal
├── app.py                    # Interface Gradio (déploiement HF)
├── scripts/init_db.py        # Création/initialisation PostgreSQL
├── main.py                   # Orchestrateur du pipeline local
├── docs/                     # Documentation MkDocs + tests.md
├── tests/                    # Suite Pytest (DB + intégration)
└── requirements.txt          # Dépendances runtime (HF)
```

---

## 2. Installation locale

### 2.1. Prérequis

1. Python 3.11 (virtualenv ou Poetry recommandé).
2. PostgreSQL (>= 17) accessible localement (cf. instructions DB plus bas).
3. Outils optionnels : `make`, `pip`, `pytest`.

### 2.2. Étapes

```bash
git clone https://github.com/stephmnt/OCR_Projet05.git
cd OCR_Projet05
python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt     # pour HF
pip install -e .                    # pour le développement local (pyproject)
```

### 2.3. Configuration PostgreSQL

```bash
/opt/homebrew/opt/postgresql@17/bin/createuser -s postgres
/opt/homebrew/opt/postgresql@17/bin/psql -d postgres -c "ALTER USER postgres WITH PASSWORD 'postgres';"
/opt/homebrew/opt/postgresql@17/bin/createdb -O postgres projet05
```

Puis dans `projet_05/settings.yml` :

```yaml
database:
  url: postgresql+psycopg://postgres:postgres@localhost:5432/projet05
  schema: public
```

> Sur une autre infrastructure, adaptez l’URL ou utilisez `PROJET05_DATABASE_URL`.

---

## 3. Utilisation du pipeline

### 3.1. Initialiser la base

```bash
python -m scripts.init_db
```

Création des tables `sirh`, `evaluation`, `sond`, `prediction_logs` + insertion des CSV bruts situés dans `data/raw`.

### 3.2. Pipeline complet

```bash
python main.py
```

- `main.py` enchaîne :
  1. Initialisation base PostgreSQL (`scripts.init_db`)
  2. Préparation des données (`projet_05.dataset`)
  3. Feature engineering (`projet_05.features`)
  4. Entraînement (`projet_05.modeling.train`)
- Les logs sont regroupés dans `logs/pipeline_logs/<timestamp>.log`.

### 3.3. Application Gradio locale

```bash
python app.py
```

L’interface propose :

- onglet **Formulaire** ;
- **Tableau interactif** ;
- **Upload CSV** ;
- **Fichiers non-mergés** (chargement des trois CSV bruts, fusion automatique).
Un appel à `_log_predictions` trace chaque prédiction dans PostgreSQL (`prediction_logs`).

---

## 4. Déploiement sur Hugging Face

### 4.1. Dépendances

`requirements.txt` contient toutes les bibliothèques nécessaires à la Space (Gradio, scikit-learn, pandas, SQLAlchemy, psycopg…).

### 4.2. Étapes

1. Créer une Space Gradio (Python 3.11).
2. Copier `app.py`, `requirements.txt`, `models/`, `data/processed/schema.json`.
3. Configurer les secrets HF (si besoin de variables d’environnement).
4. Optionnel : définir `HUGGINGFACEHUB_API_TOKEN` pour automatiser les déploiements via GitHub Actions.

### 4.3. Spécificités Space

- Hugging Face n’expose pas PostgreSQL. L’application Gradio bascule alors sur le mode **pandas fallback** (fusion locale) grâce à la gestion d’erreur de `dataset.py`.
- Les journaux restants sont ceux générés par l’appli (pas d’écriture dans `logs/` côté Space).

---

## 5. Processus de stockage & gestion des données

### 5.1. Sources

- `data/raw/extrait_sirh.csv`
- `data/raw/extrait_eval.csv`
- `data/raw/extrait_sondage.csv`

### 5.2. Base relationnelle

Tables PostgreSQL créées par `scripts.init_db` :

| Table | Rôle | Colonnes clés |
| --- | --- | --- |
| `sirh` | Profil RH structuré | `id_employee`, `age`, `revenu_mensuel`, `poste`, etc. |
| `evaluation` | Historique d’évaluations | `id_employee`, `note_evaluation_actuelle`, `niveau_hierarchique_poste`, `satisfaction_*` |
| `sond` | Sondage + cible | `id_employee`, `a_quitte_l_entreprise`, `distance_domicile_travail`, `domaine_etude`, etc. |
| `prediction_logs` | Journal d’inférence | `log_id`, `created_at`, `id_employee`, `source`, `probability`, `decision`, `payload` JSON |

`projet_05.dataset` fusionne `sirh ∩ evaluation ∩ sond` via SQL ; en cas d’indisponibilité DB, la fusion pandas est utilisée en repli.

### 5.3. Journaux et tracing

- `logs/pipeline_logs` : sorties `main.py`
- `logs/tests_logs` : sorties Pytest (`make test`)
- `prediction_logs` : base PostgreSQL, indispensable pour l’audit des décisions ML.

---

## 6. Tests et couverture

### 6.1. Exécution

```bash
pytest
```

- La fixture `initialized_db` crée une base `projet05_test`, lance `scripts.init_db`, puis la supprime.
- Les logs Pytest sont stockés dans `logs/tests_logs/<timestamp>.log`.

### 6.2. Couverture

- Rapports `term-missing` + `coverage.xml`.
- Zones non couvertes : `features.py`, `modeling/train.py`, `explainability.py` (à prioriser si besoin).

---

## 7. Besoins analytiques / tableaux de bord

- **Dashboard RH** basé sur les journaux `prediction_logs` :
  - Volume de prédictions par source (Formulaire / CSV / Raw).
  - Répartition des scores (`proba_depart`) / seuil de décision.
  - Historique des décisions (tendance du taux de risque).
  - Drill-down par attributs (`departement`, `poste`, `genre`…).
- **Monitoring modèle** :
  - Taux d’utilisation (logs journaliers).
  - Drift potentiel : comparer les distributions des features avec `docs/` (notebooks d’analyse) ou via un outil externe.
- **KPI Data/IT** :
  - Latence d’inférence (calculable via timestamps, si ajoutés).
  - Suivi des erreurs (logs pipeline/tests).

---

## 8. Choix techniques et justification

Ce projet combine une interface Gradio, une base PostgreSQL et un pipeline CI/CD GitHub Actions. Les décisions d’architecture détaillant le pourquoi/du comment (Gradio vs FastAPI, choix de PostgreSQL, automatisations) sont regroupées dans [`docs/docs/choix-techniques.md`](docs/docs/choix-techniques.md). Cette section sert de support de soutenance pour rappeler :

- pourquoi Gradio a été privilégié pour la démonstration Hugging Face ;
- comment PostgreSQL sécurise la fusion des trois sources et la journalisation ;
- en quoi les workflows GitHub Actions garantissent un déploiement fiable.
- comment les environnements sont configurés : `main.py` est exécuté en environnement **test** (base `projet05_test`, variables `PROJET05_TEST_DATABASE_URL`) pour valider le pipeline complet, tandis que `app.py` tourne en **production** (Space Hugging Face, variable `PROJET05_DATABASE_URL`/fallback pandas) afin de servir les utilisateurs finaux.

## 9. Instructions rapides

| Action | Commande |
| --- | --- |
| Init DB + pipeline complet | `python main.py` |
| Lancer Gradio local | `python app.py` |
| Initialiser la base seule | `python -m scripts.init_db` |
| Lancer les tests + logs | `make test` |
| Déployer sur Hugging Face | Pousser `app.py`, `requirements.txt`, `models/`, config Space |

---

## 10. Licence / références

Ce projet est fourni dans le cadre de la formation OpenClassrooms.  
La documentation complémentaire est disponible dans `docs/` (MkDocs + `docs/docs/tests.md` pour les tests).  
Pour toute question : [LinkedIn](https://linkedin.com/in/stephanemanet).