Spaces:

Diaure
/

Futurisys_ML_API

Runtime error

App Files Files Community

Aurélie GABU commited on Jan 14

Commit

f04623c

2 Parent(s): 8eba50c b68c388

Merge branch 'develop' of https://github.com/Diaure/Futurisys_ML_API into develop

Browse files

Files changed (14) hide show

.github/workflows/ci.yml +9 -10
.gitignore +2 -2
App/database.py +20 -0
App/main.py +4 -0
App/model/preprocesseur_fitted.joblib +0 -0
App/model/variables_entree.json +0 -1
App/predict.py +10 -7
Dockerfile +13 -0
README.md +64 -30
poetry.lock +0 -0
pyproject.toml +8 -2
requirements.txt +7 -1
scripts/dataset_final.csv +0 -0
scripts/insert_dataset.py +28 -0

.github/workflows/ci.yml CHANGED Viewed

@@ -16,16 +16,15 @@ jobs:
     steps:
       - uses: actions/setup-python@v5
         with:
-          python-version: "3.11"
       - uses: actions/checkout@v4
-      - name: Install dependencies
-        run: |
-          pip install .
-          pip install -r requirements.txt
-          pip install pytest
-      - name: Run tests
-        run: pytest

     steps:
       - uses: actions/setup-python@v5
         with:
+          python-version: "3.11.9"
       - uses: actions/checkout@v4
+      - name: Install Poetry
+        run: pip install poetry
+      - name: Install dependencies with Poetry
+        run: poetry install --no-interaction --no-root
+      - name: Run tests
+        run: poetry run pytest

.gitignore CHANGED Viewed

@@ -5,6 +5,6 @@ venv/
 .pytest_cache/
 .coverage
 App/model/
-App/model/modele_final_xgb.joblib
 *.joblib
-*.json

 .pytest_cache/
 .coverage
 App/model/
 *.joblib
+*.json
+App/model/modele_final_xgb.joblib

App/database.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import os
+from dotenv import load_dotenv
+from sqlalchemy import create_engine
+from sqlalchemy.orm import sessionmaker
+load_dotenv()
+DB_USER = os.getenv("DB_USER")
+DB_PASSWORD = os.getenv("DB_PASSWORD")
+DB_HOST = os.getenv("DB_HOST")
+DB_PORT = os.getenv("DB_PORT")
+DB_NAME = os.getenv("DB_NAME")
+DATABASE_URL = (
+    f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"
+    f"@{DB_HOST}:{DB_PORT}/{DB_NAME}"
+)
+engine = create_engine(DATABASE_URL)
+SessionLocal = sessionmaker(bind=engine)

App/main.py CHANGED Viewed

@@ -8,6 +8,10 @@ app = FastAPI(
     version="0.1.0"
 )
 @app.post("/predict")
 def predict(data: EmployeeFeatures):
     """

     version="0.1.0"
 )
+@app.get("/")
+def root():
+    return {"status": "API OK"}
 @app.post("/predict")
 def predict(data: EmployeeFeatures):
     """

App/model/preprocesseur_fitted.joblib DELETED Viewed

Binary file (8.04 kB)

App/model/variables_entree.json DELETED Viewed

@@ -1 +0,0 @@

- ["genre", "statut_marital", "departement", "poste", "domaine_etude", "frequence_deplacement", "heure_supplementaires", "evolution_cat_evol", "categorie_employe", "satisfaction_employee_nature_travail", "nombre_participation_pee", "ecart_note_evaluation", "revenu_mensuel", "distance_domicile_travail", "satisfaction_globale", "niveau_education", "note_evaluation_actuelle", "satisfaction_employee_equipe", "age", "revenu_par_annee_experience_interne", "satisfaction_employee_equilibre_pro_perso", "nombre_experiences_precedentes", "annees_dans_l_entreprise", "nb_formations_suivies", "revenu_par_annee_experience_totale", "ratio_sans_promotion", "satisfaction_employee_environnement", "exp_hors_entreprise", "mobilite_promotion", "annees_depuis_la_derniere_promotion"]

App/predict.py CHANGED Viewed

@@ -3,10 +3,9 @@ import pandas as pd
 from App.schemas import EmployeeFeatures
 import json
 from pathlib import Path
-# Chemin des fichiers
-chemin_model = Path("App/model/modele_final_xgb.joblib")
-chemin_mapping = Path("App/model/mapping_classes.json")
 # Variables chargées
 model = None
@@ -14,17 +13,21 @@ classes_mapping = None
 Features = list(EmployeeFeatures.model_fields.keys())
 # Chargement des fichiers: fonction pour charger le modèle, le mapping afin de permettre à l'API de démarrer m^me si les éléments ne sont pas présents
 def files_load():
     global model, classes_mapping
     if model is None:
-        if not chemin_model.exists():
-            raise RuntimeError("Eléments du modèle introuvable.")
         model =joblib.load(chemin_model)
     if classes_mapping is None:
-        if not chemin_mapping.exists():
-            raise RuntimeError("Mapping des classes introuvable.")
         with open(chemin_mapping) as f:
             classes_mapping = json.load(f)

 from App.schemas import EmployeeFeatures
 import json
 from pathlib import Path
+from huggingface_hub import hf_hub_download
+MODEL_REPO = "Diaure/xgb_model"
 # Variables chargées
 model = None
 Features = list(EmployeeFeatures.model_fields.keys())
 # Chargement des fichiers: fonction pour charger le modèle, le mapping afin de permettre à l'API de démarrer m^me si les éléments ne sont pas présents
 def files_load():
     global model, classes_mapping
     if model is None:
+        chemin_model = Path(hf_hub_download(repo_id=MODEL_REPO, filename="modele_final_xgb.joblib"))
+        # if not chemin_model.exists():
+        #     raise RuntimeError("Eléments du modèle introuvable.")
         model =joblib.load(chemin_model)
     if classes_mapping is None:
+        chemin_mapping = Path(hf_hub_download(repo_id=MODEL_REPO, filename="mapping_classes.json"))
+        # if not chemin_mapping.exists():
+        #     raise RuntimeError("Mapping des classes introuvable.")
         with open(chemin_mapping) as f:
             classes_mapping = json.load(f)

Dockerfile ADDED Viewed

	@@ -0,0 +1,13 @@

+# force rebuild
+FROM python:3.11
+WORKDIR /code
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+EXPOSE 7860
+CMD ["uvicorn", "App.main:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -1,3 +1,13 @@
 # Futurisys – Déploiement d’un modèle de Machine Learning via API
 ## Contexte
@@ -27,45 +37,67 @@ Le projet inclut :
 - Un pipeline **CI/CD** pour automatiser les tests et le déploiement
 - Une documentation technique claire
-## CI/CD et qualité du code
-Ce projet utilise une pipeline d’intégration continue (CI) via GitHub Actions.
-À chaque push sur les branches de travail et à chaque pull request vers `develop`,
 le pipeline exécute automatiquement les étapes suivantes :
 - installation d’un environnement Python 3.11 isolé
 - installation des dépendances définies dans le projet
-- exécution des tests unitaires via pytest
-L’objectif est de garantir que :
-- le projet reste installable
-- les transformations et composants (chargement du modèle, prédiction) ne régressent pas
-- toute fusion vers la branche `develop` est validée automatiquement
-## Architecture de l’API
-L’API est développée avec **FastAPI** et repose sur :
-- un schéma d’entrée validé avec **Pydantic**
-- un préprocesseur entraîné et sauvegardé
-- un modèle de machine learning sérialisé avec **joblib**
-Les artefacts du modèle sont stockés dans le dossier `App/model/` :
-- `preprocesseur_fitted.joblib`
-- `model_final_xgb.joblib`
-- `mapping_classes.json`
-## Lancer l’API en local
-Depuis la racine du projet :
-```bash
-uvicorn App.main:app --reload --log-level debug
-```
-L’API est alors accessible à l’adresse  http://127.0.0.1:8000/
-La documentation interactive à http://127.0.0.1:8000/docs
-### Endpoint principal
 `POST /predict`
 Cet endpoint reçoit les caractéristiques d’un employé et retourne :
@@ -83,7 +115,7 @@ Exemple de réponse :
 Les données d’entrée sont validées automatiquement avant l’appel au modèle,
 garantissant la cohérence avec les variables utilisées lors de l’entraînement.
-## Documentation des endpoints
 L’API expose un endpoint principal de prédiction.
@@ -100,7 +132,7 @@ L’API expose un endpoint principal de prédiction.
 - **Machine Learning** : scikit-learn
 - **Base de données** : PostgreSQL
 - **Tests** : Pytest, pytest-cov
-- **CI/CD** : GitHub Actions
 - **Versionnage** : Git / GitHub
@@ -121,10 +153,12 @@ futurisys_ml-api/
 |
 ├── scripts/         # Scripts bd (BD, données)
 ├── tests/           # Tests unitaires, fonctionnels
-│   ├── test_api.py      # Test automatisé de l'API via Pytest
 |
 ├── .gitignore       # Nettoyage du dépôt
-├── pyproject.toml   # Librairies des modules entrainement ML
 ├── README.md        # Présentation du projet
-└── requirements.txt # Librairies des modules dispensables API
 ```

+---
+title: Futurisys ML API
+emoji: 🚀
+colorFrom: blue
+colorTo: green
+sdk: docker
+pinned: false
+---
 # Futurisys – Déploiement d’un modèle de Machine Learning via API
 ## Contexte
 - Un pipeline **CI/CD** pour automatiser les tests et le déploiement
 - Une documentation technique claire
+## CI/CD et Déploiement
+Ce projet met en œuvre une approche CI/CD complète, séparant:
+- l’intégration continue (**CI**): garantir la qualité du code
+- le déploiement continu (**CD**): rendre l’API accessible publiquement
+### `Intégration Continue (CI) – GitHub Actions`
+L’intégration continue est assurée via GitHub Actions.
+À chaque **push** sur les branches de travail et à chaque **pull request** vers **`develop`**,
 le pipeline exécute automatiquement les étapes suivantes :
 - installation d’un environnement Python 3.11 isolé
 - installation des dépendances définies dans le projet
+- exécution des tests automatisés avec Pytest
+L’objectif est de:
+- vérifier que le projet est installable
+- garantir que l’API démarre correctement
+- valider le chargement du modèle et le endpoint /*`predict`*
+- éviter toute régression avant fusion vers **`develop`**.
+### `Déploiement Continu (CD) – Hugging Face Spaces`
+Le déploiement de l’API est réalisé sur Hugging Face Spaces qui permet:
+- d’héberger gratuitement des applications ML
+- de déployer une API Dockerisée
+- d’exposer un service accessible publiquement sans gérer de serveur
+Dans ce projet, Hugging Face est utilisé comme plateforme de démonstration et de mise à disposition de l’API.
+Le déploiement repose sur un Dockerfile, qui définit :
+- l’image Python utilisée (Python 3.11)
+- l’installation des dépendances
+- le lancement de l’API avec Uvicorn
+Il garantit la reproductibilité de l'environnement lors de l'exécution de l'API.
+A noter que les ***fichiers binaires*** ne sont pas stochés dans le dépôt GiHub principal pour les raisons suivantes:
+- Hugging Face bloque les push Git contenant des fichiers binaires lourds
+- Git n’est pas conçu pour versionner des artefacts ML volumineux.
+Pour contourner la situation, dans le projet, les artefacts sont stockés dans un Space Hugging Face dédié, séparé du code. Lors du démarrage de lAPI:
+- le code télécharge dynamiquement les artefacts via huggingface_hub
+- l’API peut démarrer même si les fichiers ne sont pas présents localement
+### `Lancer l’API en local`
+L’API est déployée publiquement sur Hugging Face Spaces.
+- URL de l’API :
+https://diaure-futurisys-ml-api.hf.space
+- Documentation interactive (Swagger UI) :
+https://diaure-futurisys-ml-api.hf.space/docs. Ele permet de:
+  - visualiser les endpoints
+  - tester directement l’endpoint `/predict`
+  - voir les schémas d’entrée et de sortie.
+### `Endpoint principal`
 `POST /predict`
 Cet endpoint reçoit les caractéristiques d’un employé et retourne :
 Les données d’entrée sont validées automatiquement avant l’appel au modèle,
 garantissant la cohérence avec les variables utilisées lors de l’entraînement.
+### `Documentation des endpoints`
 L’API expose un endpoint principal de prédiction.
 - **Machine Learning** : scikit-learn
 - **Base de données** : PostgreSQL
 - **Tests** : Pytest, pytest-cov
+- **CI/CD** : GitHub Actions, Hugging Face
 - **Versionnage** : Git / GitHub
 |
 ├── scripts/         # Scripts bd (BD, données)
 ├── tests/           # Tests unitaires, fonctionnels
+│   ├── test_api.py  # Test automatisé API Pytest
 |
 ├── .gitignore       # Nettoyage du dépôt
+├── Dockerfile       # Reproduction du dépôt
+├── poetry.lock      # Nettoyage du dépôt
+├── pyproject.toml   # Librairies dépendances ML
 ├── README.md        # Présentation du projet
+└── requirements.txt # Librairies dépendances API
 ```

poetry.lock ADDED Viewed

The diff for this file is too large to render. See raw diff

pyproject.toml CHANGED Viewed

@@ -21,11 +21,17 @@ dependencies = [
     "catboost ==1.2.7",
     "numba ==0.59.1",
     "llvmlite ==0.42.0",
-    "ipykernel>=6.25,<7.0"
 ]
 [build-system]
 requires = ["poetry-core>=2.0.0,<3.0.0"]
 build-backend = "poetry.core.masonry.api"

     "catboost ==1.2.7",
     "numba ==0.59.1",
     "llvmlite ==0.42.0",
+    "ipykernel>=6.25,<7.0",
+    "huggingface-hub ==1.3.1",
+    "fastapi ==0.115.0",
+    "uvicorn ==0.30.1"
 ]
 [build-system]
 requires = ["poetry-core>=2.0.0,<3.0.0"]
 build-backend = "poetry.core.masonry.api"
+[tool.poetry.group.dev.dependencies]
+pytest = "9.0.2"

requirements.txt CHANGED Viewed

@@ -6,4 +6,10 @@ Pygments==2.19.2
 pytest==9.0.2
 fastapi==0.115.0
 uvicorn==0.30.1
-httpx==0.27.0

 pytest==9.0.2
 fastapi==0.115.0
 uvicorn==0.30.1
+httpx==0.27.0
+huggingface-hub==1.3.1
+joblib==1.4.2
+pandas==2.2.2
+scikit-learn==1.4.2
+xgboost ==2.0.3
+huggingface-hub ==1.3.1

scripts/dataset_final.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

scripts/insert_dataset.py ADDED Viewed

	@@ -0,0 +1,28 @@

+import os
+import pandas as pd
+from dotenv import load_dotenv
+from sqlalchemy import create_engine
+load_dotenv()
+BASE_DIR = os.path.dirname(os.path.abspath(__file__))
+csv_path = os.path.join(BASE_DIR, "dataset_final.csv")
+df = pd.read_csv(csv_path, encoding="latin-1")
+DB_USER = os.getenv("DB_USER")
+DB_PASSWORD = os.getenv("DB_PASSWORD")
+DB_HOST = os.getenv("DB_HOST")
+DB_PORT = os.getenv("DB_PORT")
+DB_NAME = os.getenv("DB_NAME")
+DATABASE_URL = (
+    f"postgresql+psycopg2://{DB_USER}:{DB_PASSWORD}"
+    f"@{DB_HOST}:{DB_PORT}/{DB_NAME}"
+)
+engine = create_engine(DATABASE_URL)
+df.to_sql("employees_dataset", engine, if_exists="replace", index=False)
+print("Dataset inséré dans PostgreSQL")