OC_P8_test / projet /mission.txt
GitHub Actions
Sync to HF Spaces [no-ci]
42a08fb
Comment allez-vous procéder ?
Cette mission simule la mise en production d'un modèle de scoring. Suivez les étapes pour réaliser vos livrables. Avant de démarrer, lisez attentivement la mission, consultez les étapes, et préparez vos questions pour la session de mentorat.
Prêt à mener la mission ?
Vous êtes Data Scientist dans l'entreprise "Prêt à Dépenser". Après avoir développé et versionné un modèle de scoring (Projet Initiez-vous au MLops), vous recevez un message Slack de Chloé Dubois, la Lead Data Scientist :
" Salut ! Excellents résultats sur la dernière version du modèle de scoring ! Le département 'Crédit Express' est très impatient de l'utiliser pour traiter les nouvelles demandes en quasi temps réel. Il nous faut absolument une API fonctionnelle et déployable (Docker Ready!) d'ici la fin de la semaine prochaine. Peux-tu prioriser ça ? On a aussi besoin d'un dashboard ou rapport de suivi pour vérifier que tout se passe bien une fois en prod (distribution des scores, temps de réponse, ce genre de choses). Tiens-moi au courant de ton plan d'action ! Merci ! "
Vous voila donc chargé de piloter la mise en production effective du modèle de scoring. Cela inclut la création d'une API robuste, la conteneurisation pour un déploiement fluide, et la mise en place d'un monitoring proactif pour garantir la performance et la fiabilité du modèle dans le temps.
En structurant vos pensées et en préparant votre to do list, vous rédigez la liste des livrables que vous allez concevoir et présenter à Chloé :
1. Un historique des versions retraçant la construction du projet que vous rendrez disponible dans votre github en consultant la liste des commits.
2. Des scripts :
- Une API fonctionnelle (vous travaillerez probablement avec Gradio ou FastAPI) qui prend les données d'un client en entrée et retourne un score de prédiction.
- Des tests unitaires automatisés.
3. Un dockerfile pour la conteneurisation du code.
4. Une analyse du Data Drift:
- Un tableau de bord ou un rapport de monitoring (vous savez que vous pourrez le simuler dans un notebook ou via un outil comme Streamlit voire Dash) montrant des métriques clés (ex.: distribution des scores prédits, latence de l'API, temps d’inférence, etc.)
- Des screenshots de la solution de stockage des données de production.
5. Un pipeline CI/CD: un fichier YAML (ou équivalent) démontrant l’automatisation de la mise en production et des tests lors d’un push sur la branche principale (à minima) du projet.
6. Une documentation README expliquant comment lancer l'API et interpréter le monitoring.
Dans ce projet, vous vous appuierez sur les livrables que vous avez réalisés lors du projet précédent intitulé Initiez-vous au MLOps (partie 1/2).Plus précisément, il s’agit de reprendre le modèle de scoring que vous avez développé, versionné et évalué précédemment avec MLflow. Ce modèle constitue désormais la base sur laquelle vous allez travailler pour le déployer en production.Vous devrez donc réutiliser les artefacts produits, les adapter si nécessaire, et construire autour un environnement complet de déploiement.
De plus, nous vous suggérons de travailler avec les deux outils présentés dans les ressources pédagogiques de ce projet actuel : Streamlit et Gradio. Vous êtes néanmoins libre de travailler avec d’autres outils si vous le souhaitez mais vous penserez à expliquer vos choix techniques pendant votre soutenance avec l’évaluateur.