Spaces:

CedM
/

oc_mlops_projet_2

Sleeping

App Files Files Community

GitLab CI commited on Feb 21

Commit

2edd2e3

1 Parent(s): d6af6ed

Déploiement automatique depuis GitLab CI - 2026-02-21 15:01:29

Browse files

Files changed (3) hide show

2_Data_transformed/shap_feature_importance.csv +11 -0
Dockerfile +1 -0
api.py +45 -8

2_Data_transformed/shap_feature_importance.csv ADDED Viewed

	@@ -0,0 +1,11 @@

+Feature;SHAP_Importance
+EXT_SOURCE_3;0.06643797108437811
+EXT_SOURCE_2;0.05505396045357957
+EXT_SOURCE_1;0.03233115507717239
+DAYS_EMPLOYED;0.028354028645426625
+PAYMENT_RATE;0.022252903274004247
+INSTAL_DPD_MEAN;0.018776079308394894
+PREV_CNT_PAYMENT_MEAN;0.01790142297206313
+AMT_ANNUITY;0.016378318169115513
+CODE_GENDER;0.015840633691170735
+PREV_NAME_PRODUCT_TYPE_walk-in_MEAN;0.014779582307969177

Dockerfile CHANGED Viewed

@@ -17,6 +17,7 @@ RUN pip install --no-cache-dir --upgrade pip && \
 # Copier le code de l'application
 COPY --chown=user api.py .
 COPY --chown=user 2_Data_transformed/app_train_Enc_wo_Outliers_Feat_Eng_Join_Align_head.csv ./2_Data_transformed/
 COPY --chown=user 3_Results/best_gradient_boosting_model.pkl ./3_Results/
 # ============================================

 # Copier le code de l'application
 COPY --chown=user api.py .
 COPY --chown=user 2_Data_transformed/app_train_Enc_wo_Outliers_Feat_Eng_Join_Align_head.csv ./2_Data_transformed/
+COPY --chown=user 2_Data_transformed/shap_feature_importance.csv ./2_Data_transformed/
 COPY --chown=user 3_Results/best_gradient_boosting_model.pkl ./3_Results/
 # ============================================

api.py CHANGED Viewed

@@ -59,7 +59,7 @@ try:
 except PermissionError:
     pass  # Ignorer si on ne peut pas écrire le fichier de log
-# Handler flux (stdout) pour permettre l'affichage dans la console
 stream_handler = logging.StreamHandler()
 stream_handler.setFormatter(json_formatter)
 logger.addHandler(stream_handler)
@@ -68,8 +68,8 @@ logger.addHandler(stream_handler)
 #2-------------------------Initialisation de l'API et définition des variables globales--------------------
 # Initialisation de l'application FastAPI
 app = FastAPI(
-    title="API de Prédiction ML",
-    description="API pour effectuer des prédictions avec un modèle de Machine Learning",
     version="1.0.0"
 )
@@ -79,8 +79,11 @@ BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 # Chemin vers le fichier du modèle pickle (modèle entraîné)
 MODEL_PATH = os.path.join(BASE_DIR, "3_Results/best_gradient_boosting_model.pkl")
-# Chemin vers le fichier CSV pour récupérer l'ordre des colonnes
-CSV_PATH = os.path.join(BASE_DIR, "2_Data_transformed/app_train_Enc_wo_Outliers_Feat_Eng_Join_Align_head.csv")
 # Chemin vers le fichier CSV pour enregistrer les données (détection de data drift)
 # Sur HF Spaces, utiliser /tmp pour les fichiers temporaires (écriture autorisée)
@@ -152,11 +155,11 @@ def load_column_order() -> List[str]:
     """
     try:
         # Charger uniquement les en-têtes du CSV (nrows=0) pour récupérer les colonnes
-        df = pd.read_csv(CSV_PATH, nrows=0, sep=';')  # Charger uniquement les en-têtes
-        logger.info(f"Nombre et ordre des colonnes chargé depuis {CSV_PATH}")
     except FileNotFoundError:
         # Fichier absent -> on ne peut pas connaitre l'ordre des colonnes
-        logger.error(f"Fichier CSV non trouvé: {CSV_PATH}")
         return []
     try:
         # Supprimer des colonnes id or target si elles existent avant de retourner l'ordre
@@ -168,12 +171,33 @@ def load_column_order() -> List[str]:
     # Retourner la liste des noms de colonnes
     return df.columns.tolist()
 # Chargement du modèle au démarrage de l'application
 model = load_model()
 # Chargement de l'ordre des colonnes au démarrage
 column_order = load_column_order()
 logger.info("API initialisée et prête")
 #4-------------------------Définition des modèles de données Pydantic pour les entrées et sorties de l'API, et implémentation des endpoints--------------------
@@ -228,6 +252,19 @@ def predict(input_data: PredictionInput):
         logger.error("Ordre des colonnes non disponible")
         raise HTTPException(status_code=500, detail="Ordre des colonnes non chargé")
     try:
         # R��ordonner les features selon l'ordre des colonnes du CSV
         # Si une feature manque, on met np.nan pour conserver la structure

 except PermissionError:
     pass  # Ignorer si on ne peut pas écrire le fichier de log
+# Handler flux (stdout) pour permettre l'affichage dans la console/terminal et rattachement au logger
 stream_handler = logging.StreamHandler()
 stream_handler.setFormatter(json_formatter)
 logger.addHandler(stream_handler)
 #2-------------------------Initialisation de l'API et définition des variables globales--------------------
 # Initialisation de l'application FastAPI
 app = FastAPI(
+    title="API de Classification binaire du Risque de Crédit",
+    description="API pour classifier les demandes de crédit en fonction du risque de défaut, avec un seuil métier optimisé pour le métier",
     version="1.0.0"
 )
 # Chemin vers le fichier du modèle pickle (modèle entraîné)
 MODEL_PATH = os.path.join(BASE_DIR, "3_Results/best_gradient_boosting_model.pkl")
+# Chemin vers le fichier CSV pour récupérer l'ordre de toutes les colonnes nécessaires au modèle
+COLS_PATH = os.path.join(BASE_DIR, "2_Data_transformed/app_train_Enc_wo_Outliers_Feat_Eng_Join_Align_head.csv")
+#Chemin vers le fichier CSV pour récupérer les variables obligatoires pour faire une prédiction assez fiable
+FEAT_PATH = os.path.join(BASE_DIR, "2_Data_transformed/shap_feature_importance.csv")
 # Chemin vers le fichier CSV pour enregistrer les données (détection de data drift)
 # Sur HF Spaces, utiliser /tmp pour les fichiers temporaires (écriture autorisée)
     """
     try:
         # Charger uniquement les en-têtes du CSV (nrows=0) pour récupérer les colonnes
+        df = pd.read_csv(COLS_PATH, nrows=0, sep=';')  # Charger uniquement les en-têtes
+        logger.info(f"Nombre et ordre des colonnes chargé depuis {COLS_PATH}")
     except FileNotFoundError:
         # Fichier absent -> on ne peut pas connaitre l'ordre des colonnes
+        logger.error(f"Fichier CSV non trouvé: {COLS_PATH}")
         return []
     try:
         # Supprimer des colonnes id or target si elles existent avant de retourner l'ordre
     # Retourner la liste des noms de colonnes
     return df.columns.tolist()
+def load_important_features() -> List[str]:
+    """
+    Charge le fichier CSV des importances de features et retourne la liste des features importantes.
+    Returns:
+        Liste des noms de features importantes.
+    """
+    try:
+        df = pd.read_csv(FEAT_PATH, sep=';')
+        logger.info(f"Fichier d'importance des features chargé depuis {FEAT_PATH}")
+        important_features = df['Feature'].tolist()
+        logger.info(f"Nombre de features importantes chargées: {len(important_features)}")
+        return important_features
+    except FileNotFoundError:
+        logger.error(f"Fichier d'importance des features non trouvé: {FEAT_PATH}")
+        return []
 # Chargement du modèle au démarrage de l'application
 model = load_model()
 # Chargement de l'ordre des colonnes au démarrage
 column_order = load_column_order()
+# Chargement de la liste des features importantes
+important_features = load_important_features()
 logger.info("API initialisée et prête")
 #4-------------------------Définition des modèles de données Pydantic pour les entrées et sorties de l'API, et implémentation des endpoints--------------------
         logger.error("Ordre des colonnes non disponible")
         raise HTTPException(status_code=500, detail="Ordre des colonnes non chargé")
+    if not important_features:
+        logger.error("Liste des features importantes non disponible")
+        raise HTTPException(status_code=500, detail="Liste des features importantes non chargée")
+    #Vérifier que les features importantes sont présentes dans les données d'entrée sinon lever une exception
+    missing_important_features = [feat for feat in important_features if feat not in input_data.features]
+    if missing_important_features:
+        logger.error("Features importantes manquantes: " + ", ".join(missing_important_features))
+        raise HTTPException(
+            status_code=400,
+            detail=f"Features importantes manquantes: {missing_important_features}"
+        )
     try:
         # R��ordonner les features selon l'ordre des colonnes du CSV
         # Si une feature manque, on met np.nan pour conserver la structure