Spaces:

MGonzalez117
/

ai-engineer-p8

Sleeping

App Files Files Community

CI Bot commited on Nov 24, 2025

Commit

5effd82

1 Parent(s): 3a7a131

CI deploy Mon Nov 24 10:58:16 UTC 2025

Browse files

Files changed (6) hide show

coverage.xml +1 -1
src/data/models/__init__.py +5 -1
src/data/models/drift_feature_metric.py +30 -0
src/data/models/drift_run.py +27 -0
src/drift/monitoring.py +62 -2
src/scripts/api_simulation.py +1 -1

coverage.xml CHANGED Viewed

@@ -1,5 +1,5 @@
 <?xml version="1.0" ?>
-<coverage version="7.12.0" timestamp="1763724997948" lines-valid="290" lines-covered="242" line-rate="0.8345" branches-valid="16" branches-covered="7" branch-rate="0.4375" complexity="0">
 	<!-- Generated by coverage.py: https://coverage.readthedocs.io/en/7.12.0 -->
 	<!-- Based on https://raw.githubusercontent.com/cobertura/web/master/htdocs/xml/coverage-04.dtd -->
 	<sources>

 <?xml version="1.0" ?>
+<coverage version="7.12.0" timestamp="1763981841477" lines-valid="290" lines-covered="242" line-rate="0.8345" branches-valid="16" branches-covered="7" branch-rate="0.4375" complexity="0">
 	<!-- Generated by coverage.py: https://coverage.readthedocs.io/en/7.12.0 -->
 	<!-- Based on https://raw.githubusercontent.com/cobertura/web/master/htdocs/xml/coverage-04.dtd -->
 	<sources>

src/data/models/__init__.py CHANGED Viewed

@@ -1,7 +1,11 @@
 from .base import Base
 from .predict_logs import PredictLogs
 __all__ = [
     "Base",
-    "PredictLogs"
 ]

 from .base import Base
 from .predict_logs import PredictLogs
+from .drift_run import DriftRun
+from .drift_feature_metric import DriftFeatureMetric
 __all__ = [
     "Base",
+    "PredictLogs",
+    "DriftRun",
+    "DriftFeatureMetric"
 ]

src/data/models/drift_feature_metric.py ADDED Viewed

	@@ -0,0 +1,30 @@

+# models/drift_feature_metric.py
+from sqlalchemy import Column, Integer, String, Float, Boolean, ForeignKey
+from sqlalchemy.orm import relationship
+from src.data.models.base import Base
+class DriftFeatureMetric(Base):
+    """
+    Détaille les métriques de drift pour chaque feature au sein d'un run spécifique.
+    """
+    __tablename__ = "drift_feature_metric"
+    id = Column(Integer, primary_key=True, autoincrement=True)
+    # Clé étrangère vers drift_run
+    run_id = Column(Integer, ForeignKey("drift_run.id"), nullable=False, index=True)
+    feature_name = Column(String(100), nullable=False, index=True)
+    drift_detected = Column(Boolean, nullable=False)
+    drift_score = Column(Float, nullable=True)
+    stattest_name = Column(String(50), nullable=True) # type de test statistique
+    # Relation pour accéder au run parent depuis la métrique de feature
+    drift_run = relationship("DriftRun", backref="feature_metrics")
+    def __repr__(self):
+        return (
+            f"<DriftFeatureMetric(id={self.id}, run_id={self.run_id}, "
+            f"feature={self.feature_name}, drift={self.drift_detected})>"
+        )

src/data/models/drift_run.py ADDED Viewed

	@@ -0,0 +1,27 @@

+# models/drift_run.py
+from datetime import datetime
+from sqlalchemy import Column, Integer, String, Boolean, DateTime, Float
+from src.data.models.base import Base
+class DriftRun(Base):
+    """
+    Représente un run de monitoring de drift global (dataset-level).
+    """
+    __tablename__ = "drift_run"
+    id = Column(Integer, primary_key=True, autoincrement=True)
+    # Timestamp du calcul
+    date = Column(DateTime, nullable=False, default=datetime.utcnow, index=True)
+    # Indique si un drift global a été détecté pour le dataset
+    dataset_drift = Column(Boolean, nullable=False)
+    # Score de drift global (share de colonnes ayant drifté)
+    drift_score = Column(Float, nullable=True)
+    def __repr__(self):
+        return (
+            f"<DriftRun(id={self.id}, date={self.date}, "
+            f"dataset_drift={self.dataset_drift}, drift_score={self.drift_score})>"
+        )

src/drift/monitoring.py CHANGED Viewed

@@ -6,6 +6,10 @@ from sqlalchemy import text
 from evidently import Report
 from evidently.presets import DataDriftPreset
 # Ajuste ce chemin à ton projet si besoin
 ROOT_DIR = Path(__file__).resolve().parents[2]
 sys.path.insert(0, str(ROOT_DIR))
@@ -15,7 +19,7 @@ from src.data.database import get_db
 # Config
 DATA_DIR = ROOT_DIR / ".data"
 TRAIN_PATH = DATA_DIR / "application_train.csv"
-WINDOW_DAYS = 100
 REPORT_OUTPUT = DATA_DIR / "drift" / "report.html"
 def extract_prod_data() -> pd.DataFrame:
@@ -45,6 +49,51 @@ def load_reference_data() -> pd.DataFrame:
     return pd.read_csv(TRAIN_PATH)
 def generate_drift_report(reference_data: pd.DataFrame, current_data: pd.DataFrame) -> None:
     """Génère un rapport HTML de drift avec Evidently."""
@@ -60,6 +109,14 @@ def generate_drift_report(reference_data: pd.DataFrame, current_data: pd.DataFra
     print(f"Colonnes communes détectées: {len(common_cols)}")
     reference_subset = reference_data[common_cols]
     current_subset = current_data[common_cols]
@@ -80,6 +137,9 @@ def generate_drift_report(reference_data: pd.DataFrame, current_data: pd.DataFra
     # Cette version‑là de Report a bien save_html
     eval.save_html(str(REPORT_OUTPUT))
     print(f"Rapport de drift généré: {REPORT_OUTPUT}")
@@ -101,7 +161,7 @@ def main():
         print("Aucune donnée de production trouvée!")
         return
-    print(f"Données de production: {current_data.shape}")
     # 3. Générer le rapport de drift
     generate_drift_report(reference_data, current_data)

 from evidently import Report
 from evidently.presets import DataDriftPreset
+from src.data.models import DriftRun, DriftFeatureMetric
+from src.data.database import get_db
+from datetime import datetime
 # Ajuste ce chemin à ton projet si besoin
 ROOT_DIR = Path(__file__).resolve().parents[2]
 sys.path.insert(0, str(ROOT_DIR))
 # Config
 DATA_DIR = ROOT_DIR / ".data"
 TRAIN_PATH = DATA_DIR / "application_train.csv"
+WINDOW_DAYS = 365
 REPORT_OUTPUT = DATA_DIR / "drift" / "report.html"
 def extract_prod_data() -> pd.DataFrame:
     return pd.read_csv(TRAIN_PATH)
+def save_drift_to_db(result_dict: dict):
+    from src.data.database import get_db
+    from datetime import datetime
+    db = next(get_db())
+    try:
+        metrics = result_dict.get("metrics", [])
+        # Créer le run
+        drift_run = DriftRun(
+            date=datetime.utcnow(),
+            dataset_drift=any(float(m["value"]) > m["config"].get("threshold", 0.1)
+                              for m in metrics
+                              if m["config"].get("type") == "evidently:metric_v2:ValueDrift"),
+            drift_score=next((float(m["value"]["share"]) for m in metrics
+                              if m["config"].get("type") == "evidently:metric_v2:DriftedColumnsCount"), None)
+        )
+        db.add(drift_run)
+        db.flush()
+        # Ajouter les features
+        for m in metrics:
+            if m["config"].get("type") != "evidently:metric_v2:ValueDrift":
+                continue
+            val = float(m["value"])
+            threshold = m["config"].get("threshold", 0.1)
+            db.add(DriftFeatureMetric(
+                run_id=drift_run.id,
+                feature_name=m["config"]["column"],
+                drift_detected=val > threshold,
+                drift_score=val,
+                stattest_name=m["config"].get("method"),
+            ))
+        db.commit()
+    except Exception as e:
+        db.rollback()
+        raise
+    finally:
+        db.close()
 def generate_drift_report(reference_data: pd.DataFrame, current_data: pd.DataFrame) -> None:
     """Génère un rapport HTML de drift avec Evidently."""
     print(f"Colonnes communes détectées: {len(common_cols)}")
+    # Colonnes à exclure de l'analyse de drift
+    EXCLUDE_COLS = ['SK_ID_CURR']
+    # Exclure les colonnes
+    common_cols = [col for col in common_cols if col not in EXCLUDE_COLS]
+    print(
+        f"Colonnes exclues: {[col for col in EXCLUDE_COLS if col in set(reference_data.columns) & set(current_data.columns)]}")
     reference_subset = reference_data[common_cols]
     current_subset = current_data[common_cols]
     # Cette version‑là de Report a bien save_html
     eval.save_html(str(REPORT_OUTPUT))
+    result_dict = eval.dict()
+    save_drift_to_db(result_dict)
     print(f"Rapport de drift généré: {REPORT_OUTPUT}")
         print("Aucune donnée de production trouvée!")
         return
+    print(f"Données de production: {current_data.shape} (lignes: {len(current_data)})")
     # 3. Générer le rapport de drift
     generate_drift_report(reference_data, current_data)

src/scripts/api_simulation.py CHANGED Viewed

@@ -157,5 +157,5 @@ if __name__ == "__main__":
     # Génère 100 prédictions à partir de l'index 0
     results = generate_production_data(
         start_index=0,
-        num_records=500
     )

     # Génère 100 prédictions à partir de l'index 0
     results = generate_production_data(
         start_index=0,
+        num_records=4275
     )