Spaces:

appledog00
/

ppd-risk-api

Running

App Files Files Community

appledog00 commited on Jan 18

Commit

9cd2352

verified ·

1 Parent(s): 9d6af53

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -31

app.py CHANGED Viewed

@@ -35,13 +35,13 @@ BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 ARTIFACTS_DIR = os.path.join(BASE_DIR, "artifacts_final")
 MODEL_FILE = "catboost_model_top20.cbm"
-META_FILE = "catboost_metadata.json"
 UI_FILE = "model_ui_schema.json"
-THRESHOLD = 0.3  # calibrated decision threshold
 # =========================================================
-# 3. LOAD ARTIFACTS (FAIL FAST)
 # =========================================================
 print("⏳ Loading AI Models and Config...")
@@ -54,20 +54,19 @@ print("📄 Files found:", os.listdir(ARTIFACTS_DIR))
 # ---- Load Model ----
 model_path = os.path.join(ARTIFACTS_DIR, MODEL_FILE)
-if not os.path.exists(model_path):
-    raise FileNotFoundError(f"Model not found at {model_path}")
 model = CatBoostClassifier()
 model.load_model(model_path)
 print("✅ CatBoost model loaded")
-# ---- Load Metadata ----
-meta_path = os.path.join(ARTIFACTS_DIR, META_FILE)
-with open(meta_path, "r") as f:
-    metadata = json.load(f)
-TOP_FEATURES = metadata["top_features"]
-print(f"✅ Metadata loaded ({len(TOP_FEATURES)} features)")
 # ---- Load UI Schema ----
 ui_path = os.path.join(ARTIFACTS_DIR, UI_FILE)
@@ -118,28 +117,19 @@ class PatientData(BaseModel):
 # =========================================================
 def preprocess_input(raw_data: Dict[str, Any]) -> pd.DataFrame:
-    """
-    - Lowercases categorical strings
-    - Ensures all Top-20 features exist
-    - Orders columns exactly as training
-    """
     clean_data = {}
-    for key, value in raw_data.items():
-        if isinstance(value, str):
-            clean_data[key] = value.lower()
-        else:
-            clean_data[key] = value
     df = pd.DataFrame([clean_data])
-    # Fill missing features safely
     for col in TOP_FEATURES:
         if col not in df.columns:
             df[col] = "unknown"
-    df = df[TOP_FEATURES]
-    return df
 # =========================================================
 # 6. API ENDPOINTS
@@ -155,10 +145,6 @@ def health():
 @app.get("/config")
 def get_ui_config():
-    """
-    Returns your provided UI JSON
-    Used by frontend to auto-render form
-    """
     return ui_schema
 @app.post("/predict")
@@ -166,7 +152,6 @@ def predict(payload: PatientData):
     try:
         input_df = preprocess_input(payload.data)
-        # Probability of positive (PPD risk)
         risk_prob = model.predict_proba(input_df)[0][1]
         is_high_risk = risk_prob >= THRESHOLD
@@ -186,7 +171,7 @@ def predict(payload: PatientData):
         raise HTTPException(status_code=500, detail=str(e))
 # =========================================================
-# 7. RUNNER (HF / DOCKER)
 # =========================================================
 if __name__ == "__main__":

 ARTIFACTS_DIR = os.path.join(BASE_DIR, "artifacts_final")
 MODEL_FILE = "catboost_model_top20.cbm"
+TOP_FEATURES_FILE = "top20_features.csv"
 UI_FILE = "model_ui_schema.json"
+THRESHOLD = 0.3
 # =========================================================
+# 3. LOAD ARTIFACTS
 # =========================================================
 print("⏳ Loading AI Models and Config...")
 # ---- Load Model ----
 model_path = os.path.join(ARTIFACTS_DIR, MODEL_FILE)
 model = CatBoostClassifier()
 model.load_model(model_path)
 print("✅ CatBoost model loaded")
+# ---- Load Top 20 Features (SOURCE OF TRUTH) ----
+features_path = os.path.join(ARTIFACTS_DIR, TOP_FEATURES_FILE)
+TOP_FEATURES = (
+    pd.read_csv(features_path, header=None)[0]
+    .astype(str)
+    .tolist()
+)
+print(f"✅ Loaded {len(TOP_FEATURES)} top features")
 # ---- Load UI Schema ----
 ui_path = os.path.join(ARTIFACTS_DIR, UI_FILE)
 # =========================================================
 def preprocess_input(raw_data: Dict[str, Any]) -> pd.DataFrame:
     clean_data = {}
+    for k, v in raw_data.items():
+        clean_data[k] = v.lower() if isinstance(v, str) else v
     df = pd.DataFrame([clean_data])
+    # Ensure all required features exist
     for col in TOP_FEATURES:
         if col not in df.columns:
             df[col] = "unknown"
+    return df[TOP_FEATURES]
 # =========================================================
 # 6. API ENDPOINTS
 @app.get("/config")
 def get_ui_config():
     return ui_schema
 @app.post("/predict")
     try:
         input_df = preprocess_input(payload.data)
         risk_prob = model.predict_proba(input_df)[0][1]
         is_high_risk = risk_prob >= THRESHOLD
         raise HTTPException(status_code=500, detail=str(e))
 # =========================================================
+# 7. RUNNER (HF)
 # =========================================================
 if __name__ == "__main__":