Spaces:

chagu13
/

is_click

Build error

App Files Files Community

chkp-talexm commited on Feb 17, 2025

Commit

c25d9fa

1 Parent(s): e3af011

update

Browse files

Files changed (1) hide show

app.py +43 -18

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
-import os
-import joblib
-import shutil
-from huggingface_hub import hf_hub_download
 import streamlit as st
 import pandas as pd
 # Hugging Face Model Repo
 MODEL_REPO = "chagu13/is_click_predictor"
@@ -20,16 +20,42 @@ CATBOOST_MODEL_PATH = os.path.join(MODEL_DIR, "catboost_model.pkl")
 XGB_MODEL_PATH = os.path.join(MODEL_DIR, "xgb_model.pkl")
 RF_MODEL_PATH = os.path.join(MODEL_DIR, "rf_model.pkl")
-def download_model(filename, local_path):
-    """Download model from Hugging Face and move it to the correct location."""
-    temp_path = hf_hub_download(repo_id=MODEL_REPO, filename=filename, local_dir=MODEL_DIR)
-    # Ensure correct file placement
-    if temp_path != local_path:
-        shutil.move(temp_path, local_path)
-    return local_path
 def load_models():
@@ -37,20 +63,18 @@ def load_models():
     try:
         print("🔄 Checking and downloading models...")
-        # Ensure models are downloaded and placed correctly
         if not os.path.exists(CATBOOST_MODEL_PATH):
             print("🚀 Downloading CatBoost model...")
-            download_model(CATBOOST_MODEL_FILENAME, CATBOOST_MODEL_PATH)
         if not os.path.exists(XGB_MODEL_PATH):
             print("🚀 Downloading XGBoost model...")
-            download_model(XGB_MODEL_FILENAME, XGB_MODEL_PATH)
         if not os.path.exists(RF_MODEL_PATH):
             print("🚀 Downloading RandomForest model...")
-            download_model(RF_MODEL_FILENAME, RF_MODEL_PATH)
-        # ✅ Load models
         print("📦 Loading models...")
         catboost_model = joblib.load(CATBOOST_MODEL_PATH)
         xgb_model = joblib.load(XGB_MODEL_PATH)
@@ -64,7 +88,7 @@ def load_models():
         return None, None, None
-# Load models at startup
 st.title("Is_Click Predictor - ML Model Inference")
 st.info("Upload a CSV file, and the trained models will predict click probability.")
@@ -74,7 +98,8 @@ catboost, xgb, rf = load_models()
 uploaded_file = st.file_uploader("Upload a CSV file", type=["csv"])
 if uploaded_file:
     input_df = pd.read_csv(uploaded_file)
-    st.success("File uploaded successfully!")
     # Make Predictions
     st.subheader("Predictions in Progress...")

 import streamlit as st
 import pandas as pd
+import numpy as np
+import joblib
+from huggingface_hub import hf_hub_download
+from sklearn.preprocessing import LabelEncoder, StandardScaler
 # Hugging Face Model Repo
 MODEL_REPO = "chagu13/is_click_predictor"
 XGB_MODEL_PATH = os.path.join(MODEL_DIR, "xgb_model.pkl")
 RF_MODEL_PATH = os.path.join(MODEL_DIR, "rf_model.pkl")
+# Define feature lists
+CATEGORICAL_COLUMNS = ["gender", "product", "campaign_id", "webpage_id"]
+NUMERICAL_COLUMNS = [
+    "age_level", "city_development_index", "user_group_id", "user_depth", "var_1",
+    "click_sum_age_sex_prod", "click_count_age_sex_prod",
+    "unique_campaigns_age_sex_prod", "unique_webpages_age_sex_prod",
+    "click_sum_city_age_prod", "click_count_city_age_prod",
+    "unique_campaigns_city_age_prod", "unique_webpages_city_age_prod"
+]
+FEATURE_COLUMNS = CATEGORICAL_COLUMNS + NUMERICAL_COLUMNS
+def preprocess_input(input_df):
+    """Preprocess input data for prediction."""
+    input_df = input_df.copy()
+    # Fill missing values
+    input_df.fillna(-1, inplace=True)
+    # Convert categorical features to string
+    for col in CATEGORICAL_COLUMNS:
+        if col in input_df.columns:
+            input_df[col] = input_df[col].astype(str).replace("nan", "missing")
+    # Label encode categorical variables (same as training)
+    label_encoders = {}
+    for col in CATEGORICAL_COLUMNS:
+        le = LabelEncoder()
+        input_df[col] = le.fit_transform(input_df[col].astype(str))
+    # Normalize numerical features
+    scaler = StandardScaler()
+    input_df[NUMERICAL_COLUMNS] = scaler.fit_transform(input_df[NUMERICAL_COLUMNS])
+    return input_df[FEATURE_COLUMNS]  # Return only necessary columns
 def load_models():
     try:
         print("🔄 Checking and downloading models...")
         if not os.path.exists(CATBOOST_MODEL_PATH):
             print("🚀 Downloading CatBoost model...")
+            hf_hub_download(repo_id=MODEL_REPO, filename=CATBOOST_MODEL_FILENAME, local_dir=MODEL_DIR)
         if not os.path.exists(XGB_MODEL_PATH):
             print("🚀 Downloading XGBoost model...")
+            hf_hub_download(repo_id=MODEL_REPO, filename=XGB_MODEL_FILENAME, local_dir=MODEL_DIR)
         if not os.path.exists(RF_MODEL_PATH):
             print("🚀 Downloading RandomForest model...")
+            hf_hub_download(repo_id=MODEL_REPO, filename=RF_MODEL_FILENAME, local_dir=MODEL_DIR)
         print("📦 Loading models...")
         catboost_model = joblib.load(CATBOOST_MODEL_PATH)
         xgb_model = joblib.load(XGB_MODEL_PATH)
         return None, None, None
+# Streamlit UI
 st.title("Is_Click Predictor - ML Model Inference")
 st.info("Upload a CSV file, and the trained models will predict click probability.")
 uploaded_file = st.file_uploader("Upload a CSV file", type=["csv"])
 if uploaded_file:
     input_df = pd.read_csv(uploaded_file)
+    input_df = preprocess_input(input_df)  # ✅ Apply preprocessing
+    st.success("File uploaded and preprocessed successfully!")
     # Make Predictions
     st.subheader("Predictions in Progress...")