AIDataAgentProjectFinal

Paused

App Files Files Community

pavanmutha commited on Apr 18, 2025

Commit

42583bc

verified ·

1 Parent(s): e0eece7

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -8

app.py CHANGED Viewed

@@ -344,13 +344,16 @@ def format_insights(insights, visuals):
     ])
 def compare_models():
     import seaborn as sns
-    from sklearn.model_selection import cross_val_predict
     if df_global is None:
         return pd.DataFrame({"Error": ["Please upload and preprocess a dataset first."]}), None
@@ -360,22 +363,37 @@ def compare_models():
     X = df_global.drop(target, axis=1)
     y = df_global[target]
     if y.dtype == 'object':
         y = LabelEncoder().fit_transform(y)
     models = {
         "RandomForest": RandomForestClassifier(),
         "LogisticRegression": LogisticRegression(max_iter=1000),
-        "GradientBoosting": GradientBoostingClassifier()
     }
     results = []
     for name, model in models.items():
         # Cross-validation scores
-        scores = cross_val_score(model, X, y, cv=5)
         # Cross-validated predictions for metrics
-        y_pred = cross_val_predict(model, X, y, cv=5)
         metrics = {
             "Model": name,
@@ -385,6 +403,7 @@ def compare_models():
             "Precision": precision_score(y, y_pred, average="weighted", zero_division=0),
             "Recall": recall_score(y, y_pred, average="weighted", zero_division=0),
         }
         if wandb.run is None:
             wandb.init(project="model_comparison", name="compare_models", reinit=True)
         wandb.log({f"{name}_{k.replace(' ', '_').lower()}": v for k, v in metrics.items() if isinstance(v, (float, int))})
@@ -405,6 +424,10 @@ def compare_models():
     return results_df, plot_path
 # 1. prepare_data should come first
 def prepare_data(df):

     ])
+from sklearn.model_selection import StratifiedKFold, GridSearchCV
+from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, VotingClassifier
+from sklearn.linear_model import LogisticRegression
+from sklearn.preprocessing import StandardScaler
+from sklearn.metrics import f1_score, precision_score, recall_score
+import optuna
 def compare_models():
     import seaborn as sns
+    from sklearn.model_selection import cross_val_predict, cross_val_score
     if df_global is None:
         return pd.DataFrame({"Error": ["Please upload and preprocess a dataset first."]}), None
     X = df_global.drop(target, axis=1)
     y = df_global[target]
+    # If the target is categorical, encode it
     if y.dtype == 'object':
         y = LabelEncoder().fit_transform(y)
+    # Scale features for models like Logistic Regression
+    scaler = StandardScaler()
+    X_scaled = scaler.fit_transform(X)
+    # Define models
     models = {
         "RandomForest": RandomForestClassifier(),
         "LogisticRegression": LogisticRegression(max_iter=1000),
+        "GradientBoosting": GradientBoostingClassifier(),
+        # Consider adding more models like XGBoost
     }
+    # Optionally, define an ensemble method
+    ensemble_model = VotingClassifier(estimators=[('rf', RandomForestClassifier()),
+                                                  ('lr', LogisticRegression(max_iter=1000)),
+                                                  ('gb', GradientBoostingClassifier())], voting='hard')
+    # Adding the ensemble model to the list
+    models["Voting Classifier"] = ensemble_model
     results = []
     for name, model in models.items():
         # Cross-validation scores
+        scores = cross_val_score(model, X_scaled, y, cv=5)
         # Cross-validated predictions for metrics
+        y_pred = cross_val_predict(model, X_scaled, y, cv=5)
         metrics = {
             "Model": name,
             "Precision": precision_score(y, y_pred, average="weighted", zero_division=0),
             "Recall": recall_score(y, y_pred, average="weighted", zero_division=0),
         }
+        # Log results to WandB
         if wandb.run is None:
             wandb.init(project="model_comparison", name="compare_models", reinit=True)
         wandb.log({f"{name}_{k.replace(' ', '_').lower()}": v for k, v in metrics.items() if isinstance(v, (float, int))})
     return results_df, plot_path
 # 1. prepare_data should come first
 def prepare_data(df):