AIDataAgentProjectFinal

Paused

pavanmutha commited on Apr 13, 2025

Commit

c80e58f

verified ·

1 Parent(s): 7e1b7d0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -194,19 +194,17 @@ def prepare_data(df, target_column=None):
     X = df.drop(columns=[target_column])
     y = df[target_column]
-    return train_test_split(X, y, test_size=0.2, random_state=42)
 def train_model(_):
     try:
         wandb.login(key=os.environ.get("WANDB_API_KEY"))
-        run_counter = 1
         wandb_run = wandb.init(
             project="huggingface-data-analysis",
-            name=f"Optuna_Run_{run_counter}",
             reinit=True
         )
-        run_counter += 1
         X_train, X_test, y_train, y_test = prepare_data(df_global)
@@ -215,7 +213,7 @@ def train_model(_):
                 "n_estimators": trial.suggest_int("n_estimators", 50, 200),
                 "max_depth": trial.suggest_int("max_depth", 3, 10),
             }
-            model = RandomForestClassifier(**params)
             score = cross_val_score(model, X_train, y_train, cv=3).mean()
             wandb.log({**params, "cv_score": score})
             return score
@@ -224,9 +222,11 @@ def train_model(_):
         study.optimize(objective, n_trials=15)
         best_params = study.best_params
-        model = RandomForestClassifier(**best_params)
         model.fit(X_train, y_train)
         y_pred = model.predict(X_test)
         metrics = {
             "accuracy": accuracy_score(y_test, y_pred),

     X = df.drop(columns=[target_column])
     y = df[target_column]
+    return train_test_split(X, y, test_size=0.3, random_state=42)
 def train_model(_):
     try:
         wandb.login(key=os.environ.get("WANDB_API_KEY"))
         wandb_run = wandb.init(
             project="huggingface-data-analysis",
+            name=f"Optuna_Run_{datetime.now().strftime('%Y%m%d_%H%M%S')}",
             reinit=True
         )
         X_train, X_test, y_train, y_test = prepare_data(df_global)
                 "n_estimators": trial.suggest_int("n_estimators", 50, 200),
                 "max_depth": trial.suggest_int("max_depth", 3, 10),
             }
+            model = RandomForestClassifier()
             score = cross_val_score(model, X_train, y_train, cv=3).mean()
             wandb.log({**params, "cv_score": score})
             return score
         study.optimize(objective, n_trials=15)
         best_params = study.best_params
+        model = RandomForestClassifier()
         model.fit(X_train, y_train)
         y_pred = model.predict(X_test)
+        print(f"Trial {trial.number}, preds: {np.unique(y_pred, return_counts=True)}")
         metrics = {
             "accuracy": accuracy_score(y_test, y_pred),