Spaces:

pavanmutha
/

AIAgentDataAnalysis

Paused

App Files Files Community

pavanmutha commited on Apr 17, 2025

Commit

3c9a5e2

verified ·

1 Parent(s): b6ce8f6

Update app.py

Browse files

Files changed (1) hide show

app.py +80 -18

app.py CHANGED Viewed

@@ -31,6 +31,7 @@ login(token=hf_token)
 model = HfApiModel("mistralai/Mixtral-8x7B-Instruct-v0.1", token=hf_token)
 df_global = None
 def clean_data(df):
     df = df.dropna(how='all', axis=1).dropna(how='all', axis=0)
@@ -43,12 +44,20 @@ def clean_data(df):
 def upload_file(file):
     global df_global
     if file is None:
-        return pd.DataFrame({"Error": ["No file uploaded."]})
     ext = os.path.splitext(file.name)[-1]
     df = pd.read_csv(file.name) if ext == ".csv" else pd.read_excel(file.name)
     df = clean_data(df)
     df_global = df
-    return df.head()
 def format_analysis_report(raw_output, visuals):
     try:
@@ -155,10 +164,14 @@ def analyze_data(csv_file, additional_notes=""):
     return format_analysis_report(analysis_result, visuals)
 def compare_models():
     if df_global is None:
-        return "Please upload and preprocess a dataset first."
-    target = df_global.columns[-1]
     X = df_global.drop(target, axis=1)
     y = df_global[target]
@@ -168,32 +181,57 @@ def compare_models():
     models = {
         "RandomForest": RandomForestClassifier(),
         "LogisticRegression": LogisticRegression(max_iter=1000),
-        "SVC": SVC()
     }
     results = []
     for name, model in models.items():
         scores = cross_val_score(model, X, y, cv=5)
-        results.append({
             "Model": name,
             "CV Mean Accuracy": np.mean(scores),
-            "CV Std Dev": np.std(scores)
-        })
-        wandb.log({f"{name}_cv_mean": np.mean(scores), f"{name}_cv_std": np.std(scores)})
     results_df = pd.DataFrame(results)
-    return results_df
 # 1. prepare_data should come first
-def prepare_data(df, target_column=None):
     from sklearn.model_selection import train_test_split
     # If no target column is specified, select the first object column or the last column
     if target_column is None:
-        target_column = df.select_dtypes(include=['object']).columns[0] if len(df.select_dtypes(include=['object']).columns) > 0 else df.columns[-1]
-    X = df.drop(columns=[target_column])
-    y = df[target_column]
     return train_test_split(X, y, test_size=0.3, random_state=42)
@@ -214,8 +252,10 @@ def train_model(_):
                 "n_estimators": trial.suggest_int("n_estimators", 50, 200),
                 "max_depth": trial.suggest_int("max_depth", 3, 10),
             }
-            model = RandomForestClassifier()
             score = cross_val_score(model, X_train, y_train, cv=3).mean()
             wandb.log({**params, "cv_score": score})
             return score
@@ -257,7 +297,8 @@ def explainability(_):
     import warnings
     warnings.filterwarnings("ignore")
-    target = df_global.columns[-1]
     X = df_global.drop(target, axis=1)
     y = df_global[target]
@@ -328,6 +369,16 @@ def explainability(_):
     return shap_path, lime_path
 with gr.Blocks() as demo:
     gr.Markdown("## 📊 AI-Powered Data Analysis with Hyperparameter Optimization")
@@ -335,7 +386,12 @@ with gr.Blocks() as demo:
         with gr.Column():
             file_input = gr.File(label="Upload CSV or Excel", type="filepath")
             df_output = gr.DataFrame(label="Cleaned Data Preview")
-            file_input.change(fn=upload_file, inputs=file_input, outputs=df_output)
         with gr.Column():
             insights_output = gr.HTML(label="Insights from SmolAgent")
@@ -352,8 +408,14 @@ with gr.Blocks() as demo:
         shap_img = gr.Image(label="SHAP Summary Plot")
         lime_img = gr.Image(label="LIME Explanation")
     agent_btn.click(fn=analyze_data, inputs=[file_input], outputs=[insights_output, visual_output])
     train_btn.click(fn=train_model, inputs=[file_input], outputs=[metrics_output, trials_output])
     explain_btn.click(fn=explainability, inputs=[], outputs=[shap_img, lime_img])
 demo.launch(debug=True)

 model = HfApiModel("mistralai/Mixtral-8x7B-Instruct-v0.1", token=hf_token)
 df_global = None
+target_column_global = None
 def clean_data(df):
     df = df.dropna(how='all', axis=1).dropna(how='all', axis=0)
 def upload_file(file):
     global df_global
     if file is None:
+        return pd.DataFrame({"Error": ["No file uploaded."]}), gr.update(choices=[])
     ext = os.path.splitext(file.name)[-1]
     df = pd.read_csv(file.name) if ext == ".csv" else pd.read_excel(file.name)
     df = clean_data(df)
     df_global = df
+    return df.head(), gr.update(choices=df.columns.tolist())
+def set_target_column(col_name):
+    global target_column_global
+    target_column_global = col_name
+    return f"✅ Target column set to: {col_name}"
 def format_analysis_report(raw_output, visuals):
     try:
     return format_analysis_report(analysis_result, visuals)
 def compare_models():
+    import seaborn as sns
+    from sklearn.model_selection import cross_val_predict
     if df_global is None:
+        return pd.DataFrame({"Error": ["Please upload and preprocess a dataset first."]}), None
+    global target_column_global
+    target = target_column_global
     X = df_global.drop(target, axis=1)
     y = df_global[target]
     models = {
         "RandomForest": RandomForestClassifier(),
         "LogisticRegression": LogisticRegression(max_iter=1000),
+        "GradientBoosting": GradientBoostingClassifier()
     }
     results = []
     for name, model in models.items():
+        # Cross-validation scores
         scores = cross_val_score(model, X, y, cv=5)
+        # Cross-validated predictions for metrics
+        y_pred = cross_val_predict(model, X, y, cv=5)
+        metrics = {
             "Model": name,
             "CV Mean Accuracy": np.mean(scores),
+            "CV Std Dev": np.std(scores),
+            "F1 Score": f1_score(y, y_pred, average="weighted", zero_division=0),
+            "Precision": precision_score(y, y_pred, average="weighted", zero_division=0),
+            "Recall": recall_score(y, y_pred, average="weighted", zero_division=0),
+        }
+        if wandb.run is None:
+            wandb.init(project="model_comparison", name="compare_models", reinit=True)
+        wandb.log({f"{name}_{k.replace(' ', '_').lower()}": v for k, v in metrics.items() if isinstance(v, (float, int))})
+        results.append(metrics)
     results_df = pd.DataFrame(results)
+    # Plotting
+    plt.figure(figsize=(8, 5))
+    sns.barplot(data=results_df, x="Model", y="CV Mean Accuracy", palette="Blues_d")
+    plt.title("Model Comparison (CV Mean Accuracy)")
+    plt.ylim(0, 1)
+    plt.tight_layout()
+    plot_path = "./model_comparison.png"
+    plt.savefig(plot_path)
+    plt.close()
+    return results_df, plot_path
 # 1. prepare_data should come first
+def prepare_data(df):
+    global target_column_global
     from sklearn.model_selection import train_test_split
     # If no target column is specified, select the first object column or the last column
     if target_column is None:
+        raise ValueError("Target column not set.")
+    X = df.drop(columns=[target_column_global])
+    y = df[target_column_global]
     return train_test_split(X, y, test_size=0.3, random_state=42)
                 "n_estimators": trial.suggest_int("n_estimators", 50, 200),
                 "max_depth": trial.suggest_int("max_depth", 3, 10),
             }
+            model = RandomForestClassifier(**params)
             score = cross_val_score(model, X_train, y_train, cv=3).mean()
+        if wandb.run is None:
+            wandb.init(project="model_optimization", name=f"optuna_trial_{trial.number}", reinit=True)
             wandb.log({**params, "cv_score": score})
             return score
     import warnings
     warnings.filterwarnings("ignore")
+    global target_column_global
+    target = target_column_global
     X = df_global.drop(target, axis=1)
     y = df_global[target]
     return shap_path, lime_path
+# Define this BEFORE the Gradio app layout
+def update_target_choices():
+    global df_global
+    if df_global is not None:
+        return gr.update(choices=df_global.columns.tolist())
+    else:
+        return gr.update(choices=[])
 with gr.Blocks() as demo:
     gr.Markdown("## 📊 AI-Powered Data Analysis with Hyperparameter Optimization")
         with gr.Column():
             file_input = gr.File(label="Upload CSV or Excel", type="filepath")
             df_output = gr.DataFrame(label="Cleaned Data Preview")
+            target_dropdown = gr.Dropdown(label="Select Target Column", choices=[], interactive=True)
+            target_status = gr.Textbox(label="Target Column Status", interactive=False)
+            file_input.change(fn=upload_file, inputs=file_input, outputs=[df_output, target_dropdown])
+            #file_input.change(fn=update_target_choices, inputs=[], outputs=target_dropdown)
+            target_dropdown.change(fn=set_target_column, inputs=target_dropdown, outputs=target_status)
         with gr.Column():
             insights_output = gr.HTML(label="Insights from SmolAgent")
         shap_img = gr.Image(label="SHAP Summary Plot")
         lime_img = gr.Image(label="LIME Explanation")
+    with gr.Row():
+        compare_btn = gr.Button("Compare Models (A/B Testing)")
+        compare_output = gr.DataFrame(label="Model Comparison (CV + Metrics)")
+        compare_img = gr.Image(label="Model Accuracy Plot")
     agent_btn.click(fn=analyze_data, inputs=[file_input], outputs=[insights_output, visual_output])
     train_btn.click(fn=train_model, inputs=[file_input], outputs=[metrics_output, trials_output])
     explain_btn.click(fn=explainability, inputs=[], outputs=[shap_img, lime_img])
+    compare_btn.click(fn=compare_models, inputs=[], outputs=[compare_output, compare_img])
 demo.launch(debug=True)