AIDataAgentProjectFinal

Paused

App Files Files Community

pavanmutha commited on Apr 12, 2025

Commit

a27678b

verified ·

1 Parent(s): df3617f

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -39

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import os
 import gradio as gr
 import pandas as pd
@@ -7,44 +8,35 @@ import shap
 import lime.lime_tabular
 import optuna
 import wandb
-import ast
 from smolagents import HfApiModel, CodeAgent
 from huggingface_hub import login
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.model_selection import train_test_split, cross_val_score
 from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
-# Authenticate Hugging Face Hub
 hf_token = os.getenv("HF_TOKEN")
 login(token=hf_token)
-# Setup SmolAgent with LLM
 model = HfApiModel("mistralai/Mixtral-8x7B-Instruct-v0.1", token=hf_token)
 agent = CodeAgent(
     tools=[],
     model=model,
-    additional_authorized_imports=["numpy", "pandas", "matplotlib.pyplot", "seaborn", "sklearn"],
-    )
-# Data cleaning function
-from sklearn.preprocessing import LabelEncoder
 def clean_data(df):
     df = df.dropna(how='all', axis=1).dropna(how='all', axis=0)
-    # Encode categorical features
     for col in df.select_dtypes(include='object').columns:
         df[col] = df[col].astype(str)
         df[col] = LabelEncoder().fit_transform(df[col])
     df = df.fillna(df.mean(numeric_only=True))
     return df
-# Global dataframe
-df_global = None
-# Upload and clean
 def upload_file(file):
     global df_global
     ext = os.path.splitext(file.name)[-1]
@@ -53,7 +45,6 @@ def upload_file(file):
     df_global = df
     return df.head()
-# Run SmolAgent for analysis
 def run_agent(_):
     try:
         output = agent.run(
@@ -64,7 +55,6 @@ def run_agent(_):
     except Exception as e:
         return f"SmolAgent Error: {str(e)}"
-# Train model + Optuna + WandB
 def train_model(_):
     wandb.login(key=os.environ.get("WANDB_API_KEY"))
     wandb_run = wandb.init(project="huggingface-data-analysis", name="Optuna_Run", reinit=True)
@@ -72,6 +62,10 @@ def train_model(_):
     target = df_global.columns[-1]
     X = df_global.drop(target, axis=1)
     y = df_global[target]
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
     def objective(trial):
@@ -104,42 +98,55 @@ def train_model(_):
     top_trials = pd.DataFrame(study.trials_dataframe().sort_values(by="value", ascending=False).head(7))
     return metrics, top_trials
-# SHAP & LIME
 def explainability(_):
     target = df_global.columns[-1]
     X = df_global.drop(target, axis=1)
     y = df_global[target]
     model = RandomForestClassifier()
-    model.fit(X, y)
-    # SHAP
     explainer = shap.TreeExplainer(model)
-    shap_values = explainer.shap_values(X)
-    shap.summary_plot(shap_values, X, show=False)
-    shap_fig_path = "./shap_plot.png"
-    plt.savefig(shap_fig_path)
-    plt.clf()
-    # LIME
-    lime_explainer = lime.lime_tabular.LimeTabularExplainer(X.values, feature_names=X.columns, class_names=['target'], mode="classification")
-    lime_exp = lime_explainer.explain_instance(X.iloc[0].values, model.predict_proba)
     lime_fig = lime_exp.as_pyplot_figure()
     lime_fig_path = "./lime_plot.png"
     lime_fig.savefig(lime_fig_path)
     plt.clf()
-    # Log to wandb
-    wandb.init(project="huggingface-data-analysis", name="Explainability", reinit=True)
-    wandb.log({
-        "shap_summary": wandb.Image(shap_fig_path),
-        "lime_explanation": wandb.Image(lime_fig_path)
-    })
-    wandb.finish()
-    return shap_fig_path, lime_fig_path
-# Gradio UI
 with gr.Blocks() as demo:
     gr.Markdown("## 📊 AI-Powered Data Analysis with Hyperparameter Optimization")

 import os
 import gradio as gr
 import pandas as pd
 import lime.lime_tabular
 import optuna
 import wandb
 from smolagents import HfApiModel, CodeAgent
 from huggingface_hub import login
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.model_selection import train_test_split, cross_val_score
 from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
+from sklearn.preprocessing import LabelEncoder
+# Authenticate with Hugging Face
 hf_token = os.getenv("HF_TOKEN")
 login(token=hf_token)
+# SmolAgent initialization
 model = HfApiModel("mistralai/Mixtral-8x7B-Instruct-v0.1", token=hf_token)
 agent = CodeAgent(
     tools=[],
     model=model,
+    additional_authorized_imports=["numpy", "pandas", "matplotlib.pyplot", "seaborn", "sklearn"]
+)
+df_global = None
 def clean_data(df):
     df = df.dropna(how='all', axis=1).dropna(how='all', axis=0)
     for col in df.select_dtypes(include='object').columns:
         df[col] = df[col].astype(str)
         df[col] = LabelEncoder().fit_transform(df[col])
     df = df.fillna(df.mean(numeric_only=True))
     return df
 def upload_file(file):
     global df_global
     ext = os.path.splitext(file.name)[-1]
     df_global = df
     return df.head()
 def run_agent(_):
     try:
         output = agent.run(
     except Exception as e:
         return f"SmolAgent Error: {str(e)}"
 def train_model(_):
     wandb.login(key=os.environ.get("WANDB_API_KEY"))
     wandb_run = wandb.init(project="huggingface-data-analysis", name="Optuna_Run", reinit=True)
     target = df_global.columns[-1]
     X = df_global.drop(target, axis=1)
     y = df_global[target]
+    if y.dtype == "object":
+        y = LabelEncoder().fit_transform(y)
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
     def objective(trial):
     top_trials = pd.DataFrame(study.trials_dataframe().sort_values(by="value", ascending=False).head(7))
     return metrics, top_trials
 def explainability(_):
     target = df_global.columns[-1]
     X = df_global.drop(target, axis=1)
     y = df_global[target]
+    if y.dtype == "object":
+        y = LabelEncoder().fit_transform(y)
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
     model = RandomForestClassifier()
+    model.fit(X_train, y_train)
     explainer = shap.TreeExplainer(model)
+    shap_values = explainer.shap_values(X_test)
+    shap_path = None
+    if isinstance(shap_values, list):
+        for i, class_vals in enumerate(shap_values):
+            shap.summary_plot(class_vals, X_test, show=False)
+            class_path = f"./shap_class_{i}.png"
+            plt.title(f"SHAP Summary - Class {i}")
+            plt.savefig(class_path)
+            wandb.log({f"shap_class_{i}": wandb.Image(class_path)})
+            plt.clf()
+            if shap_path is None:
+                shap_path = class_path
+    else:
+        shap.summary_plot(shap_values, X_test, show=False)
+        shap_path = "./shap_plot.png"
+        plt.savefig(shap_path)
+        wandb.log({"shap_summary": wandb.Image(shap_path)})
+        plt.clf()
+    lime_explainer = lime.lime_tabular.LimeTabularExplainer(
+        X_train.values,
+        feature_names=X_train.columns.tolist(),
+        class_names=[str(label) for label in np.unique(y_train)],
+        mode='classification'
+    )
+    lime_exp = lime_explainer.explain_instance(X_test.iloc[0].values, model.predict_proba)
     lime_fig = lime_exp.as_pyplot_figure()
     lime_fig_path = "./lime_plot.png"
     lime_fig.savefig(lime_fig_path)
+    wandb.log({"lime_explanation": wandb.Image(lime_fig_path)})
     plt.clf()
+    return shap_path, lime_fig_path
 with gr.Blocks() as demo:
     gr.Markdown("## 📊 AI-Powered Data Analysis with Hyperparameter Optimization")