Spaces:

shimaa22
/

analysis_web

Sleeping

App Files Files Community

shimaa22 commited on 28 days ago

Commit

edf6c00

verified ·

1 Parent(s): 2967f48

Update app.py

Browse files

Files changed (1) hide show

app.py +106 -110

app.py CHANGED Viewed

@@ -10,20 +10,15 @@ from sklearn.tree import DecisionTreeClassifier
 from sklearn.ensemble import RandomForestClassifier
 from xgboost import XGBClassifier
-from sklearn.linear_model import LinearRegression
-from sklearn.ensemble import RandomForestRegressor
-from xgboost import XGBRegressor
 from sklearn.metrics import (
     accuracy_score,
     precision_score,
     recall_score,
-    confusion_matrix,
-    mean_absolute_error,
-    mean_squared_error,
-    r2_score
 )
 from reportlab.pdfgen import canvas
 # =========================
@@ -63,7 +58,7 @@ def upload_and_clean(file):
 # =========================
-# VISUALIZATION (BAR + PIE)
 # =========================
 def analyze_data(target):
@@ -74,11 +69,10 @@ def analyze_data(target):
     cols = [c for c in df.columns if c != target]
-    for col in cols[:8]:
         fig, axes = plt.subplots(1, 2, figsize=(12, 4))
-        # BAR
         df[col].astype(str).value_counts().head(10).plot(
             kind="bar",
             ax=axes[0]
@@ -86,7 +80,6 @@ def analyze_data(target):
         axes[0].set_title(f"Bar - {col}")
         axes[0].tick_params(axis='x', rotation=45)
-        # PIE
         df[col].astype(str).value_counts().head(6).plot(
             kind="pie",
             ax=axes[1],
@@ -107,7 +100,7 @@ def analyze_data(target):
 # =========================
-# ML TRAINING
 # =========================
 def run_ml(target):
@@ -115,7 +108,7 @@ def run_ml(target):
     df = df_global.copy()
-    # encode all categorical
     for col in df.columns:
         if not pd.api.types.is_numeric_dtype(df[col]):
             df[col] = LabelEncoder().fit_transform(df[col].astype(str))
@@ -126,88 +119,94 @@ def run_ml(target):
     X_global = X
     y_global = y
-    is_classification = len(np.unique(y)) <= 20
     X_train, X_test, y_train, y_test = train_test_split(
         X, y, test_size=0.2, random_state=42
     )
-    results = []
-    best_score = -999
-    # ================= CLASSIFICATION =================
-    if is_classification:
-        models = {
-            "Decision Tree": DecisionTreeClassifier(),
-            "Random Forest": RandomForestClassifier(),
-            "XGBoost": XGBClassifier(eval_metric="logloss")
-        }
-        for name, model in models.items():
-            model.fit(X_train, y_train)
-            pred = model.predict(X_test)
-            acc = accuracy_score(y_test, pred)
-            results.append({
-                "Model": name,
-                "Accuracy": acc,
-                "Precision": precision_score(y_test, pred, average="weighted", zero_division=0),
-                "Recall": recall_score(y_test, pred, average="weighted", zero_division=0)
-            })
-            if acc > best_score:
-                best_score = acc
-                best_model_obj = model
-                best_model_name = name
-        leaderboard = pd.DataFrame(results).sort_values("Accuracy", ascending=False)
-        # confusion matrix
-        cm = confusion_matrix(y_test, best_model_obj.predict(X_test))
-        fig = plt.figure()
-        plt.imshow(cm, cmap="Blues")
-        plt.title(f"Best Model: {best_model_name}")
-        for i in range(cm.shape[0]):
-            for j in range(cm.shape[1]):
-                plt.text(j, i, cm[i, j], ha="center", va="center")
-        cm_path = "/tmp/cm.png"
-        plt.savefig(cm_path)
-        plt.close()
-        return "Classification", leaderboard, cm_path
-    # ================= REGRESSION =================
     else:
-        models = {
-            "Linear Regression": LinearRegression(),
-            "Random Forest": RandomForestRegressor(),
-            "XGBoost": XGBRegressor()
-        }
-        for name, model in models.items():
-            model.fit(X_train, y_train)
-            pred = model.predict(X_test)
-            results.append({
-                "Model": name,
-                "MAE": mean_absolute_error(y_test, pred),
-                "MSE": mean_squared_error(y_test, pred),
-                "R2": r2_score(y_test, pred)
-            })
-        leaderboard = pd.DataFrame(results).sort_values("R2", ascending=False)
-        best_model_name = leaderboard.iloc[0]["Model"]
-        return "Regression", leaderboard, None
 # =========================
@@ -220,10 +219,9 @@ def feature_importance():
     if hasattr(best_model_obj, "feature_importances_"):
         plt.figure(figsize=(6,4))
         plt.barh(X_global.columns, best_model_obj.feature_importances_)
-        path = "/tmp/feature.png"
         plt.savefig(path)
         plt.close()
@@ -235,33 +233,33 @@ def feature_importance():
 # =========================
 # PDF REPORT
 # =========================
-def download_pdf():
     global best_model_name
-    file_path = "/tmp/report.pdf"
-    c = canvas.Canvas(file_path)
     c.drawString(100, 750, "Auto ML Report")
     c.drawString(100, 730, f"Best Model: {best_model_name}")
-    c.drawString(100, 700, "Generated Successfully")
     c.save()
-    return file_path
 # =========================
-# COMBINED RUN
 # =========================
-def full_run(target):
-    status, leaderboard, cm = run_ml(target)
     images = analyze_data(target)
-    return status, leaderboard, cm, images
 # =========================
@@ -269,28 +267,26 @@ def full_run(target):
 # =========================
 with gr.Blocks() as demo:
-    gr.Markdown("# 🚀 Auto ML Dashboard")
     file = gr.File()
-    upload_btn = gr.Button("Upload")
     status = gr.Textbox()
     preview = gr.Dataframe()
-    target = gr.Dropdown(label="Target")
-    run_btn = gr.Button("RUN FULL ANALYSIS")
     ml_status = gr.Textbox()
-    leaderboard = gr.Dataframe()
-    cm_img = gr.Image()
-    gallery = gr.Gallery(
-        label="Analysis Charts (Click to Enlarge)",
-        columns=2
-    )
     feat_btn = gr.Button("Feature Importance")
     feat_img = gr.Image()
@@ -307,9 +303,9 @@ with gr.Blocks() as demo:
     # full analysis
     run_btn.click(
-        full_run,
         target,
-        [ml_status, leaderboard, cm_img, gallery]
     )
     # feature importance
@@ -321,7 +317,7 @@ with gr.Blocks() as demo:
     # pdf
     pdf_btn.click(
-        download_pdf,
         None,
         pdf_file
     )

 from sklearn.ensemble import RandomForestClassifier
 from xgboost import XGBClassifier
 from sklearn.metrics import (
     accuracy_score,
     precision_score,
     recall_score,
+    confusion_matrix
 )
+from imblearn.over_sampling import SMOTE
 from reportlab.pdfgen import canvas
 # =========================
 # =========================
+# VISUALIZATION
 # =========================
 def analyze_data(target):
     cols = [c for c in df.columns if c != target]
+    for col in cols[:6]:
         fig, axes = plt.subplots(1, 2, figsize=(12, 4))
         df[col].astype(str).value_counts().head(10).plot(
             kind="bar",
             ax=axes[0]
         axes[0].set_title(f"Bar - {col}")
         axes[0].tick_params(axis='x', rotation=45)
         df[col].astype(str).value_counts().head(6).plot(
             kind="pie",
             ax=axes[1],
 # =========================
+# ML WITH SMOTE + CLASS WEIGHT
 # =========================
 def run_ml(target):
     df = df_global.copy()
+    # encode
     for col in df.columns:
         if not pd.api.types.is_numeric_dtype(df[col]):
             df[col] = LabelEncoder().fit_transform(df[col].astype(str))
     X_global = X
     y_global = y
+    # =========================
+    # imbalance detection
+    # =========================
+    counts = np.bincount(y)
+    imbalance_ratio = min(counts) / max(counts)
+    is_imbalanced = imbalance_ratio < 0.5
+    # split
     X_train, X_test, y_train, y_test = train_test_split(
         X, y, test_size=0.2, random_state=42
     )
+    models = {
+        "Decision Tree": DecisionTreeClassifier(),
+        "Random Forest": RandomForestClassifier(),
+        "XGBoost": XGBClassifier(eval_metric="logloss")
+    }
+    # =========================
+    # RESULT TABLES
+    # =========================
+    no_results = []
+    cw_results = []
+    smote_results = []
+    best_score = 0
+    # =====================================================
+    # 1️⃣ NO SAMPLING
+    # =====================================================
+    for name, model in models.items():
+        model.fit(X_train, y_train)
+        pred = model.predict(X_test)
+        acc = accuracy_score(y_test, pred)
+        no_results.append({
+            "Model": name,
+            "Accuracy": acc
+        })
+        if acc > best_score:
+            best_score = acc
+            best_model_obj = model
+            best_model_name = name + " (No Sampling)"
+    # =====================================================
+    # 2️⃣ CLASS WEIGHT
+    # =====================================================
+    for name, model in models.items():
+        if name != "XGBoost":
+            model = DecisionTreeClassifier(class_weight="balanced") if name=="Decision Tree" else RandomForestClassifier(class_weight="balanced")
+        model.fit(X_train, y_train)
+        pred = model.predict(X_test)
+        cw_results.append({
+            "Model": name,
+            "Accuracy": accuracy_score(y_test, pred)
+        })
+    # =====================================================
+    # 3️⃣ SMOTE
+    # =====================================================
+    if is_imbalanced:
+        sm = SMOTE(random_state=42)
+        X_res, y_res = sm.fit_resample(X_train, y_train)
     else:
+        X_res, y_res = X_train, y_train
+    for name, model in models.items():
+        model.fit(X_res, y_res)
+        pred = model.predict(X_test)
+        smote_results.append({
+            "Model": name,
+            "Accuracy": accuracy_score(y_test, pred)
+        })
+    return (
+        f"Imbalanced Dataset: {is_imbalanced}",
+        pd.DataFrame(no_results),
+        pd.DataFrame(cw_results),
+        pd.DataFrame(smote_results)
+    )
 # =========================
     if hasattr(best_model_obj, "feature_importances_"):
         plt.figure(figsize=(6,4))
         plt.barh(X_global.columns, best_model_obj.feature_importances_)
+        path = "/tmp/feat.png"
         plt.savefig(path)
         plt.close()
 # =========================
 # PDF REPORT
 # =========================
+def download_report():
     global best_model_name
+    path = "/tmp/report.pdf"
+    c = canvas.Canvas(path)
     c.drawString(100, 750, "Auto ML Report")
     c.drawString(100, 730, f"Best Model: {best_model_name}")
+    c.drawString(100, 700, "Includes SMOTE + Class Weight Comparison")
     c.save()
+    return path
 # =========================
+# FULL ANALYSIS
 # =========================
+def full_analysis(target):
+    ml_status, no_df, cw_df, smote_df = run_ml(target)
     images = analyze_data(target)
+    return ml_status, no_df, cw_df, smote_df, images
 # =========================
 # =========================
 with gr.Blocks() as demo:
+    gr.Markdown("# 🚀 Advanced AutoML System (SMOTE + Class Weight)")
     file = gr.File()
+    upload_btn = gr.Button("Upload Data")
     status = gr.Textbox()
     preview = gr.Dataframe()
+    target = gr.Dropdown(label="Select Target")
+    run_btn = gr.Button("Run Full Analysis")
     ml_status = gr.Textbox()
+    no_table = gr.Dataframe(label="No Sampling")
+    cw_table = gr.Dataframe(label="Class Weight")
+    smote_table = gr.Dataframe(label="SMOTE")
+    gallery = gr.Gallery(label="Visualizations", columns=2)
     feat_btn = gr.Button("Feature Importance")
     feat_img = gr.Image()
     # full analysis
     run_btn.click(
+        full_analysis,
         target,
+        [ml_status, no_table, cw_table, smote_table, gallery]
     )
     # feature importance
     # pdf
     pdf_btn.click(
+        download_report,
         None,
         pdf_file
     )