Spaces:

shimaa22
/

analysis_web

Sleeping

App Files Files Community

shimaa22 commited on 29 days ago

Commit

3c53f52

verified ·

1 Parent(s): d886a54

Update app.py

Browse files

Files changed (1) hide show

app.py +111 -90

app.py CHANGED Viewed

@@ -26,101 +26,68 @@ from sklearn.metrics import (
     r2_score
 )
 # =========================
 # GLOBAL
 # =========================
 df_global = None
 # =========================
-# UPLOAD + CLEAN
 # =========================
 def upload_and_clean(file):
-    global df_global
-    if file is None:
-        return "Upload file first", None, gr.update(choices=[]), gr.update(choices=[])
     df = pd.read_csv(file.name)
     df = df.drop_duplicates()
-    # Clean missing values safely
     for col in df.columns:
         if pd.api.types.is_numeric_dtype(df[col]):
             df[col] = df[col].fillna(df[col].median())
         else:
-            df[col] = df[col].fillna(df[col].mode()[0] if not df[col].mode().empty else "Unknown")
     df_global = df.copy()
-    return (
-        "Data Loaded Successfully",
-        df.head(),
-        gr.update(choices=list(df.columns)),
-        gr.update(choices=list(df.columns))
-    )
 # =========================
-# VISUALIZATION (BAR + PIE)
 # =========================
-def generate_visualizations(target):
-    global df_global
-    if df_global is None:
-        return []
-    df = df_global.copy()
-    plots = []
-    cols = [c for c in df.columns if c != target]
-    for col in cols[:10]:
-        fig, axes = plt.subplots(1, 2, figsize=(12, 4))
-        # BAR CHART
-        try:
-            df[col].astype(str).value_counts().head(10).plot(
-                kind="bar",
-                ax=axes[0]
-            )
-            axes[0].set_title(f"Bar - {col}")
-        except:
-            axes[0].set_visible(False)
-        # PIE CHART
-        try:
-            df[col].astype(str).value_counts().head(6).plot(
-                kind="pie",
-                ax=axes[1],
-                autopct="%1.1f%%"
-            )
-            axes[1].set_ylabel("")
-            axes[1].set_title(f"Pie - {col}")
-        except:
-            axes[1].set_visible(False)
-        plt.tight_layout()
-        path = f"/tmp/{col}.png"
         plt.savefig(path)
-        plt.close(fig)
-        plots.append(path)
-    return plots
 # =========================
-# MACHINE LEARNING
 # =========================
 def run_ml(target):
-    global df_global
     df = df_global.copy()
-    # Encode all categorical columns
     for col in df.columns:
         if not pd.api.types.is_numeric_dtype(df[col]):
             df[col] = LabelEncoder().fit_transform(df[col].astype(str))
@@ -128,15 +95,16 @@ def run_ml(target):
     X = df.drop(columns=[target])
     y = df[target]
     is_classification = len(np.unique(y)) <= 20
-    X_train, X_test, y_train, y_test = train_test_split(
-        X, y, test_size=0.2, random_state=42
-    )
     results = []
-    # CLASSIFICATION
     if is_classification:
         models = {
@@ -146,20 +114,28 @@ def run_ml(target):
         }
         for name, model in models.items():
             model.fit(X_train, y_train)
             pred = model.predict(X_test)
             results.append({
                 "Model": name,
-                "Accuracy": accuracy_score(y_test, pred),
                 "Precision": precision_score(y_test, pred, average="weighted", zero_division=0),
-                "Recall": recall_score(y_test, pred, average="weighted", zero_division=0),
-                "Confusion Matrix": str(confusion_matrix(y_test, pred))
             })
-        return "Classification", pd.DataFrame(results).sort_values("Accuracy", ascending=False)
-    # REGRESSION
     else:
         models = {
@@ -169,6 +145,7 @@ def run_ml(target):
         }
         for name, model in models.items():
             model.fit(X_train, y_train)
             pred = model.predict(X_test)
@@ -179,7 +156,43 @@ def run_ml(target):
                 "R2": r2_score(y_test, pred)
             })
-        return "Regression", pd.DataFrame(results).sort_values("R2", ascending=False)
 # =========================
 # UI
@@ -188,46 +201,54 @@ with gr.Blocks() as demo:
     gr.Markdown("# 🚀 Auto ML Dashboard")
-    file_input = gr.File(label="Upload CSV")
-    upload_btn = gr.Button("Upload & Clean")
     status = gr.Textbox()
     preview = gr.Dataframe()
-    gr.Markdown("## 📊 Visualization")
-    target_viz = gr.Dropdown(label="Target (Viz)")
-    viz_btn = gr.Button("Run Visualization")
-    gallery = gr.Gallery()
-    gr.Markdown("## 🤖 Machine Learning")
-    target_ml = gr.Dropdown(label="Target (ML)")
-    ml_btn = gr.Button("Run ML")
     ml_status = gr.Textbox()
     leaderboard = gr.Dataframe()
-    # Upload
     upload_btn.click(
         upload_and_clean,
-        file_input,
-        [status, preview, target_viz, target_ml]
-    )
-    # Viz
-    viz_btn.click(
-        generate_visualizations,
-        target_viz,
-        gallery
     )
     # ML
-    ml_btn.click(
         run_ml,
-        target_ml,
         [ml_status, leaderboard]
     )
 demo.launch(share=True)

     r2_score
 )
+from reportlab.lib.pagesizes import letter
+from reportlab.pdfgen import canvas
 # =========================
 # GLOBAL
 # =========================
 df_global = None
+best_model_global = None
+best_model_obj = None
+X_global = None
+y_global = None
 # =========================
+# UPLOAD
 # =========================
 def upload_and_clean(file):
+    global df_global
     df = pd.read_csv(file.name)
     df = df.drop_duplicates()
     for col in df.columns:
         if pd.api.types.is_numeric_dtype(df[col]):
             df[col] = df[col].fillna(df[col].median())
         else:
+            df[col] = df[col].fillna(df[col].mode()[0])
     df_global = df.copy()
+    return "Data Loaded", df.head(), gr.update(choices=list(df.columns)), gr.update(choices=list(df.columns))
 # =========================
+# FEATURE IMPORTANCE
 # =========================
+def feature_importance_plot(model, X, title):
+    if hasattr(model, "feature_importances_"):
+        imp = model.feature_importances_
+        plt.figure(figsize=(6,4))
+        plt.barh(X.columns, imp)
+        plt.title("Feature Importance")
+        path = "/tmp/feature_importance.png"
         plt.savefig(path)
+        plt.close()
+        return path
+    return None
 # =========================
+# ML
 # =========================
 def run_ml(target):
+    global df_global, best_model_global, best_model_obj, X_global, y_global
     df = df_global.copy()
     for col in df.columns:
         if not pd.api.types.is_numeric_dtype(df[col]):
             df[col] = LabelEncoder().fit_transform(df[col].astype(str))
     X = df.drop(columns=[target])
     y = df[target]
+    X_global = X
+    y_global = y
     is_classification = len(np.unique(y)) <= 20
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
     results = []
+    best_score = 0
     if is_classification:
         models = {
         }
         for name, model in models.items():
             model.fit(X_train, y_train)
             pred = model.predict(X_test)
+            acc = accuracy_score(y_test, pred)
             results.append({
                 "Model": name,
+                "Accuracy": acc,
                 "Precision": precision_score(y_test, pred, average="weighted", zero_division=0),
+                "Recall": recall_score(y_test, pred, average="weighted", zero_division=0)
             })
+            if acc > best_score:
+                best_score = acc
+                best_model_global = name
+                best_model_obj = model
+        leaderboard = pd.DataFrame(results).sort_values("Accuracy", ascending=False)
+        return "Classification", leaderboard
     else:
         models = {
         }
         for name, model in models.items():
             model.fit(X_train, y_train)
             pred = model.predict(X_test)
                 "R2": r2_score(y_test, pred)
             })
+        leaderboard = pd.DataFrame(results).sort_values("R2", ascending=False)
+        best_model_global = leaderboard.iloc[0]["Model"]
+        return "Regression", leaderboard
+# =========================
+# FEATURE IMPORTANCE OUTPUT
+# =========================
+def show_feature_importance():
+    global best_model_obj, X_global
+    if best_model_obj is None:
+        return None
+    return feature_importance_plot(best_model_obj, X_global, "Feature Importance")
+# =========================
+# PDF REPORT
+# =========================
+def download_report():
+    global best_model_global
+    file_path = "/tmp/report.pdf"
+    c = canvas.Canvas(file_path, pagesize=letter)
+    c.drawString(100, 750, "Auto ML Report")
+    c.drawString(100, 730, f"Best Model: {best_model_global}")
+    c.drawString(100, 700, "Generated by Auto ML System")
+    c.save()
+    return file_path
 # =========================
 # UI
     gr.Markdown("# 🚀 Auto ML Dashboard")
+    file = gr.File()
+    upload_btn = gr.Button("Upload")
     status = gr.Textbox()
     preview = gr.Dataframe()
+    target = gr.Dropdown(label="Target")
+    run_btn = gr.Button("Run ML")
     ml_status = gr.Textbox()
     leaderboard = gr.Dataframe()
+    cm = gr.Image()
+    feature_btn = gr.Button("Show Feature Importance")
+    feature_img = gr.Image()
+    pdf_btn = gr.Button("Download Report PDF")
+    pdf_file = gr.File()
+    # upload
     upload_btn.click(
         upload_and_clean,
+        file,
+        [status, preview, target, target]
     )
     # ML
+    run_btn.click(
         run_ml,
+        target,
         [ml_status, leaderboard]
     )
+    # feature importance
+    feature_btn.click(
+        show_feature_importance,
+        None,
+        feature_img
+    )
+    # pdf
+    pdf_btn.click(
+        download_report,
+        None,
+        pdf_file
+    )
 demo.launch(share=True)