Spaces:

XRachel
/

bc4

Sleeping

App Files Files Community

XRachel commited on Mar 16

Commit

13fba44

verified ·

1 Parent(s): a696af2

Upload 3 files

Browse files

Files changed (3) hide show

BankChurn_Version1.ipynb +1 -1
BankChurn_Version1_R.ipynb +1 -1
app.py +68 -51

BankChurn_Version1.ipynb CHANGED Viewed

@@ -1 +1 @@

- {"cells": [{"cell_type": "code", "metadata": {}, "source": ["import pandas as pd\n", "from pathlib import Path\n", "df = pd.read_csv('bankChurn.csv')\n", "~~summary~~ = df.~~groupby(~~'~~Geography~~')['~~Exited~~'].~~mean()~~.~~reset_index~~()\n", "~~summary[~~'~~Exited~~'] = ~~summary[~~'~~Exited~~'~~]*100~~\n", "out = Path('artifacts/py/tables')\n", "out.mkdir(parents=True, exist_ok=True)\n", "~~summary~~.to_csv(out/'~~churn_by_geo~~.csv', index=False)\n", "~~summary~~\n"], "outputs": [], "execution_count": null}], "metadata": {}, "nbformat": 4, "nbformat_minor": 5}

+ {"cells": [{"cell_type": "code", "metadata": {}, "source": ["import pandas as pd\n", "from pathlib import Path\n", "\n", "df = pd.read_csv('bankChurn.csv')\n", "target_col = 'CHURN_CUST_IND' if 'CHURN_CUST_IND' in df.columns else 'Exited'\n", "segment_col = 'GENDER_CD' if 'GENDER_CD' in df.columns else df.select_dtypes(include='object').columns[0]\n", "age_col = 'AGE' if 'AGE' in df.columns else 'Age'\n", "\n", "out = Path('artifacts/py/tables')\n", "out.mkdir(parents=True, exist_ok=True)\n", "\n", "seg = df.groupby(segment_col)[target_col].mean().reset_index()\n", "seg[target_col] = seg[target_col] * 100\n", "seg.to_csv(out / 'python_churn_by_segment.csv', index=False)\n", "\n", "age = df[[age_col, target_col]].dropna().copy()\n", "age['AgeBand'] = pd.cut(age[age_col], bins=[18,30,40,50,60,70,120], include_lowest=True)\n", "age = age.groupby('AgeBand')[target_col].mean().reset_index()\n", "age[target_col] = age[target_col] * 100\n", "age.to_csv(out / 'python_churn_by_age.csv', index=False)\n", "\n", "seg\n"], "outputs": [], "execution_count": null}], "metadata": {"kernelspec": {"display_name": "Python 3", "language": "python", "name": "python3"}}, "nbformat": 4, "nbformat_minor": 5}

BankChurn_Version1_R.ipynb CHANGED Viewed

@@ -1 +1 @@

- {"cells": [{"cell_type": "code", "metadata": {"language": "R"}, "source": ["library(readr)\n", "library(dplyr)\n", "dir.create('artifacts/r/tables', recursive=TRUE, showWarnings=FALSE)\n", "bankChurn <- read_csv('bankChurn.csv')\n", "~~summary_geo~~ <- bankChurn |> group_by(~~Geography~~) |> summarise(churn_rate = mean(~~Exited~~))\n", "write_csv(~~summary_geo~~, 'artifacts/r/tables/~~r_churn_geo~~.csv')\n", "~~summary_geo~~\n"], "outputs": [], "execution_count": null}], "metadata": {}, "nbformat": 4, "nbformat_minor": 5}

+ {"cells": [{"cell_type": "code", "metadata": {"language": "R"}, "source": ["library(readr)\n", "library(dplyr)\n", "library(tidyr)\n", "library(forcats)\n", "\n", "dir.create('artifacts/r/tables', recursive=TRUE, showWarnings=FALSE)\n", "bankChurn <- read_csv('bankChurn.csv')\n", "\n", "target_col <- if ('CHURN_CUST_IND' %in% names(bankChurn)) 'CHURN_CUST_IND' else 'Exited'\n", "segment_col <- if ('GENDER_CD' %in% names(bankChurn)) 'GENDER_CD' else names(bankChurn)[sapply(bankChurn, is.character)][1]\n", "age_col <- if ('AGE' %in% names(bankChurn)) 'AGE' else 'Age'\n", "\n", "summary_seg <- bankChurn |> group_by(.data[[segment_col]]) |> summarise(churn_rate = mean(.data[[target_col]], na.rm = TRUE), .groups='drop')\n", "write_csv(summary_seg, 'artifacts/r/tables/r_churn_by_segment.csv')\n", "\n", "summary_age <- bankChurn |> mutate(AgeBand = cut(.data[[age_col]], breaks=c(18,30,40,50,60,70,120), include.lowest=TRUE)) |> group_by(AgeBand) |> summarise(churn_rate = mean(.data[[target_col]], na.rm = TRUE), .groups='drop')\n", "write_csv(summary_age, 'artifacts/r/tables/r_churn_by_age.csv')\n", "\n", "summary_seg\n"], "outputs": [], "execution_count": null}], "metadata": {"kernelspec": {"display_name": "ir", "language": "R", "name": "ir"}}, "nbformat": 4, "nbformat_minor": 5}

app.py CHANGED Viewed

@@ -26,9 +26,7 @@ PIPELINE_CANDIDATES = [
 RUNS_DIR = BASE_DIR / "runs"
 ART_DIR = BASE_DIR / "artifacts"
-PY_FIG_DIR = ART_DIR / "py" / "figures"
 PY_TAB_DIR = ART_DIR / "py" / "tables"
-R_FIG_DIR = ART_DIR / "r" / "figures"
 R_TAB_DIR = ART_DIR / "r" / "tables"
 PAPERMILL_TIMEOUT = int(os.environ.get("PAPERMILL_TIMEOUT", "1800"))
@@ -37,7 +35,7 @@ MODEL_NAME = os.environ.get("MODEL_NAME", "Qwen/Qwen2.5-7B-Instruct").strip()
 def ensure_dirs():
-    for p in [RUNS_DIR, PY_FIG_DIR, PY_TAB_DIR, R_FIG_DIR, R_TAB_DIR]:
         p.mkdir(parents=True, exist_ok=True)
@@ -158,13 +156,41 @@ def load_data():
     if DATA_PATH.exists():
         return pd.read_csv(DATA_PATH)
     return pd.DataFrame({
-        "Age": [25, 45, 33],
-        "Balance": [1000, 5000, 2300],
-        "Geography": ["France", "Germany", "Spain"],
-        "Exited": [0, 1, 0],
     })
 def _read_json(path: Path):
     with open(path, "r", encoding="utf-8") as f:
         obj = json.load(f)
@@ -217,12 +243,7 @@ def build_interactive_plot(df: pd.DataFrame, title: str):
     if len(numeric_cols) >= 2:
         chart_df = df[numeric_cols[:2]].dropna().copy().head(300)
-        fig = px.scatter(
-            chart_df,
-            x=numeric_cols[0],
-            y=numeric_cols[1],
-            title=title
-        )
         fig.update_layout(height=380)
         return fig
@@ -235,49 +256,51 @@ def build_interactive_plot(df: pd.DataFrame, title: str):
 def build_overview_charts(df: pd.DataFrame):
-    geo_fig = px.scatter(title="Churn by Geography (%)")
-    age_fig = px.scatter(title="Churn by Age Band (%)")
-    if {"Geography", "Exited"}.issubset(df.columns):
-        geo_df = df.groupby("Geography", as_index=False)["Exited"].mean()
-        geo_df["Exited"] = (geo_df["Exited"] * 100).round(2)
-        geo_fig = px.bar(geo_df, x="Geography", y="Exited", title="Churn by Geography (%)")
-        geo_fig.update_layout(height=380)
-    if {"Age", "Exited"}.issubset(df.columns):
         temp = df.copy()
-        temp["AgeBand"] = pd.cut(
-            temp["Age"],
-            bins=[18, 30, 40, 50, 60, 70],
-            include_lowest=True
-        )
-        age_df = temp.groupby("AgeBand").agg(churn_rate=("Exited", "mean")).reset_index()
         age_df["AgeBand"] = age_df["AgeBand"].astype(str)
         age_df["churn_rate"] = (age_df["churn_rate"] * 100).round(2)
         age_fig = px.line(age_df, x="AgeBand", y="churn_rate", title="Churn by Age Band (%)", markers=True)
         age_fig.update_layout(height=380)
-    return geo_fig, age_fig
 def build_dashboard():
     df = load_data()
     summary_lines = [
         "### Executive Summary",
         f"- Total Customers: **{len(df)}**",
     ]
-    if "Exited" in df.columns:
-        summary_lines.append(f"- Churn Rate: **{round(df['Exited'].mean() * 100, 2)}%**")
-        summary_lines.append(f"- Churned Customers: **{int(df['Exited'].sum())}**")
-    if "Balance" in df.columns:
-        summary_lines.append(f"- Average Balance: **{round(df['Balance'].mean(), 2)}**")
     kernels = ", ".join(sorted(available_kernels().keys())) or "none"
     summary_lines.append(f"- Available Kernels: **{kernels}**")
     summary_md = "\n".join(summary_lines)
-    geo_fig, age_fig = build_overview_charts(df)
     py_name, py_df = load_latest_table(PY_TAB_DIR)
     r_name, r_df = load_latest_table(R_TAB_DIR)
@@ -293,7 +316,7 @@ def build_dashboard():
     if r_df is None:
         r_df = pd.DataFrame([{"info": "No R table found in artifacts/r/tables"}])
-    return summary_md, geo_fig, age_fig, py_status, py_plot, py_df, r_status, r_plot, r_df
 def generate_ai_insight(question: str):
@@ -301,10 +324,13 @@ def generate_ai_insight(question: str):
         return "HF_API_KEY is not configured in Space Secrets."
     df = load_data()
     summary = {
         "rows": int(len(df)),
-        "churn_rate": round(float(df["Exited"].mean() * 100), 2) if "Exited" in df.columns else None,
-        "avg_balance": round(float(df["Balance"].mean()), 2) if "Balance" in df.columns else None,
     }
     py_name, py_df = load_latest_table(PY_TAB_DIR)
     r_name, r_df = load_latest_table(R_TAB_DIR)
@@ -344,11 +370,7 @@ Return:
             )
             return response.choices[0].message.content.strip()
         except Exception:
-            return client.text_generation(
-                prompt,
-                model=MODEL_NAME,
-                max_new_tokens=350,
-            )
     except Exception as e:
         return f"AI request failed: {str(e)}"
@@ -372,12 +394,7 @@ def build_ui():
                 btn_py = gr.Button("Run Python", variant="secondary")
                 btn_r = gr.Button("Run R", variant="secondary")
                 btn_all = gr.Button("Run All", variant="primary")
-            exec_log = gr.Textbox(
-                label="Execution Log",
-                lines=18,
-                max_lines=28,
-                interactive=False,
-            )
             btn_py.click(run_python, outputs=[exec_log])
             btn_r.click(run_r, outputs=[exec_log])
             btn_all.click(run_all, outputs=[exec_log])
@@ -387,7 +404,7 @@ def build_ui():
             summary_md = gr.Markdown()
             with gr.Row():
-                geo_plot = gr.Plot(label="Churn by Geography")
                 age_plot = gr.Plot(label="Churn by Age Band")
             with gr.Row():
@@ -404,11 +421,11 @@ def build_ui():
             refresh_btn.click(
                 build_dashboard,
-                outputs=[summary_md, geo_plot, age_plot, py_status, py_plot, py_table, r_status, r_plot, r_table],
             )
             demo.load(
                 build_dashboard,
-                outputs=[summary_md, geo_plot, age_plot, py_status, py_plot, py_table, r_status, r_plot, r_table],
             )
         with gr.Tab("Prediction"):

 RUNS_DIR = BASE_DIR / "runs"
 ART_DIR = BASE_DIR / "artifacts"
 PY_TAB_DIR = ART_DIR / "py" / "tables"
 R_TAB_DIR = ART_DIR / "r" / "tables"
 PAPERMILL_TIMEOUT = int(os.environ.get("PAPERMILL_TIMEOUT", "1800"))
 def ensure_dirs():
+    for p in [RUNS_DIR, PY_TAB_DIR, R_TAB_DIR]:
         p.mkdir(parents=True, exist_ok=True)
     if DATA_PATH.exists():
         return pd.read_csv(DATA_PATH)
     return pd.DataFrame({
+        "AGE": [25, 45, 33],
+        "LOCAL_CUR_MON_AVG_BAL": [1000, 5000, 2300],
+        "GENDER_CD": ["M", "F", "M"],
+        "CHURN_CUST_IND": [0, 1, 0],
     })
+def get_target_col(df: pd.DataFrame):
+    for c in ["CHURN_CUST_IND", "Exited", "churn", "target"]:
+        if c in df.columns:
+            return c
+    return None
+def get_age_col(df: pd.DataFrame):
+    for c in ["AGE", "Age", "age"]:
+        if c in df.columns:
+            return c
+    return None
+def get_balance_col(df: pd.DataFrame):
+    for c in ["LOCAL_CUR_MON_AVG_BAL", "Balance", "balance"]:
+        if c in df.columns:
+            return c
+    return None
+def get_segment_col(df: pd.DataFrame):
+    for c in ["Geography", "GENDER_CD", "gender", "SEGMENT"]:
+        if c in df.columns:
+            return c
+    return None
 def _read_json(path: Path):
     with open(path, "r", encoding="utf-8") as f:
         obj = json.load(f)
     if len(numeric_cols) >= 2:
         chart_df = df[numeric_cols[:2]].dropna().copy().head(300)
+        fig = px.scatter(chart_df, x=numeric_cols[0], y=numeric_cols[1], title=title)
         fig.update_layout(height=380)
         return fig
 def build_overview_charts(df: pd.DataFrame):
+    target_col = get_target_col(df)
+    age_col = get_age_col(df)
+    segment_col = get_segment_col(df)
+    seg_fig = px.scatter(title="Churn by Segment")
+    age_fig = px.scatter(title="Churn by Age Band")
+    if target_col and segment_col:
+        seg_df = df.groupby(segment_col, as_index=False)[target_col].mean()
+        seg_df[target_col] = (seg_df[target_col] * 100).round(2)
+        seg_fig = px.bar(seg_df, x=segment_col, y=target_col, title=f"Churn by {segment_col} (%)")
+        seg_fig.update_layout(height=380)
+    if target_col and age_col:
         temp = df.copy()
+        temp["AgeBand"] = pd.cut(temp[age_col], bins=[18, 30, 40, 50, 60, 70, 120], include_lowest=True)
+        age_df = temp.groupby("AgeBand").agg(churn_rate=(target_col, "mean")).reset_index()
         age_df["AgeBand"] = age_df["AgeBand"].astype(str)
         age_df["churn_rate"] = (age_df["churn_rate"] * 100).round(2)
         age_fig = px.line(age_df, x="AgeBand", y="churn_rate", title="Churn by Age Band (%)", markers=True)
         age_fig.update_layout(height=380)
+    return seg_fig, age_fig
 def build_dashboard():
     df = load_data()
+    target_col = get_target_col(df)
+    balance_col = get_balance_col(df)
     summary_lines = [
         "### Executive Summary",
         f"- Total Customers: **{len(df)}**",
     ]
+    if target_col:
+        summary_lines.append(f"- Churn Rate: **{round(df[target_col].mean() * 100, 2)}%**")
+        summary_lines.append(f"- Churned Customers: **{int(df[target_col].sum())}**")
+    if balance_col:
+        summary_lines.append(f"- Average Balance: **{round(df[balance_col].mean(), 2)}**")
     kernels = ", ".join(sorted(available_kernels().keys())) or "none"
     summary_lines.append(f"- Available Kernels: **{kernels}**")
     summary_md = "\n".join(summary_lines)
+    seg_fig, age_fig = build_overview_charts(df)
     py_name, py_df = load_latest_table(PY_TAB_DIR)
     r_name, r_df = load_latest_table(R_TAB_DIR)
     if r_df is None:
         r_df = pd.DataFrame([{"info": "No R table found in artifacts/r/tables"}])
+    return summary_md, seg_fig, age_fig, py_status, py_plot, py_df, r_status, r_plot, r_df
 def generate_ai_insight(question: str):
         return "HF_API_KEY is not configured in Space Secrets."
     df = load_data()
+    target_col = get_target_col(df)
+    balance_col = get_balance_col(df)
     summary = {
         "rows": int(len(df)),
+        "churn_rate": round(float(df[target_col].mean() * 100), 2) if target_col else None,
+        "avg_balance": round(float(df[balance_col].mean()), 2) if balance_col else None,
+        "target_column": target_col,
     }
     py_name, py_df = load_latest_table(PY_TAB_DIR)
     r_name, r_df = load_latest_table(R_TAB_DIR)
             )
             return response.choices[0].message.content.strip()
         except Exception:
+            return client.text_generation(prompt, model=MODEL_NAME, max_new_tokens=350)
     except Exception as e:
         return f"AI request failed: {str(e)}"
                 btn_py = gr.Button("Run Python", variant="secondary")
                 btn_r = gr.Button("Run R", variant="secondary")
                 btn_all = gr.Button("Run All", variant="primary")
+            exec_log = gr.Textbox(label="Execution Log", lines=18, max_lines=28, interactive=False)
             btn_py.click(run_python, outputs=[exec_log])
             btn_r.click(run_r, outputs=[exec_log])
             btn_all.click(run_all, outputs=[exec_log])
             summary_md = gr.Markdown()
             with gr.Row():
+                seg_plot = gr.Plot(label="Churn by Segment")
                 age_plot = gr.Plot(label="Churn by Age Band")
             with gr.Row():
             refresh_btn.click(
                 build_dashboard,
+                outputs=[summary_md, seg_plot, age_plot, py_status, py_plot, py_table, r_status, r_plot, r_table],
             )
             demo.load(
                 build_dashboard,
+                outputs=[summary_md, seg_plot, age_plot, py_status, py_plot, py_table, r_status, r_plot, r_table],
             )
         with gr.Tab("Prediction"):