Atividade5_1

Sleeping

App Files Files Community

ricardoadriano commited on Oct 23, 2025

Commit

6a8a483

verified ·

1 Parent(s): 5189ebb

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +145 -32

src/streamlit_app.py CHANGED Viewed

@@ -17,6 +17,7 @@ import os
 import numpy as np
 import pandas as pd
 import streamlit as st
 from sklearn.model_selection import train_test_split
 from sklearn.preprocessing import OneHotEncoder, StandardScaler
@@ -27,38 +28,128 @@ from sklearn.pipeline import Pipeline
 # -----------------------------
 # Page config
 # -----------------------------
-st.set_page_config(page_title="Churn – Regressão Logística (PPCA/UnB)", layout="wide", initial_sidebar_state="expanded")
 st.title("Churn – Regressão Logística (PPCA/UnB)")
 st.caption("Item (a) – Modelagem da Retenção de Clientes e interpretação de coeficientes/odds ratio.")
 # -----------------------------
-# Data loader (cache)
 # -----------------------------
 @st.cache_data
 def load_data():
-    tried = [
-        "Dados/Churn_Modelling.csv",
-        "./Dados/Churn_Modelling.csv",
-        "/mnt/data/Dados/Churn_Modelling.csv",
-        "Churn_Modelling.csv",
-        "./Churn_Modelling.csv"
     ]
-    last_err = None
-    for p in tried:
         try:
-            df = pd.read_csv(p)
-            return df, p
-        except Exception as e:
-            last_err = e
             continue
-    return pd.DataFrame(), str(last_err)
 df, data_info = load_data()
 if df.empty:
-    st.error("Não foi possível carregar o arquivo **Churn_Modelling.csv**. "
-             "Certifique-se de que ele está em `Dados/Churn_Modelling.csv` dentro do Space.")
-    st.stop()
 st.success(f"Dataset carregado de: `{data_info}`")
@@ -69,13 +160,26 @@ df.columns = [c.strip() for c in df.columns]
 # Target and candidate features (dataset padrão do Kaggle)
 # -----------------------------
 TARGET = "Exited"  # 1 = saiu, 0 = permaneceu
-candidates_num = [c for c in ["CreditScore","Age","Tenure","Balance","NumOfProducts","HasCrCard","IsActiveMember","EstimatedSalary"] if c in df.columns]
-candidates_cat = [c for c in ["Geography","Gender"] if c in df.columns]
 # Sidebar: feature selection & model hyperparams
 st.sidebar.header("Configuração do Modelo")
-use_num = st.sidebar.multiselect("Variáveis numéricas", options=candidates_num, default=[c for c in ["Age","Balance","NumOfProducts","IsActiveMember"] if c in candidates_num])
-use_cat = st.sidebar.multiselect("Variáveis categóricas", options=candidates_cat, default=[c for c in ["Geography","Gender"] if c in candidates_cat])
 test_size = st.sidebar.slider("Proporção de teste", 0.1, 0.4, 0.2, 0.05)
 reg_strength = st.sidebar.slider("Força de regularização (C)", 0.05, 5.0, 1.0, 0.05)
@@ -88,7 +192,7 @@ train_btn = st.sidebar.button("Treinar modelo")
 # Quick EDA block (compact)
 # -----------------------------
 st.subheader("Visão rápida do conjunto de dados")
-col_a, col_b = st.columns([2,1])
 with col_a:
     st.dataframe(df.sample(min(10, len(df))), use_container_width=True)
 with col_b:
@@ -109,7 +213,10 @@ def build_pipeline(num_cols, cat_cols, C=1.0, class_weight=None, max_iter=1000):
         ],
         remainder="drop"
     )
-    lr = LogisticRegression(C=C, penalty="l2", solver="lbfgs", max_iter=max_iter, class_weight=class_weight, n_jobs=None)
     pipe = Pipeline(steps=[("prep", preprocess), ("clf", lr)])
     return pipe
@@ -137,7 +244,9 @@ if train_btn:
     cw = "balanced" if class_balanced else None
     pipe = build_pipeline(use_num, use_cat, C=reg_strength, class_weight=cw, max_iter=max_iter)
-    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=42, stratify=y)
     pipe.fit(X_train, y_train)
     # -------------------------
@@ -158,8 +267,9 @@ if train_btn:
     st.subheader("Coeficientes e Odds Ratio")
     st.write(
-        "Interpretação: mantendo as demais variáveis constantes, um aumento de uma unidade na variável (ou mudança para a categoria indicada) "
-        "multiplica as *odds* de churn por `e^β`. Se `e^β > 1`, o risco de churn aumenta; se `< 1`, diminui."
     )
     st.dataframe(coef_table, use_container_width=True, height=380)
@@ -172,7 +282,6 @@ if train_btn:
     # -------------------------
     st.subheader("Simulação: probabilidade de churn para um perfil de cliente")
     with st.expander("Abrir painel de controle do cliente", expanded=True):
-        # Build controls dynamically from current selections
         inputs = {}
         cols = st.columns(2)
@@ -181,9 +290,12 @@ if train_btn:
             with cols[i % 2]:
                 vmin = float(np.nanmin(df[col])) if np.isfinite(df[col]).all() else 0.0
                 vmax = float(np.nanmax(df[col])) if np.isfinite(df[col]).all() else 1.0
-                vmean = float(np.nanmean(df[col])) if np.isfinite(df[col]).all() else (vmin + vmax)/2.0
                 step = (vmax - vmin) / 100.0 if vmax > vmin else 1.0
-                inputs[col] = st.number_input(f"{col}", value=round(vmean, 2), step=step, min_value=vmin, max_value=vmax, format="%.2f")
         # Categorical controls
         for i, col in enumerate(use_cat):
@@ -206,8 +318,9 @@ if train_btn:
     st.markdown("""
 - **Sinal de β**: positivo ⇒ aumenta as *odds* de churn; negativo ⇒ reduz.
 - **Magnitude**: valores maiores em módulo indicam maior impacto, dado o mesmo escalonamento.
-- **Odds Ratio `e^β`**: fator multiplicativo nas *odds*. Ex.: `e^β = 1.30` ⇒ as *odds* aumentam **30%**.
-- Em variáveis **categóricas**, o β refere-se à **categoria de referência vs. a categoria exibida** (depois do one-hot com `drop='first'`).
     """)
 else:

 import numpy as np
 import pandas as pd
 import streamlit as st
+from pathlib import Path
 from sklearn.model_selection import train_test_split
 from sklearn.preprocessing import OneHotEncoder, StandardScaler
 # -----------------------------
 # Page config
 # -----------------------------
+st.set_page_config(
+    page_title="Churn – Regressão Logística (PPCA/UnB)",
+    layout="wide",
+    initial_sidebar_state="expanded"
+)
 st.title("Churn – Regressão Logística (PPCA/UnB)")
 st.caption("Item (a) – Modelagem da Retenção de Clientes e interpretação de coeficientes/odds ratio.")
 # -----------------------------
+# Data loader (cache) – robusto para HF Spaces
 # -----------------------------
 @st.cache_data
 def load_data():
+    from pathlib import Path
+    import pandas as _pd
+    # Candidate roots a varrer
+    roots = []
+    try:
+        roots.append(Path(__file__).parent)
+    except Exception:
+        pass
+    roots += [Path.cwd(), Path("."), Path("/home/user/app")]
+    # Caminhos explícitos rápidos
+    fast_candidates = [
+        Path("Dados/Churn_Modelling.csv"),
+        Path("./Dados/Churn_Modelling.csv"),
+        Path("/mnt/data/Dados/Churn_Modelling.csv"),
+        Path("Churn_Modelling.csv"),
+        Path("./Churn_Modelling.csv"),
     ]
+    # Função simples de "sniff" de delimitador
+    def _detect_sep(sample_lines):
+        if any(";" in line for line in sample_lines):
+            return ";"
+        if any("\t" in line for line in sample_lines):
+            return "\t"
+        return ","
+    # 1) Tentar candidatos explícitos
+    for pth in fast_candidates:
         try:
+            if pth.exists():
+                text = pth.read_text(encoding="utf-8", errors="ignore")
+                sample = text.splitlines()[:5]
+                sep = _detect_sep(sample)
+                df_ = _pd.read_csv(pth, sep=sep)
+                return df_, str(pth)
+        except Exception:
+            pass
+    # 2) Busca recursiva case-insensitive pelo nome
+    targets = []
+    for root in roots:
+        if root.exists():
+            for p in root.rglob("*"):
+                try:
+                    if p.is_file() and p.name.lower() == "churn_modelling.csv":
+                        targets.append(p)
+                except Exception:
+                    continue
+    # Preferir caminho dentro de 'Dados/'
+    targets.sort(
+        key=lambda p: (
+            0 if ("Dados" in str(p.parent) or "dados" in str(p.parent)) else 1,
+            len(str(p))
+        )
+    )
+    for pth in targets:
+        try:
+            text = pth.read_text(encoding="utf-8", errors="ignore")
+            sample = text.splitlines()[:5]
+            sep = _detect_sep(sample)
+            df_ = _pd.read_csv(pth, sep=sep)
+            return df_, str(pth)
+        except Exception:
             continue
+    # Não achou
+    return _pd.DataFrame(), "caminhos não encontrados"
 df, data_info = load_data()
 if df.empty:
+    st.error("Não foi possível carregar **Churn_Modelling.csv** nos caminhos padrão.")
+    with st.expander("Diagnóstico rápido", expanded=True):
+        st.write("**Caminho de trabalho atual (cwd):**", os.getcwd())
+        try:
+            st.write("**Arquivos na raiz:**", os.listdir("."))
+        except Exception as e:
+            st.write("Falha ao listar raiz:", e)
+        dados_dir = Path("Dados")
+        if dados_dir.exists():
+            try:
+                st.write("**Arquivos em `Dados/`:**", os.listdir(dados_dir))
+            except Exception as e:
+                st.write("Falha ao listar `Dados/`:", e)
+        st.caption(
+            "Se `Dados/Churn_Modelling.csv` não aparecer acima, suba o CSV para o repositório do Space "
+            "com exatamente esse caminho e nome (case-sensitive)."
+        )
+    st.info("**Alternativa:** faça upload do CSV abaixo para testar agora (não persiste no repositório).")
+    up = st.file_uploader("Envie Churn_Modelling.csv", type=["csv"])
+    if up is not None:
+        # Tentar separar por vírgula, depois ponto-e-vírgula e tab, se necessário
+        try:
+            df = pd.read_csv(up)
+        except Exception:
+            up.seek(0)
+            try:
+                df = pd.read_csv(up, sep=";")
+            except Exception:
+                up.seek(0)
+                df = pd.read_csv(up, sep="\t")
+        data_info = "via upload do usuário"
+    else:
+        st.stop()
 st.success(f"Dataset carregado de: `{data_info}`")
 # Target and candidate features (dataset padrão do Kaggle)
 # -----------------------------
 TARGET = "Exited"  # 1 = saiu, 0 = permaneceu
+candidates_num = [
+    c for c in [
+        "CreditScore", "Age", "Tenure", "Balance", "NumOfProducts",
+        "HasCrCard", "IsActiveMember", "EstimatedSalary"
+    ] if c in df.columns
+]
+candidates_cat = [c for c in ["Geography", "Gender"] if c in df.columns]
 # Sidebar: feature selection & model hyperparams
 st.sidebar.header("Configuração do Modelo")
+use_num = st.sidebar.multiselect(
+    "Variáveis numéricas",
+    options=candidates_num,
+    default=[c for c in ["Age", "Balance", "NumOfProducts", "IsActiveMember"] if c in candidates_num]
+)
+use_cat = st.sidebar.multiselect(
+    "Variáveis categóricas",
+    options=candidates_cat,
+    default=[c for c in ["Geography", "Gender"] if c in candidates_cat]
+)
 test_size = st.sidebar.slider("Proporção de teste", 0.1, 0.4, 0.2, 0.05)
 reg_strength = st.sidebar.slider("Força de regularização (C)", 0.05, 5.0, 1.0, 0.05)
 # Quick EDA block (compact)
 # -----------------------------
 st.subheader("Visão rápida do conjunto de dados")
+col_a, col_b = st.columns([2, 1])
 with col_a:
     st.dataframe(df.sample(min(10, len(df))), use_container_width=True)
 with col_b:
         ],
         remainder="drop"
     )
+    lr = LogisticRegression(
+        C=C, penalty="l2", solver="lbfgs",
+        max_iter=max_iter, class_weight=class_weight, n_jobs=None
+    )
     pipe = Pipeline(steps=[("prep", preprocess), ("clf", lr)])
     return pipe
     cw = "balanced" if class_balanced else None
     pipe = build_pipeline(use_num, use_cat, C=reg_strength, class_weight=cw, max_iter=max_iter)
+    X_train, X_test, y_train, y_test = train_test_split(
+        X, y, test_size=test_size, random_state=42, stratify=y
+    )
     pipe.fit(X_train, y_train)
     # -------------------------
     st.subheader("Coeficientes e Odds Ratio")
     st.write(
+        "Interpretação: mantendo as demais variáveis constantes, um aumento de uma unidade na variável "
+        "(ou mudança para a categoria indicada) multiplica as *odds* de churn por `e^β`. "
+        "Se `e^β > 1`, o risco de churn aumenta; se `< 1`, diminui."
     )
     st.dataframe(coef_table, use_container_width=True, height=380)
     # -------------------------
     st.subheader("Simulação: probabilidade de churn para um perfil de cliente")
     with st.expander("Abrir painel de controle do cliente", expanded=True):
         inputs = {}
         cols = st.columns(2)
             with cols[i % 2]:
                 vmin = float(np.nanmin(df[col])) if np.isfinite(df[col]).all() else 0.0
                 vmax = float(np.nanmax(df[col])) if np.isfinite(df[col]).all() else 1.0
+                vmean = float(np.nanmean(df[col])) if np.isfinite(df[col]).all() else (vmin + vmax) / 2.0
                 step = (vmax - vmin) / 100.0 if vmax > vmin else 1.0
+                inputs[col] = st.number_input(
+                    f"{col}", value=round(vmean, 2), step=step,
+                    min_value=vmin, max_value=vmax, format="%.2f"
+                )
         # Categorical controls
         for i, col in enumerate(use_cat):
     st.markdown("""
 - **Sinal de β**: positivo ⇒ aumenta as *odds* de churn; negativo ⇒ reduz.
 - **Magnitude**: valores maiores em módulo indicam maior impacto, dado o mesmo escalonamento.
+- **Odds Ratio `e^β`**: fator multiplicativo nas *odds*. Ex.: `e^β = 1,30` ⇒ as *odds* aumentam **30%**.
+- Em variáveis **categóricas**, o β refere-se à **categoria de referência vs. a categoria exibida**
+  (depois do one-hot com `drop='first'`).
     """)
 else: