Spaces:

brunaaaz
/

_ModelagemdeCancelamentodeReservascomMachineLearning_

Sleeping

App Files Files Community

brunaaaz commited on Nov 13, 2025

Commit

ce82fea

verified ·

1 Parent(s): a605cf7

Update app.py

Browse files

Files changed (1) hide show

app.py +51 -20

app.py CHANGED Viewed

@@ -30,7 +30,12 @@ st.set_page_config(
 # --- Título e Contexto ---
 st.title("🏨 Dashboard de Previsão de Cancelamento de Reservas")
 # --- Funções de Processamento (Otimizadas com Cache) ---
@@ -53,35 +58,27 @@ def preprocess_data(df):
     df_proc = df.copy()
     # 1. Tratamento de valores faltantes
-    # Preenche 'country' com a moda (mais comum)
     df_proc["country"].fillna(df_proc["country"].mode()[0], inplace=True)
-    # Para 'agent' e 'company', NaN significa "Não Aplicável" ou "Direto". Substituímos por 0.
     df_proc["agent"].fillna(0, inplace=True)
     df_proc["company"].fillna(0, inplace=True)
-    # Assume que NaN em 'children' significa 0 crianças.
     df_proc["children"].fillna(0, inplace=True)
     # 2. Tratamento de Outliers (simples, para performance)
-    # Remove 'adr' (Average Daily Rate) irrealista
     df_proc = df_proc[(df_proc["adr"] >= 0) & (df_proc["adr"] < 5000)]
     # 3. Engenharia de Features (simples)
-    # Cria 'total_stay' e 'total_guests'
     df_proc["total_stay"] = (
         df_proc["stays_in_weekend_nights"] + df_proc["stays_in_week_nights"]
     )
     df_proc["total_guests"] = (
         df_proc["adults"] + df_proc["children"] + df_proc["babies"]
     )
-    # Remove hóspedes com 0 pessoas (inválido)
     df_proc = df_proc[df_proc["total_guests"] > 0]
     # 4. Seleção de Variáveis (Baseado na Tarefa 3 - 8 a 15 features)
-    # Variável Alvo
     y = df_proc["is_canceled"]
-    # Features Numéricas
     numeric_features = [
         "lead_time",
         "total_stay",
@@ -94,7 +91,6 @@ def preprocess_data(df):
         "total_of_special_requests",
     ]
-    # Features Categóricas
     categorical_features = [
         "hotel",
         "market_segment",
@@ -104,7 +100,6 @@ def preprocess_data(df):
         "is_repeated_guest",
     ]
-    # Garante que todas as colunas existem
     all_features = numeric_features + categorical_features
     df_features = df_proc[all_features]
@@ -120,7 +115,7 @@ def get_model(algorithm, params):
     if algorithm == "Regressão Logística":
         model = LogisticRegression(
             C=params["C_rl"],
-            solver="liblinear",  # Bom para datasets menores e binários
             random_state=42,
             max_iter=1000,
         )
@@ -133,7 +128,7 @@ def get_model(algorithm, params):
             C=params["C_svm"],
             kernel=params["kernel"],
             gamma=params["gamma"] if params["kernel"] == "rbf" else "auto",
-            probability=True,  # Necessário para Curva ROC
             random_state=42,
         )
     return model
@@ -162,7 +157,6 @@ def plot_roc_curve(y_test, y_proba, auc):
 def plot_confusion_matrix(y_test, y_pred):
     """Plota a Matriz de Confusão usando Plotly."""
     cm = confusion_matrix(y_test, y_pred)
-    cm_text = [[str(y) for y in x] for x in cm]
     fig = px.imshow(
         cm,
@@ -274,6 +268,9 @@ if df_original is not None:
             # 2. Pré-processar
             X, y = preprocess_data(df_sample)
             # 3. Dividir (Train/Test)
             X_train, X_test, y_train, y_test = train_test_split(
@@ -281,6 +278,8 @@ if df_original is not None:
             )
             # 4. Escalonar (MUITO importante para KNN e SVM)
             scaler = StandardScaler()
             X_train_scaled = scaler.fit_transform(X_train)
             X_test_scaled = scaler.transform(X_test)
@@ -301,7 +300,6 @@ if df_original is not None:
             report = classification_report(y_test, y_pred, output_dict=True)
             report_df = pd.DataFrame(report).transpose()
-            # Extrai métricas específicas para classe 1 (Cancelamento)
             (
                 precision,
                 recall,
@@ -339,6 +337,42 @@ if df_original is not None:
             st.subheader("Relatório de Classificação Detalhado")
             st.dataframe(report_df.style.format("{:.3f}"))
             # --- Interpretação Gerencial Automática ---
             st.header("💡 Interpretação Gerencial e Recomendações")
@@ -348,7 +382,7 @@ if df_original is not None:
             if algorithm == "Regressão Logística":
                 st.markdown("""
                     **O que é?** Um modelo estatístico que calcula a *probabilidade* de cancelamento. É o modelo mais fácil de interpretar.
-                    **Ponto Forte (Interpretabilidade):** Podemos ver exatamente quais fatores (como `lead_time` ou `deposit_type`) mais aumentam ou diminuem as chances de cancelamento.
                     **Ponto Fraco:** Pode não capturar relações complexas entre as variáveis.
                 """)
             elif algorithm == "KNN":
@@ -390,9 +424,6 @@ if df_original is not None:
                 3.  **Para Eficiência Operacional (Maximizar a *Precisão*):**
                     * **Vencedor:** Geralmente **Regressão Logística** ou **SVM (linear)**.
                     * **Ação:** Se temos uma equipe de retenção pequena e cara (ex: ligações telefônicas), queremos ter certeza de que cada reserva sinalizada é *realmente* de alto risco. Priorizamos a **Precisão**.
-                **Recomendação Prática (Exemplo):**
-                "O modelo de Regressão Logística (AUC de ~0.85) mostrou que reservas do tipo 'Transient' (não-grupo) com `deposit_type` = 'Non Refund' e `lead_time` > 120 dias têm 70% mais chance de cancelar. Recomenda-se uma política de overbooking de 3% para esse segmento específico ou um contato proativo 60 dias antes do check-in."
             """)
 else:

 # --- Título e Contexto ---
 st.title("🏨 Dashboard de Previsão de Cancelamento de Reservas")
+st.markdown(
+    """
+**Sua Missão como Analista de Dados:**
+Você é analista de dados em uma rede internacional de hotéis. Sua missão é desenvolver e comparar três modelos preditivos (Regressão Logística, KNN e SVM) capazes de identificar antecipadamente as reservas com maior probabilidade de cancelamento. Esta ferramenta permite simular esse processo de forma interativa.
+"""
+)
 # --- Funções de Processamento (Otimizadas com Cache) ---
     df_proc = df.copy()
     # 1. Tratamento de valores faltantes
     df_proc["country"].fillna(df_proc["country"].mode()[0], inplace=True)
     df_proc["agent"].fillna(0, inplace=True)
     df_proc["company"].fillna(0, inplace=True)
     df_proc["children"].fillna(0, inplace=True)
     # 2. Tratamento de Outliers (simples, para performance)
     df_proc = df_proc[(df_proc["adr"] >= 0) & (df_proc["adr"] < 5000)]
     # 3. Engenharia de Features (simples)
     df_proc["total_stay"] = (
         df_proc["stays_in_weekend_nights"] + df_proc["stays_in_week_nights"]
     )
     df_proc["total_guests"] = (
         df_proc["adults"] + df_proc["children"] + df_proc["babies"]
     )
     df_proc = df_proc[df_proc["total_guests"] > 0]
     # 4. Seleção de Variáveis (Baseado na Tarefa 3 - 8 a 15 features)
+    # Esta seleção é manual para garantir performance e relevância
     y = df_proc["is_canceled"]
     numeric_features = [
         "lead_time",
         "total_stay",
         "total_of_special_requests",
     ]
     categorical_features = [
         "hotel",
         "market_segment",
         "is_repeated_guest",
     ]
     all_features = numeric_features + categorical_features
     df_features = df_proc[all_features]
     if algorithm == "Regressão Logística":
         model = LogisticRegression(
             C=params["C_rl"],
+            solver="liblinear",
             random_state=42,
             max_iter=1000,
         )
             C=params["C_svm"],
             kernel=params["kernel"],
             gamma=params["gamma"] if params["kernel"] == "rbf" else "auto",
+            probability=True,
             random_state=42,
         )
     return model
 def plot_confusion_matrix(y_test, y_pred):
     """Plota a Matriz de Confusão usando Plotly."""
     cm = confusion_matrix(y_test, y_pred)
     fig = px.imshow(
         cm,
             # 2. Pré-processar
             X, y = preprocess_data(df_sample)
+            # **NOVO**: Captura os nomes das features APÓS o get_dummies
+            feature_names = X.columns.tolist()
             # 3. Dividir (Train/Test)
             X_train, X_test, y_train, y_test = train_test_split(
             )
             # 4. Escalonar (MUITO importante para KNN e SVM)
+            # Nota: RL com 'liblinear' não precisa de escalonamento,
+            # mas vamos manter para consistência e performance.
             scaler = StandardScaler()
             X_train_scaled = scaler.fit_transform(X_train)
             X_test_scaled = scaler.transform(X_test)
             report = classification_report(y_test, y_pred, output_dict=True)
             report_df = pd.DataFrame(report).transpose()
             (
                 precision,
                 recall,
             st.subheader("Relatório de Classificação Detalhado")
             st.dataframe(report_df.style.format("{:.3f}"))
+            # --- [NOVA SEÇÃO ADICIONADA] ---
+            # Interpretação específica da Regressão Logística
+            if algorithm == "Regressão Logística":
+                st.subheader("Análise de Coeficientes (Interpretabilidade)")
+                # Captura coeficientes e odds ratios
+                coefs = model.coef_[0]
+                odds_ratios = np.exp(coefs)
+                df_coef = pd.DataFrame({
+                    'Variável': feature_names,
+                    'Coeficiente (Log-Odds)': coefs,
+                    'Odds Ratio (Razão de Chances)': odds_ratios
+                })
+                df_coef = df_coef.sort_values(by="Odds Ratio", ascending=False)
+                st.dataframe(df_coef.style.format({
+                    'Coeficiente (Log-Odds)': '{:.4f}',
+                    'Odds Ratio (Razão de Chances)': '{:.3f}'
+                }).background_gradient(
+                    cmap='RdBu_r',
+                    subset=['Odds Ratio', 'Coeficiente (Log-Odds)'])
+                )
+                st.markdown("""
+                **Como interpretar esta tabela:**
+                * **Odds Ratio > 1 (Azul):** Aumenta a chance de cancelamento.
+                    * *Exemplo: Se `lead_time` tem Odds Ratio de 1.02, cada dia extra de antecedência aumenta a chance de cancelar em 2%.*
+                * **Odds Ratio < 1 (Vermelho):** Diminui a chance de cancelamento (fator de proteção).
+                    * *Exemplo: Se `deposit_type_Non Refund` tem Odds Ratio de 0.20, ter um depósito não-reembolsável reduz a chance de cancelar em 80%.*
+                * **Odds Ratio = 1:** Não tem efeito.
+                """)
+            # --- [FIM DA NOVA SEÇÃO] ---
             # --- Interpretação Gerencial Automática ---
             st.header("💡 Interpretação Gerencial e Recomendações")
             if algorithm == "Regressão Logística":
                 st.markdown("""
                     **O que é?** Um modelo estatístico que calcula a *probabilidade* de cancelamento. É o modelo mais fácil de interpretar.
+                    **Ponto Forte (Interpretabilidade):** Como visto na tabela acima, podemos ver exatamente quais fatores (como `lead_time` ou `deposit_type`) mais aumentam ou diminuem as chances de cancelamento.
                     **Ponto Fraco:** Pode não capturar relações complexas entre as variáveis.
                 """)
             elif algorithm == "KNN":
                 3.  **Para Eficiência Operacional (Maximizar a *Precisão*):**
                     * **Vencedor:** Geralmente **Regressão Logística** ou **SVM (linear)**.
                     * **Ação:** Se temos uma equipe de retenção pequena e cara (ex: ligações telefônicas), queremos ter certeza de que cada reserva sinalizada é *realmente* de alto risco. Priorizamos a **Precisão**.
             """)
 else: