Spaces:

enzograndino
/

siep_04

Sleeping

App Files Files Community

enzograndino commited on Nov 20, 2025

Commit

2476bc2

verified ·

1 Parent(s): c4cf493

Update app.py

Browse files

Files changed (1) hide show

app.py +94 -82

app.py CHANGED Viewed

@@ -35,7 +35,7 @@ import lightgbm as lgb
 from sklearn.metrics import (roc_auc_score, precision_score, recall_score,
                              f1_score, confusion_matrix, roc_curve)
-# --- 0. Configuração da Página e Estado de Sessão ---
 st.set_page_config(
     page_title="Analytics de Reclamações | Tarefa 04",
@@ -62,7 +62,7 @@ if 'pipeline_results' not in st.session_state:
 if 'model_results' not in st.session_state:
     st.session_state['model_results'] = None
-# --- 1. Funções de Carga e Engenharia (Cache) ---
 @st.cache_data
 def load_and_engineer_data(file_path):
@@ -95,9 +95,9 @@ def load_and_engineer_data(file_path):
     return df
-# --- 2. Carregamento Automático (Obrigatório) ---
-st.sidebar.title("Painel de Controle 🔬")
 st.sidebar.header("1. Status dos Dados")
 local_file = 'marketing_campaign.csv'
@@ -120,7 +120,7 @@ if st.session_state['df'] is None:
 else:
     st.sidebar.success("Dados carregados e prontos.")
-# --- 2.2. Filtros Dinâmicos (Sidebar) ---
 if st.session_state['df'] is not None:
     df = st.session_state['df']
     st.sidebar.header("2. Filtros Dinâmicos")
@@ -147,13 +147,13 @@ if st.session_state['df'] is not None:
         st.session_state['df_filtered'] = df_f
         st.sidebar.info("Filtros aplicados!")
-# --- 2.3. Pré-processamento (Sidebar) ---
 st.sidebar.header("3. Pipeline de Pré-processamento")
 scaler_choice = st.sidebar.radio("Scaler (Numérico)", ["StandardScaler", "MinMaxScaler"], key='scaler')
 use_smote = st.sidebar.toggle("Aplicar SMOTE (Balanceamento)", value=True, key='smote')
 fs_choice = st.sidebar.radio("Seleção de Variáveis", ["RFE", "Por Importância (RandomForest)", "Manual"], key='fs')
-# --- 2.4. Modelagem (Sidebar) ---
 st.sidebar.header("4. Modelagem e Hiperparâmetros")
 with st.sidebar.expander("Selecionar Modelos"):
@@ -174,7 +174,7 @@ with st.sidebar.expander("Ajuste Fino (Sensibilidade)"):
     k_neighbors = st.slider("KNN: K-Neighbors", 1, 21, 5, step=2)
     rf_estimators = st.slider("Random Forest: N-Estimators", 50, 500, 100, step=50)
-# --- 3. Layout Principal (Abas) ---
 st.title("Plataforma de Analytics - Previsão de Reclamações (Tarefa 04)")
@@ -187,11 +187,11 @@ df_display = st.session_state['df_filtered']
 # Define as abas do dashboard
 tab1, tab2, tab3, tab4, tab5 = st.tabs([
-    "📥 1. Visão Geral dos Dados",
-    "🛠️ 2. Pipeline Interativo",
-    "🤖 3. Modelagem e Avaliação",
-    "🧠 4. Explicabilidade (XAI)",
-    "📄 5. Relatório Gerencial"
 ])
 # --- Aba 1: Carga e Análise Exploratória (EDA) ---
@@ -214,7 +214,7 @@ with tab1:
         st.metric("Taxa de Reclamação", f"{perc_reclamacao:.2f}%")
     # 1.2. Expander para Detalhes Técnicos
-    with st.expander("🔍 Ver Dicionário de Dados e Detalhes Técnicos (Tipos e Nulos)"):
         col_tech1, col_tech2 = st.columns(2)
         with col_tech1:
             st.write("**Contagem de Nulos:**")
@@ -228,13 +228,13 @@ with tab1:
     st.markdown("---")
-    # 1.3. Análise Visual Refinada (Atualizado)
     st.subheader("1.2. Análise Visual de Variáveis")
     st.caption("Entenda como as variáveis se comportam em relação às reclamações.")
     col_eda1, col_eda2 = st.columns(2)
     with col_eda1:
-        st.markdown("#### 🎯 Variável Alvo (Target)")
         # Preparação dos dados para a pizza
         df_pie = df_display.copy()
@@ -246,10 +246,10 @@ with tab1:
         fig_pie.update_layout(margin=dict(t=0, b=0, l=0, r=0), height=300)
         st.plotly_chart(fig_pie, use_container_width=True)
-        st.info("ℹ️ **Complain:** **1** = Cliente reclamou nos últimos 2 anos | **0** = Não reclamou.")
     with col_eda2:
-        st.markdown("#### 🔎 Inspetor de Variáveis")
         # Seletor de Variável Dinâmico
         cols_to_exclude = ['Complain', 'Legenda']
@@ -291,11 +291,11 @@ with tab1:
             """, unsafe_allow_html=True)
     # Preview de Dados
-    with st.expander("📋 Visualizar Tabela de Dados Brutos (Amostra)"):
         st.dataframe(df_display.head(10), use_container_width=True)
     # Correlação em Expander
-    with st.expander("📊 Ver Matriz de Correlação e Pairplot"):
         st.markdown("### 1. Mapa de Calor (Correlação)")
         st.info("""
         **O que é isso?** Mostra o quanto duas variáveis numéricas "andam juntas".
@@ -325,7 +325,7 @@ with tab1:
         # Adicionando a conclusão sobre o baixo número de cancelamentos
         st.warning("""
-        ⚠️ **Observação Importante:**
         Devido ao baixo número de reclamações (classe desbalanceada), pode ser difícil visualizar padrões claros nos gráficos de pares.
         A maioria dos pontos será azul (Não Reclamou), o que pode "esconder" os pontos vermelhos (Reclamou).
         Isso reforça a necessidade de usar técnicas como o **SMOTE** (balanceamento) na etapa de modelagem para que o algoritmo consiga aprender com esses poucos casos.
@@ -338,15 +338,15 @@ with tab1:
             fig_pair = sns.pairplot(df_sample[vars_present], hue='Complain' if 'Complain' in vars_present else None, diag_kind='kde')
             st.pyplot(fig_pair)
-# --- Aba 2: Pipeline Interativo ---
 with tab2:
     st.header("2. Pipeline de Pré-processamento Interativo")
     st.write("Configure o pipeline na barra lateral e clique em 'Executar' para processar os dados.")
     # --- Texto Explicativo sobre SMOTE ---
     st.markdown("""
-    ### ⚖️ O que é SMOTE e por que usar?
-    Como vimos na aba anterior, o dataset possui **menos de 1% de clientes que reclamaram**. Se treinarmos o modelo assim, ele ficará "preguiçoso" e dirá que ninguém vai reclamar, acertando 99% das vezes (Acurácia enganosa).
     **A Solução (SMOTE):**
     O *Synthetic Minority Over-sampling Technique* cria "clientes sintéticos" parecidos com os que reclamaram, equilibrando o jogo para que o modelo consiga aprender o padrão da reclamação.
@@ -458,12 +458,12 @@ with tab2:
         st.write("**Shape (Treino/Teste):**")
         st.code(f"Treino: {res['X_train_final'].shape}\nTeste:  {res['X_test_final'].shape}")
-# --- Aba 3: Modelagem e Avaliação ---
 with tab3:
     st.header("3. Treinamento e Avaliação Comparativa de Modelos")
     if not st.session_state['pipeline_results']:
-        st.warning("⚠️ Por favor, execute o 'Pipeline de Processamento' na Aba 2 primeiro.")
         st.stop()
     st.markdown("""
@@ -471,7 +471,7 @@ with tab3:
      **Objetivo:** Encontrar o equilíbrio entre não deixar passar nenhuma reclamação (Recall) e não gastar recursos com quem não ia reclamar (Precisão).
     """)
-    if st.button("🚀 Treinar Modelos Selecionados", key='run_models'):
         # Carregar dados do pipeline
         pipe_res = st.session_state['pipeline_results']
         X_train = pipe_res['X_train_final']
@@ -558,7 +558,7 @@ with tab3:
         st.divider()
         # 6. Seleção Automática do Melhor Modelo
-        st.subheader("🏆 Melhor Modelo Recomendado")
         if not df_metrics.empty:
             # Critério: F1-Score (Média harmônica) é o mais seguro para desbalanceados
@@ -583,51 +583,53 @@ with tab3:
         st.markdown("---")
         # 5. Tabela Comparativa
-        st.subheader("📊 Comparativo de Performance")
         st.markdown("""
         - **Recall (Sensibilidade):** De 100 clientes que reclamaram, quantos o modelo acertou? (Vital para não perder clientes).
-        - **Precision (Precisão):** Quando o modelo diz "vai reclamar", ele acerta quanto? (Vital para não gastar dinheiro à toa).
         """)
         st.dataframe(df_metrics.style.highlight_max(axis=0, color='lightgreen')
                                     .highlight_min(subset=['Tempo (s)'], color='lightgreen')
                                     .format("{:.4f}"))
-        # --- GRAFICO 1: ROC (Vertical) ---
-        st.subheader("Curvas ROC")
-        fig_roc = go.Figure()
-        for name, (fpr, tpr, auc) in res['rocs'].items():
-            fig_roc.add_trace(go.Scatter(x=fpr, y=tpr, name=f"{name} (AUC={auc:.3f})"))
-        fig_roc.add_shape(type='line', line=dict(dash='dash'), x0=0, x1=1, y0=0, y1=1)
-        fig_roc.update_layout(title="Capacidade de Distinção (ROC)", xaxis_title="Falsos Positivos", yaxis_title="Verdadeiros Positivos", height=400)
-        st.plotly_chart(fig_roc, use_container_width=True)
-        st.info("💡 **Interpretação:** Quanto mais a curva estiver no canto **superior esquerdo**, melhor o modelo consegue separar quem reclama de quem não reclama.")
-        st.divider() # Espaço entre os gráficos
-        # --- GRAFICO 2: Matriz de Confusão (Vertical) ---
-        st.subheader("Matriz de Confusão (Erros vs Acertos)")
-        if res['trained_models']:
-            model_to_show_cm = st.selectbox("Selecione um modelo para auditar:", res['trained_models'].keys())
-            metric_idx = [m['Modelo'] for m in res['metrics']].index(model_to_show_cm)
-            cm_data = res['metrics'][metric_idx]['CM']
-            fig_cm = px.imshow(cm_data, text_auto=True,
-                               labels=dict(x="O que o Modelo Previu", y="O que Realmente Aconteceu"),
-                               x=['Não Reclamou', 'Reclamou'],
-                               y=['Não Reclamou', 'Reclamou'],
-                               color_continuous_scale='Blues')
-            fig_cm.update_layout(title=f"Auditoria de Erros - {model_to_show_cm}", height=400)
-            st.plotly_chart(fig_cm, use_container_width=True)
-            st.markdown("""
-            <small>
-            <b>Como ler este gráfico de negócio:</b><br>
-            ↘️ <b>Acertos (Diagonal):</b> Clientes classificados corretamente.<br>
-            ↗️ <b>Falso Positivo (Alarme Falso):</b> Modelo disse que ia reclamar, mas cliente estava feliz. (Custo de contato desnecessário).<br>
-            ↙️ <b>Falso Negativo (Perigo!):</b> Modelo disse que estava tudo bem, mas <b>o cliente reclamou</b>. (Risco de perder o cliente).
-            </small>
-            """, unsafe_allow_html=True)
 # --- Aba 4: Explicabilidade (XAI) ---
 with tab4:
@@ -655,7 +657,7 @@ with tab4:
         st.session_state['top_features'] = importances.index.tolist()
         st.markdown("""
-        📊 **Como ler este gráfico (Feature Importance):**
         Este gráfico mostra quais variáveis foram mais "usadas" pelo modelo para tomar decisões.
         * **Barras maiores:** Significam que a variável é crítica para separar quem reclama de quem não reclama.
         * **Barras menores:** A variável tem pouca influência na decisão final.
@@ -674,7 +676,7 @@ with tab4:
         st.session_state['top_features'] = coefs.abs().nlargest(5).index.tolist()
         st.markdown("""
-        ⚖️ **Como ler este gráfico (Coeficientes):**
         * **Barras para a Direita (Positivas):** Aumentam a chance de Reclamação.
         * **Barras para a Esquerda (Negativas):** Diminuem a chance de Reclamação (protegem contra o churn).
         * **Tamanho:** Indica a força do impacto.
@@ -692,7 +694,7 @@ with tab4:
                 st.session_state['top_features'] = perm_imp.nlargest(5).index.tolist()
                 st.markdown("""
-                🔄 **Como ler este gráfico (Permutation Importance):**
                 Como o modelo não diz quais variáveis ele usa, fizemos um "teste de estresse": embaralhamos os dados de uma coluna por vez.
                 * Se a barra for **grande**, significa que o modelo errou muito quando bagunçamos essa variável -> Ela é **Importante**.
                 * Se a barra for **pequena**, o modelo nem ligou -> Ela é **Irrelevante**.
@@ -717,8 +719,6 @@ with tab4:
                     explainer = shap.TreeExplainer(model)
                     shap_values = explainer.shap_values(X_test_sample)
                 elif isinstance(model, (LogisticRegression, SVC)):
-                    # LinearExplainer para modelos lineares ou Kernel para outros
-                    # Para simplificar e garantir compatibilidade no dashboard:
                     explainer = shap.KernelExplainer(model.predict_proba, X_train_sample)
                     shap_values = explainer.shap_values(X_test_sample)
                 else:
@@ -726,34 +726,48 @@ with tab4:
                     explainer = shap.KernelExplainer(model.predict_proba, X_train_sample)
                     shap_values = explainer.shap_values(X_test_sample)
-                # Tratamento para saída do SHAP (alguns retornam lista para binário, outros array)
                 if isinstance(shap_values, list):
-                    # Pega a classe 1 (Reclamação)
                     shap_vals_target = shap_values[1]
                 else:
-                    # Se tiver 3 dimensoes (amostra, features, classes), pega a classe 1
                     if len(shap_values.shape) == 3:
                         shap_vals_target = shap_values[:, :, 1]
                     else:
                         shap_vals_target = shap_values
-                # Plotagem segura com Matplotlib no Streamlit
-                st.write("**Summary Plot**")
                 fig_shap, ax = plt.subplots()
                 shap.summary_plot(shap_vals_target, X_test_sample, plot_type="bar", show=False)
                 st.pyplot(fig_shap)
-                plt.close(fig_shap) # Limpa memória
-                st.write("**Beeswarm Plot**")
                 fig_beeswarm, ax = plt.subplots()
                 shap.summary_plot(shap_vals_target, X_test_sample, show=False)
                 st.pyplot(fig_beeswarm)
                 plt.close(fig_beeswarm)
             except Exception as e:
                 st.error(f"Erro ao gerar SHAP: {e}. Tente usar modelos baseados em árvore para melhor compatibilidade.")
-# --- Aba 5: Relatório Gerencial ---
 with tab5:
     st.header("8. Recomendação Gerencial Automática")
@@ -844,9 +858,7 @@ with tab5:
         A implementação das ações acima foca na **antecipação**. Sabendo quem vai reclamar (alta probabilidade)
         e por quê (fatores críticos), a empresa deixa de ser reativa (apagar incêndios no SAC) e passa a ser
         proativa (resolver a dor antes que ela vire uma reclamação).
-        Recomendamos monitorar a taxa de reclamação do grupo de controle vs. grupo impactado por estas ações
-        nos próximos 30 dias para mensurar o ROI do projeto.
         ================================================================================
         """

 from sklearn.metrics import (roc_auc_score, precision_score, recall_score,
                              f1_score, confusion_matrix, roc_curve)
+# 0. Configuração da Página e Estado de Sessão
 st.set_page_config(
     page_title="Analytics de Reclamações | Tarefa 04",
 if 'model_results' not in st.session_state:
     st.session_state['model_results'] = None
+# 1. Funções de Carga e Engenharia (Cache)
 @st.cache_data
 def load_and_engineer_data(file_path):
     return df
+# 2. Carregamento Automático (Obrigatório)
+st.sidebar.title("Painel de Controle ")
 st.sidebar.header("1. Status dos Dados")
 local_file = 'marketing_campaign.csv'
 else:
     st.sidebar.success("Dados carregados e prontos.")
+# 2.2. Filtros Dinâmicos (Sidebar)
 if st.session_state['df'] is not None:
     df = st.session_state['df']
     st.sidebar.header("2. Filtros Dinâmicos")
         st.session_state['df_filtered'] = df_f
         st.sidebar.info("Filtros aplicados!")
+# 2.3. Pré-processamento (Sidebar)
 st.sidebar.header("3. Pipeline de Pré-processamento")
 scaler_choice = st.sidebar.radio("Scaler (Numérico)", ["StandardScaler", "MinMaxScaler"], key='scaler')
 use_smote = st.sidebar.toggle("Aplicar SMOTE (Balanceamento)", value=True, key='smote')
 fs_choice = st.sidebar.radio("Seleção de Variáveis", ["RFE", "Por Importância (RandomForest)", "Manual"], key='fs')
+# 2.4. Modelagem (Sidebar)
 st.sidebar.header("4. Modelagem e Hiperparâmetros")
 with st.sidebar.expander("Selecionar Modelos"):
     k_neighbors = st.slider("KNN: K-Neighbors", 1, 21, 5, step=2)
     rf_estimators = st.slider("Random Forest: N-Estimators", 50, 500, 100, step=50)
+# 3. Layout Principal (Abas)
 st.title("Plataforma de Analytics - Previsão de Reclamações (Tarefa 04)")
 # Define as abas do dashboard
 tab1, tab2, tab3, tab4, tab5 = st.tabs([
+    " 1. Visão Geral dos Dados",
+    " 2. Pipeline Interativo",
+    " 3. Modelagem e Avaliação",
+    " 4. Explicabilidade (XAI)",
+    " 5. Relatório Gerencial"
 ])
 # --- Aba 1: Carga e Análise Exploratória (EDA) ---
         st.metric("Taxa de Reclamação", f"{perc_reclamacao:.2f}%")
     # 1.2. Expander para Detalhes Técnicos
+    with st.expander(" Ver Exemplo de Dicionário de Dados e Detalhes Técnicos (Tipos e Nulos)"):
         col_tech1, col_tech2 = st.columns(2)
         with col_tech1:
             st.write("**Contagem de Nulos:**")
     st.markdown("---")
+    # 1.3. Análise Visual Refinada
     st.subheader("1.2. Análise Visual de Variáveis")
     st.caption("Entenda como as variáveis se comportam em relação às reclamações.")
     col_eda1, col_eda2 = st.columns(2)
     with col_eda1:
+        st.markdown("####  Variável Alvo (Target)")
         # Preparação dos dados para a pizza
         df_pie = df_display.copy()
         fig_pie.update_layout(margin=dict(t=0, b=0, l=0, r=0), height=300)
         st.plotly_chart(fig_pie, use_container_width=True)
+        st.info(" **Complain:** **1** = Cliente reclamou nos últimos 2 anos | **0** = Não reclamou.")
     with col_eda2:
+        st.markdown("####  Inspetor de Variáveis")
         # Seletor de Variável Dinâmico
         cols_to_exclude = ['Complain', 'Legenda']
             """, unsafe_allow_html=True)
     # Preview de Dados
+    with st.expander(" Visualizar Tabela de Dados Brutos (Amostra)"):
         st.dataframe(df_display.head(10), use_container_width=True)
     # Correlação em Expander
+    with st.expander(" Ver Matriz de Correlação e Pairplot"):
         st.markdown("### 1. Mapa de Calor (Correlação)")
         st.info("""
         **O que é isso?** Mostra o quanto duas variáveis numéricas "andam juntas".
         # Adicionando a conclusão sobre o baixo número de cancelamentos
         st.warning("""
+         **Observação Importante:**
         Devido ao baixo número de reclamações (classe desbalanceada), pode ser difícil visualizar padrões claros nos gráficos de pares.
         A maioria dos pontos será azul (Não Reclamou), o que pode "esconder" os pontos vermelhos (Reclamou).
         Isso reforça a necessidade de usar técnicas como o **SMOTE** (balanceamento) na etapa de modelagem para que o algoritmo consiga aprender com esses poucos casos.
             fig_pair = sns.pairplot(df_sample[vars_present], hue='Complain' if 'Complain' in vars_present else None, diag_kind='kde')
             st.pyplot(fig_pair)
+# Aba 2: Pipeline Interativo
 with tab2:
     st.header("2. Pipeline de Pré-processamento Interativo")
     st.write("Configure o pipeline na barra lateral e clique em 'Executar' para processar os dados.")
     # --- Texto Explicativo sobre SMOTE ---
     st.markdown("""
+    ###  O que é SMOTE e por que usar?
+    Como vimos na aba anterior, o dataset possui **menos de 1% de clientes que reclamaram**. Se treinarmos o modelo assim, ele ficará "impreciso" e dirá que ninguém vai reclamar, acertando 99% das vezes (Acurácia enganosa).
     **A Solução (SMOTE):**
     O *Synthetic Minority Over-sampling Technique* cria "clientes sintéticos" parecidos com os que reclamaram, equilibrando o jogo para que o modelo consiga aprender o padrão da reclamação.
         st.write("**Shape (Treino/Teste):**")
         st.code(f"Treino: {res['X_train_final'].shape}\nTeste:  {res['X_test_final'].shape}")
+# Aba 3: Modelagem e Avaliação
 with tab3:
     st.header("3. Treinamento e Avaliação Comparativa de Modelos")
     if not st.session_state['pipeline_results']:
+        st.warning(" Por favor, execute o 'Pipeline de Processamento' na Aba 2 primeiro.")
         st.stop()
     st.markdown("""
      **Objetivo:** Encontrar o equilíbrio entre não deixar passar nenhuma reclamação (Recall) e não gastar recursos com quem não ia reclamar (Precisão).
     """)
+    if st.button(" Treinar Modelos Selecionados", key='run_models'):
         # Carregar dados do pipeline
         pipe_res = st.session_state['pipeline_results']
         X_train = pipe_res['X_train_final']
         st.divider()
         # 6. Seleção Automática do Melhor Modelo
+        st.subheader(" Melhor Modelo Recomendado")
         if not df_metrics.empty:
             # Critério: F1-Score (Média harmônica) é o mais seguro para desbalanceados
         st.markdown("---")
         # 5. Tabela Comparativa
+        st.subheader(" Comparativo de Performance")
         st.markdown("""
         - **Recall (Sensibilidade):** De 100 clientes que reclamaram, quantos o modelo acertou? (Vital para não perder clientes).
+        - **Precision (Precisão):** Quando o modelo diz "vai reclamar", ele acerta quanto?.
         """)
         st.dataframe(df_metrics.style.highlight_max(axis=0, color='lightgreen')
                                     .highlight_min(subset=['Tempo (s)'], color='lightgreen')
                                     .format("{:.4f}"))
+        col_charts1, col_charts2 = st.columns(2)
+        # Curvas ROC
+        with col_charts1:
+            st.subheader("Curvas ROC")
+            fig_roc = go.Figure()
+            for name, (fpr, tpr, auc) in res['rocs'].items():
+                fig_roc.add_trace(go.Scatter(x=fpr, y=tpr, name=f"{name} (AUC={auc:.3f})"))
+            fig_roc.add_shape(type='line', line=dict(dash='dash'), x0=0, x1=1, y0=0, y1=1)
+            fig_roc.update_layout(title="Capacidade de Distinção (ROC)", xaxis_title="Falsos Positivos", yaxis_title="Verdadeiros Positivos", height=400)
+            st.plotly_chart(fig_roc, use_container_width=True)
+            st.info(" **Interpretação:** Quanto mais a curva estiver no canto **superior esquerdo**, melhor o modelo consegue separar quem reclama de quem não reclama.")
+        # Matriz de Confusão
+        with col_charts2:
+            st.subheader("Matriz de Confusão (Erros vs Acertos)")
+            if res['trained_models']:
+                model_to_show_cm = st.selectbox("Selecione um modelo para auditar:", res['trained_models'].keys())
+                metric_idx = [m['Modelo'] for m in res['metrics']].index(model_to_show_cm)
+                cm_data = res['metrics'][metric_idx]['CM']
+                fig_cm = px.imshow(cm_data, text_auto=True,
+                                   labels=dict(x="O que o Modelo Previu", y="O que Realmente Aconteceu"),
+                                   x=['Não Reclamou', 'Reclamou'],
+                                   y=['Não Reclamou', 'Reclamou'],
+                                   color_continuous_scale='Blues')
+                fig_cm.update_layout(title=f"Auditoria de Erros - {model_to_show_cm}", height=400)
+                st.plotly_chart(fig_cm, use_container_width=True)
+                st.markdown("""
+                <small>
+                <b>Como ler este gráfico de negócio:</b><br>
+                ↘️ <b>Acertos (Diagonal):</b> Clientes classificados corretamente.<br>
+                ↗️ <b>Falso Positivo (Alarme Falso):</b> Modelo disse que ia reclamar, mas cliente estava feliz. (Custo de contato desnecessário).<br>
+                ↙️ <b>Falso Negativo (Perigo!):</b> Modelo disse que estava tudo bem, mas <b>o cliente reclamou</b>. (Risco de perder o cliente).
+                </small>
+                """, unsafe_allow_html=True)
 # --- Aba 4: Explicabilidade (XAI) ---
 with tab4:
         st.session_state['top_features'] = importances.index.tolist()
         st.markdown("""
+         **Como ler este gráfico (Feature Importance):**
         Este gráfico mostra quais variáveis foram mais "usadas" pelo modelo para tomar decisões.
         * **Barras maiores:** Significam que a variável é crítica para separar quem reclama de quem não reclama.
         * **Barras menores:** A variável tem pouca influência na decisão final.
         st.session_state['top_features'] = coefs.abs().nlargest(5).index.tolist()
         st.markdown("""
+         **Como ler este gráfico (Coeficientes):**
         * **Barras para a Direita (Positivas):** Aumentam a chance de Reclamação.
         * **Barras para a Esquerda (Negativas):** Diminuem a chance de Reclamação (protegem contra o churn).
         * **Tamanho:** Indica a força do impacto.
                 st.session_state['top_features'] = perm_imp.nlargest(5).index.tolist()
                 st.markdown("""
+                 **Como ler este gráfico (Permutation Importance):**
                 Como o modelo não diz quais variáveis ele usa, fizemos um "teste de estresse": embaralhamos os dados de uma coluna por vez.
                 * Se a barra for **grande**, significa que o modelo errou muito quando bagunçamos essa variável -> Ela é **Importante**.
                 * Se a barra for **pequena**, o modelo nem ligou -> Ela é **Irrelevante**.
                     explainer = shap.TreeExplainer(model)
                     shap_values = explainer.shap_values(X_test_sample)
                 elif isinstance(model, (LogisticRegression, SVC)):
                     explainer = shap.KernelExplainer(model.predict_proba, X_train_sample)
                     shap_values = explainer.shap_values(X_test_sample)
                 else:
                     explainer = shap.KernelExplainer(model.predict_proba, X_train_sample)
                     shap_values = explainer.shap_values(X_test_sample)
+                # Tratamento para saída do SHAP
                 if isinstance(shap_values, list):
                     shap_vals_target = shap_values[1]
                 else:
                     if len(shap_values.shape) == 3:
                         shap_vals_target = shap_values[:, :, 1]
                     else:
                         shap_vals_target = shap_values
+                # Plotagem 1: Summary Plot (Barra)
+                st.write("**1. Impacto Médio Absoluto (Summary Plot)**")
                 fig_shap, ax = plt.subplots()
                 shap.summary_plot(shap_vals_target, X_test_sample, plot_type="bar", show=False)
                 st.pyplot(fig_shap)
+                plt.close(fig_shap)
+                st.info("""
+                 **Interpretação:** Este gráfico mostra a **força média** de cada variável.
+                Variáveis no topo são as mais poderosas para mudar a opinião do modelo, não importa se aumentam ou diminuem o risco.
+                """)
+                # Plotagem 2: Beeswarm
+                st.write("**2. Detalhamento do Impacto (Beeswarm Plot)**")
                 fig_beeswarm, ax = plt.subplots()
                 shap.summary_plot(shap_vals_target, X_test_sample, show=False)
                 st.pyplot(fig_beeswarm)
                 plt.close(fig_beeswarm)
+                st.info("""
+                 **Como ler o Beeswarm (O gráfico mais rico do SHAP):**
+                * Cada **ponto** é um cliente.
+                * **Eixo X (Impacto):** Quanto mais para a **direita**, maior o risco de reclamação. Quanto mais para a **esquerda**, menor o risco.
+                * **Cor (Valor da Variável):** * 🔴 **Vermelho:** Valor Alto da variável (ex: Renda alta).
+                    * 🔵 **Azul:** Valor Baixo da variável (ex: Renda baixa).
+                **Exemplo de Leitura:** Se os pontos vermelhos de 'MntWines' estão todos na direita, significa que **gastar muito com vinho aumenta o risco de reclamação**.
+                """)
             except Exception as e:
                 st.error(f"Erro ao gerar SHAP: {e}. Tente usar modelos baseados em árvore para melhor compatibilidade.")
+# Aba 5: Relatório Gerencial
 with tab5:
     st.header("8. Recomendação Gerencial Automática")
         A implementação das ações acima foca na **antecipação**. Sabendo quem vai reclamar (alta probabilidade)
         e por quê (fatores críticos), a empresa deixa de ser reativa (apagar incêndios no SAC) e passa a ser
         proativa (resolver a dor antes que ela vire uma reclamação).
         ================================================================================
         """