Spaces:

252106862eder
/

churn

Sleeping

App Files Files Community

252106862eder commited on Oct 26, 2025

Commit

2760434

verified ·

1 Parent(s): 4248ee7

Update model_utils.py

Browse files

linha com erro remoção

Files changed (1) hide show

model_utils.py +30 -44

model_utils.py CHANGED Viewed

@@ -271,7 +271,7 @@ class ChurnModelPipeline:
             latex_story.append(NoEscape(sample_display_df.to_latex(index=False, caption='Características do Cliente Simulado', label='tab:sim_customer', longtable=False)))
             markdown_story.append(f"**Resultado da Simulação:** O cliente **{churn_status_sample}** (Probabilidade de Churn: **{prob_sample:.2%}**)\n")
-            # Corrigido o SyntaxWarning para '%' no f-string para LaTeX
             latex_story.append(NoEscape(f'\textbf{{Resultado da Simulação:}} O cliente \textbf{{{churn_status_sample}}} (Probabilidade de Churn: \textbf{{{prob_sample:.2f}\%}})\n\n'))
         else:
             markdown_story.append("Não foi possível realizar uma simulação pois o DataFrame de teste ou dados interativos não estão disponíveis.\n")
@@ -307,9 +307,9 @@ class ChurnModelPipeline:
             training_details_latex += fr'\item \textbf{{Dataset Carregado:}} {self.training_details.get("dataset_rows", "N/A")} linhas' + '\n'
             training_details_latex += fr'\item \textbf{{Features Preditivas:}} \texttt{{{", ".join(self.training_details.get("predictor_features", ["N/A"]))}}}.' + '\n'
             training_details_latex += fr'\item \textbf{{Coluna Alvo:}} \texttt{{{self.training_details.get("target_column", "N/A")}}}.' + '\n'
-            training_details_latex += fr'\item \textbf{{Shape $X_{{train}}$ (antes pré-processamento):}} {self.training_details.get("X_train_shape", "N/A")}.' + '\n' # $X_{train}$ corrigido
             training_details_latex += fr'\item \textbf{{Balanceamento \texttt{{Exited}} (antes SMOTE):}} Não Churn: {y_train_before_smote.get(0, "N/A")}, Churn: {y_train_before_smote.get(1, "N/A")}.' + '\n'
-            training_details_latex += fr'\item \textbf{{Shape $X_{{train}}$ (após pré-processamento):}} {self.training_details.get("X_train_processed_shape", "N/A")}.' + '\n' # $X_{train}$ corrigido
             training_details_latex += fr'\item \textbf{{Balanceamento \texttt{{Exited}} (após SMOTE):}} Não Churn: {y_train_after_smote.get(0, "N/A")}, Churn: {y_train_after_smote.get(1, "N/A")}.' + '\n'
             training_details_latex += fr'\item \textbf{{Modelo Treinado:}} {"Sim" if self.training_details.get("model_trained_successfully", False) else "Não"}.' + '\n'
             training_details_latex += r'\end{itemize}' + '\n\n'
@@ -337,7 +337,7 @@ class ChurnModelPipeline:
         latex_story.append(NoEscape(r'\end{itemize}' + '\n'))
         markdown_story.append("- **Balanceamento de Classes (SMOTE):** O conjunto de dados original apresentava desbalanceamento significativo na variável alvo (`Exited`). O algoritmo SMOTE (Synthetic Minority Over-sampling Technique) foi aplicado para gerar amostras sintéticas da classe minoritária (clientes que saem), garantindo que o modelo não seja viesado para a classe majoritária (clientes que permanecem).\n")
-        latex_story.append(NoEscape(r'\item \textbf{Balanceamento de Classes (SMOTE):} O conjunto de dados original apresentava desbalanceamento significativo na variável alvo (\texttt{Exited}). O algoritmo SMOTE (Synthetic Minority Over-sampling Technique) foi aplicado para gerar amostras sintéticas da classe minoritária (clientes que saem), garantindo que o modelo não seja viesado para a classe majoritária (clientes que permanecem).' + '\n'))
         markdown_story.append("- **Regularização (L2):** A Regressão Logística foi configurada com um parâmetro `C=0.1` (inverso da força de regularização), que aplica regularização L2. Isso ajuda a prevenir o overfitting, penalizando coeficientes grandes e promovendo um modelo mais generalizável.\n")
         latex_story.append(NoEscape(r'\item \textbf{Regularização (L2):} A Regressão Logística foi configurada com um parâmetro \texttt{C=0.1} (inverso da força de regularização), que aplica regularização L2. Isso ajuda a prevenir o overfitting, penalizando coeficientes grandes e promovendo um modelo mais generalizável.' + '\n'))
@@ -401,19 +401,19 @@ class ChurnModelPipeline:
             latex_story.append(NoEscape(r'\begin{itemize}' + '\n'))
             markdown_story.append(f"- **Acurácia ({self.metrics_dict.get('Acurácia', 0):.2%}):** Proporção de previsões corretas (tanto churn quanto não-churn) em relação ao total. Indica a precisão geral do modelo. Um valor de {self.metrics_dict.get('Acurácia', 0):.2%} significa que o modelo acertou essa porcentagem das vezes no conjunto de teste.\n")
-            latex_story.append(NoEscape(fr'\item \textbf{{Acurácia ({self.metrics_dict.get("Acurácia", 0):.2f}\%):}} Proporção de previsões corretas (tanto churn quanto não-churn) em relação ao total. Indica a precisão geral do modelo. Um valor de {self.metrics_dict.get("Acurácia", 0):.2f}\% significa que o modelo acertou essa porcentagem das vezes no conjunto de teste.' + '\n'))
             markdown_story.append(f"- **AUC ROC ({self.metrics_dict.get('AUC ROC', 0):.4f}):** A Área sob a Curva Característica de Operação do Receptor mede a capacidade do modelo de distinguir entre as classes. Um valor de 0.5 indica desempenho aleatório, enquanto 1.0 indica um classificador perfeito. Seu modelo obteve um AUC de **{self.metrics_dict.get('AUC ROC', 0):.4f}**.\n")
-            latex_story.append(NoEscape(fr'\item \textbf{{AUC ROC ({self.metrics_dict.get("AUC ROC", 0):.4f}):}} A Área sob a Curva Característica de Operação do Receptor mede a capacidade do modelo de distinguir entre as classes. Um valor de 0.5 indica desempenho aleatório, enquanto 1.0 indica um classificador perfeito. Seu modelo obteve um AUC de \textbf{{{self.metrics_dict.get("AUC ROC", 0):.4f}}}.' + '\n'))
             markdown_story.append(f"- **Precisão ({self.metrics_dict.get('Precisão', 0):.2%}):** Das previsões de churn (`1`), quantos realmente foram churn. É importante para o banco não abordar clientes que não iriam dar churn (reduzir falsos positivos). Um valor de {self.metrics_dict.get('Precisão', 0):.2%} significa que das vezes que o modelo previu churn, essa porcentagem estava correta.\n")
-            latex_story.append(NoEscape(fr'\item \textbf{{Precisão ({self.metrics_dict.get("Precisão", 0):.2f}\%):}} Das previsões de churn (\texttt{1}), quantos realmente foram churn. É importante para o banco não abordar clientes que não iriam dar churn (reduzir falsos positivos). Um valor de {self.metrics_dict.get("Precisão", 0):.2f}\% significa que das vezes que o modelo previu churn, essa porcentagem estava correta.' + '\n'))
             markdown_story.append(f"- **Recall (Sensibilidade) ({self.metrics_dict.get('Recall (Sensibilidade)', 0):.2%}):** Dos clientes que realmente deram churn (`1`), quantos o modelo identificou. É crucial para o banco identificar o máximo de clientes em risco (reduzir falsos negativos). Um valor de {self.metrics_dict.get('Recall (Sensibilidade)', 0):.2%} significa que essa porcentagem de clientes que de fato deram churn foi corretamente identificada pelo modelo.\n")
-            latex_story.append(NoEscape(fr'\item \textbf{{Recall (Sensibilidade) ({self.metrics_dict.get("Recall (Sensibilidade)", 0):.2f}\%):}} Dos clientes que realmente deram churn (\texttt{1}), quantos o modelo identificou. É crucial para o banco identificar o máximo de clientes em risco (reduzir falsos negativos). Um valor de {self.metrics_dict.get("Recall (Sensibilidade)", 0):.2f}\% significa que essa porcentagem de clientes que de fato deram churn foi corretamente identificada pelo modelo.' + '\n'))
             markdown_story.append(f"- **F1-Score ({self.metrics_dict.get('F1-Score', 0):.4f}):** É a média harmônica entre Precisão e Recall, útil quando há um desequilíbrio de classes e você precisa de um balanço entre identificar corretamente e não levantar falsos alarmes.\n")
-            latex_story.append(NoEscape(fr'\item \textbf{{F1-Score ({self.metrics_dict.get("F1-Score", 0):.4f}):}} É a média harmônica entre Precisão e Recall, útil quando há um desequilíbrio de classes e você precisa de um balanço entre identificar corretamente e não levantar falsos alarmes.' + '\n'))
             latex_story.append(NoEscape(r'\end{itemize}' + '\n\n'))
         else:
@@ -442,12 +442,6 @@ class ChurnModelPipeline:
         doc.append(Command('geometry', 'margin=1in')) # Margens de 1 polegada
         doc.append(Command('graphicspath', NoEscape(r'{./}'))) # Para imagens no mesmo diretório
-        # --- Cabeçalho Personalizado (com base nas informações do usuário) ---
-        # Removendo title, author, date pois o titlepage vai sobrescrevê-los
-        # doc.append(NoEscape(r'\title{MODELAGEM PREDITIVA DE CHURN DE CLIENTES BANCÁRIOS UTILIZANDO REGRESSÃO LOGÍSTICA}'))
-        # doc.append(NoEscape(r'\author{ÉDER MARCELO PONTES CUNHA}'))
-        # doc.append(NoEscape(r'\date{26 de Outubro de 2025}')) # Ajuste conforme necessário
         doc.append(NoEscape(r'\begin{titlepage}'))
         doc.append(Command('centering'))
@@ -477,39 +471,32 @@ class ChurnModelPipeline:
         doc.append(Command('vspace', '1.0cm'))
         # Título do Trabalho (do usuário, ajustado para LaTeX)
-        # Quebra de linha manual para o título
-        # CORRIGIDO: title_parts = header_info["titulo_trabalho"].replace('UTILIZANDO', r'\UTILIZANDO').split(r'\')
-        # AQUI FOI O ERRO DE SYNTAX. Deve ser assim:
-        title_parts_raw = header_info["titulo_trabalho"].replace(' UTILIZANDO ', r'\ \large ').split(r'\')
-        doc.append(Command('Huge'))
-        doc.append(Command('textbf', NoEscape(title_parts_raw[0]))) # Primeira parte do título
-        # As partes restantes são separadas por `\` que adicionamos
-        # Iterar sobre as partes restantes e adicionar com quebra de linha
-        # A lógica de split mudou para apenas quebrar em ' ' e adicionar o comando LaTeX manualmente
-        title_words = header_info["titulo_trabalho"].split()
         latex_title_lines = []
-        current_line = []
-        for word in title_words:
             if word == 'UTILIZANDO':
-                if current_line:
-                    latex_title_lines.append(" ".join(current_line))
-                    current_line = []
-                latex_title_lines.append(r'\ \large UTILIZANDO') # Comando LaTeX para quebra de linha e tamanho da fonte
             else:
-                current_line.append(word)
-        if current_line:
-            latex_title_lines.append(" ".join(current_line))
         doc.append(Command('Huge'))
-        doc.append(Command('textbf', NoEscape(latex_title_lines[0]))) # Primeira linha do título
-        for line_idx in range(1, len(latex_title_lines)):
-            doc.append(LineBreak())
-            # Se for a linha com 'UTILIZANDO', já está formatada, caso contrário, use textbf
-            if 'UTILIZANDO' in latex_title_lines[line_idx]:
-                 doc.append(NoEscape(latex_title_lines[line_idx]))
-            else:
-                 doc.append(Command('textbf', NoEscape(latex_title_lines[line_idx])))
         doc.append(Command('vspace', '1.0cm'))
@@ -532,7 +519,6 @@ class ChurnModelPipeline:
         doc.append(Command('vfill')) # Empurra o conteúdo para cima
         doc.append(Command('end{titlepage}'))
-        # doc.append(Command('maketitle')) # Não precisamos de maketitle pois usamos titlepage
         doc.append(Command('clearpage'))
         doc.append(Command('tableofcontents')) # Sumário
         doc.append(Command('clearpage'))

             latex_story.append(NoEscape(sample_display_df.to_latex(index=False, caption='Características do Cliente Simulado', label='tab:sim_customer', longtable=False)))
             markdown_story.append(f"**Resultado da Simulação:** O cliente **{churn_status_sample}** (Probabilidade de Churn: **{prob_sample:.2%}**)\n")
+            # Corrigido: 'prob_sample:.2f}\%' foi para '{prob_sample:.2f}\%\'
             latex_story.append(NoEscape(f'\textbf{{Resultado da Simulação:}} O cliente \textbf{{{churn_status_sample}}} (Probabilidade de Churn: \textbf{{{prob_sample:.2f}\%}})\n\n'))
         else:
             markdown_story.append("Não foi possível realizar uma simulação pois o DataFrame de teste ou dados interativos não estão disponíveis.\n")
             training_details_latex += fr'\item \textbf{{Dataset Carregado:}} {self.training_details.get("dataset_rows", "N/A")} linhas' + '\n'
             training_details_latex += fr'\item \textbf{{Features Preditivas:}} \texttt{{{", ".join(self.training_details.get("predictor_features", ["N/A"]))}}}.' + '\n'
             training_details_latex += fr'\item \textbf{{Coluna Alvo:}} \texttt{{{self.training_details.get("target_column", "N/A")}}}.' + '\n'
+            training_details_latex += fr'\item \textbf{{Shape $X_{{\text{train}}}$ (antes pré-processamento):}} {self.training_details.get("X_train_shape", "N/A")}.' + '\n' # $X_{\text{train}}$ corrigido para LaTeX
             training_details_latex += fr'\item \textbf{{Balanceamento \texttt{{Exited}} (antes SMOTE):}} Não Churn: {y_train_before_smote.get(0, "N/A")}, Churn: {y_train_before_smote.get(1, "N/A")}.' + '\n'
+            training_details_latex += fr'\item \textbf{{Shape $X_{{\text{train}}}$ (após pré-processamento):}} {self.training_details.get("X_train_processed_shape", "N/A")}.' + '\n' # $X_{\text{train}}$ corrigido para LaTeX
             training_details_latex += fr'\item \textbf{{Balanceamento \texttt{{Exited}} (após SMOTE):}} Não Churn: {y_train_after_smote.get(0, "N/A")}, Churn: {y_train_after_smote.get(1, "N/A")}.' + '\n'
             training_details_latex += fr'\item \textbf{{Modelo Treinado:}} {"Sim" if self.training_details.get("model_trained_successfully", False) else "Não"}.' + '\n'
             training_details_latex += r'\end{itemize}' + '\n\n'
         latex_story.append(NoEscape(r'\end{itemize}' + '\n'))
         markdown_story.append("- **Balanceamento de Classes (SMOTE):** O conjunto de dados original apresentava desbalanceamento significativo na variável alvo (`Exited`). O algoritmo SMOTE (Synthetic Minority Over-sampling Technique) foi aplicado para gerar amostras sintéticas da classe minoritária (clientes que saem), garantindo que o modelo não seja viesado para a classe majoritária (clientes que permanecem).\n")
+        latex_story.append(NoEscape(r'\item \textbf{Balanceamento de Classes (SMOTE):} O conjunto de dados original apresentava desbalanceamento significativo na variável alvo (\texttt{Exited}). O algoritmo SMOTE (Synthetic Minority Over-sampling Technique) foi aplicado para gerar amostras sintéticas da classe minoritária (clientes que saem), garantindo que o modelo não seja viesado para a classe majoritária (clientes que permanecem}.' + '\n')) # Corrigido fechamento de chave.
         markdown_story.append("- **Regularização (L2):** A Regressão Logística foi configurada com um parâmetro `C=0.1` (inverso da força de regularização), que aplica regularização L2. Isso ajuda a prevenir o overfitting, penalizando coeficientes grandes e promovendo um modelo mais generalizável.\n")
         latex_story.append(NoEscape(r'\item \textbf{Regularização (L2):} A Regressão Logística foi configurada com um parâmetro \texttt{C=0.1} (inverso da força de regularização), que aplica regularização L2. Isso ajuda a prevenir o overfitting, penalizando coeficientes grandes e promovendo um modelo mais generalizável.' + '\n'))
             latex_story.append(NoEscape(r'\begin{itemize}' + '\n'))
             markdown_story.append(f"- **Acurácia ({self.metrics_dict.get('Acurácia', 0):.2%}):** Proporção de previsões corretas (tanto churn quanto não-churn) em relação ao total. Indica a precisão geral do modelo. Um valor de {self.metrics_dict.get('Acurácia', 0):.2%} significa que o modelo acertou essa porcentagem das vezes no conjunto de teste.\n")
+            latex_story.append(NoEscape(fr'\item \textbf{{Acurácia ({self.metrics_dict.get("Acurácia", 0):.2f}\%)}}: Proporção de previsões corretas (tanto churn quanto não-churn) em relação ao total. Indica a precisão geral do modelo. Um valor de {self.metrics_dict.get("Acurácia", 0):.2f}\% significa que o modelo acertou essa porcentagem das vezes no conjunto de teste.' + '\n'))
             markdown_story.append(f"- **AUC ROC ({self.metrics_dict.get('AUC ROC', 0):.4f}):** A Área sob a Curva Característica de Operação do Receptor mede a capacidade do modelo de distinguir entre as classes. Um valor de 0.5 indica desempenho aleatório, enquanto 1.0 indica um classificador perfeito. Seu modelo obteve um AUC de **{self.metrics_dict.get('AUC ROC', 0):.4f}**.\n")
+            latex_story.append(NoEscape(fr'\item \textbf{{AUC ROC ({self.metrics_dict.get("AUC ROC", 0):.4f})}}: A Área sob a Curva Característica de Operação do Receptor mede a capacidade do modelo de distinguir entre as classes. Um valor de 0.5 indica desempenho aleatório, enquanto 1.0 indica um classificador perfeito. Seu modelo obteve um AUC de \textbf{{{self.metrics_dict.get("AUC ROC", 0):.4f}}}.' + '\n'))
             markdown_story.append(f"- **Precisão ({self.metrics_dict.get('Precisão', 0):.2%}):** Das previsões de churn (`1`), quantos realmente foram churn. É importante para o banco não abordar clientes que não iriam dar churn (reduzir falsos positivos). Um valor de {self.metrics_dict.get('Precisão', 0):.2%} significa que das vezes que o modelo previu churn, essa porcentagem estava correta.\n")
+            latex_story.append(NoEscape(fr'\item \textbf{{Precisão ({self.metrics_dict.get("Precisão", 0):.2f}\%)}}: Das previsões de churn (\texttt{1}), quantos realmente foram churn. É importante para o banco não abordar clientes que não iriam dar churn (reduzir falsos positivos). Um valor de {self.metrics_dict.get("Precisão", 0):.2f}\% significa que das vezes que o modelo previu churn, essa porcentagem estava correta.' + '\n'))
             markdown_story.append(f"- **Recall (Sensibilidade) ({self.metrics_dict.get('Recall (Sensibilidade)', 0):.2%}):** Dos clientes que realmente deram churn (`1`), quantos o modelo identificou. É crucial para o banco identificar o máximo de clientes em risco (reduzir falsos negativos). Um valor de {self.metrics_dict.get('Recall (Sensibilidade)', 0):.2%} significa que essa porcentagem de clientes que de fato deram churn foi corretamente identificada pelo modelo.\n")
+            latex_story.append(NoEscape(fr'\item \textbf{{Recall (Sensibilidade) ({self.metrics_dict.get("Recall (Sensibilidade)", 0):.2f}\%)}}: Dos clientes que realmente deram churn (\texttt{1}), quantos o modelo identificou. É crucial para o banco identificar o máximo de clientes em risco (reduzir falsos negativos). Um valor de {self.metrics_dict.get("Recall (Sensibilidade)", 0):.2f}\% significa que essa porcentagem de clientes que de fato deram churn foi corretamente identificada pelo modelo.' + '\n'))
             markdown_story.append(f"- **F1-Score ({self.metrics_dict.get('F1-Score', 0):.4f}):** É a média harmônica entre Precisão e Recall, útil quando há um desequilíbrio de classes e você precisa de um balanço entre identificar corretamente e não levantar falsos alarmes.\n")
+            latex_story.append(NoEscape(fr'\item \textbf{{F1-Score ({self.metrics_dict.get("F1-Score", 0):.4f})}}: É a média harmônica entre Precisão e Recall, útil quando há um desequilíbrio de classes e você precisa de um balanço entre identificar corretamente e não levantar falsos alarmes.' + '\n'))
             latex_story.append(NoEscape(r'\end{itemize}' + '\n\n'))
         else:
         doc.append(Command('geometry', 'margin=1in')) # Margens de 1 polegada
         doc.append(Command('graphicspath', NoEscape(r'{./}'))) # Para imagens no mesmo diretório
         doc.append(NoEscape(r'\begin{titlepage}'))
         doc.append(Command('centering'))
         doc.append(Command('vspace', '1.0cm'))
         # Título do Trabalho (do usuário, ajustado para LaTeX)
+        # CORRIGIDO: Esta lógica foi o problema do SyntaxError
+        # A nova lógica é mais robusta e não usa raw string literal no split problemático
         latex_title_lines = []
+        current_line_parts = []
+        words = header_info["titulo_trabalho"].split()
+        for word in words:
             if word == 'UTILIZANDO':
+                if current_line_parts:
+                    latex_title_lines.append(" ".join(current_line_parts))
+                    current_line_parts = []
+                latex_title_lines.append(r'\ \large UTILIZANDO') # LaTeX line break and large font size
             else:
+                current_line_parts.append(word)
+        if current_line_parts:
+            latex_title_lines.append(" ".join(current_line_parts))
         doc.append(Command('Huge'))
+        if latex_title_lines:
+            doc.append(Command('textbf', NoEscape(latex_title_lines[0])))
+            for line_idx in range(1, len(latex_title_lines)):
+                doc.append(LineBreak())
+                if '\large' in latex_title_lines[line_idx]: # Check for the large font command
+                    doc.append(NoEscape(latex_title_lines[line_idx]))
+                else:
+                    doc.append(Command('textbf', NoEscape(latex_title_lines[line_idx])))
         doc.append(Command('vspace', '1.0cm'))
         doc.append(Command('vfill')) # Empurra o conteúdo para cima
         doc.append(Command('end{titlepage}'))
         doc.append(Command('clearpage'))
         doc.append(Command('tableofcontents')) # Sumário
         doc.append(Command('clearpage'))