Spaces:

FernandezUNB
/

tarefa6EADI

Sleeping

App Files Files Community

FernandezUNB commited on Nov 2, 2025

Commit

3ff929c

verified ·

1 Parent(s): b75feac

Update app.py

Browse files

Files changed (1) hide show

app.py +110 -82

app.py CHANGED Viewed

@@ -39,7 +39,7 @@ class ConsumerComplaintAnalyzer:
         if file_obj is None:
             return None, {}
         try:
-            df_preview = pd.read_csv(file_obj.name, sep='\t').head()
             df_full = pd.read_csv(file_obj.name, sep='\t')
             stats = {
@@ -109,7 +109,7 @@ class ConsumerComplaintAnalyzer:
     def create_complaint_distribution(self):
         """Cria gráfico de distribuição de queixas"""
         if self.df is None:
-            return None
         complain_counts = self.df['Complain'].value_counts()
@@ -146,14 +146,17 @@ class ConsumerComplaintAnalyzer:
     def create_correlation_heatmap(self, selected_variables):
         """Cria heatmap de correlação"""
-        if self.df_processed is None or not selected_variables:
-            return None
         # Verificar quais variáveis existem no dataframe
         available_vars = [var for var in selected_variables if var in self.df_processed.columns]
         if not available_vars:
-            return None
         corr_matrix = self.df_processed[available_vars].corr()
@@ -163,13 +166,16 @@ class ConsumerComplaintAnalyzer:
                        color_continuous_scale='RdBu_r',
                        title="Matriz de Correlação")
-        fig.update_layout(height=600)
         return fig
     def create_bivariate_analysis(self, variable):
         """Análise bivariada entre uma variável e queixas"""
-        if self.df_processed is None or variable not in self.df_processed.columns:
-            return None
         fig = px.box(self.df_processed, x='Complain', y=variable,
                     color='Complain',
@@ -179,6 +185,17 @@ class ConsumerComplaintAnalyzer:
         fig.update_layout(height=400)
         return fig
     def train_models(self, selected_features, test_size, use_smote):
         """Treina os modelos de machine learning"""
         try:
@@ -229,6 +246,8 @@ class ConsumerComplaintAnalyzer:
             # Armazenar para uso posterior
             self.X_test_scaled = X_test_scaled
             self.y_test = y_test
             # Balanceamento com SMOTE
             if use_smote:
@@ -241,11 +260,12 @@ class ConsumerComplaintAnalyzer:
             models = {
                 'Regressão Logística': LogisticRegression(random_state=42, max_iter=1000),
                 'Árvore de Decisão': DecisionTreeClassifier(random_state=42, max_depth=10),
-                'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
-                'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42)
             }
             results = []
             for name, model in models.items():
                 model.fit(X_train_balanced, y_train_balanced)
@@ -287,6 +307,9 @@ class ConsumerComplaintAnalyzer:
                     'ROC-AUC': round(roc_auc, 4)
                 })
                 # Importância das features (para modelos que suportam)
                 if hasattr(model, 'feature_importances_'):
                     self.feature_importance = pd.DataFrame({
@@ -295,10 +318,10 @@ class ConsumerComplaintAnalyzer:
                     }).sort_values('Importance', ascending=False)
             self.results_df = pd.DataFrame(results)
-            self.models = models
             self.is_trained = True
-            return "✅ Modelos treinados com sucesso!"
         except Exception as e:
             return f"❌ Erro no treinamento: {str(e)}"
@@ -306,7 +329,7 @@ class ConsumerComplaintAnalyzer:
     def create_model_comparison(self):
         """Cria gráfico de comparação de modelos"""
         if self.results_df is None:
-            return None
         fig = go.Figure()
@@ -337,14 +360,7 @@ class ConsumerComplaintAnalyzer:
     def create_feature_importance(self):
         """Cria gráfico de importância das features"""
         if self.feature_importance is None:
-            # Criar um gráfico placeholder
-            fig = go.Figure()
-            fig.add_annotation(text="Treine os modelos primeiro para ver a importância das features",
-                              xref="paper", yref="paper",
-                              x=0.5, y=0.5, xanchor='center', yanchor='middle',
-                              showarrow=False)
-            fig.update_layout(height=400)
-            return fig
         top_features = self.feature_importance.head(15)
@@ -363,15 +379,8 @@ class ConsumerComplaintAnalyzer:
     def create_roc_curves(self):
         """Cria curvas ROC para todos os modelos"""
-        if not self.is_trained or self.X_test_scaled is None:
-            # Criar um gráfico placeholder
-            fig = go.Figure()
-            fig.add_annotation(text="Treine os modelos primeiro para ver as curvas ROC",
-                              xref="paper", yref="paper",
-                              x=0.5, y=0.5, xanchor='center', yanchor='middle',
-                              showarrow=False)
-            fig.update_layout(height=400)
-            return fig
         fig = go.Figure()
@@ -384,9 +393,8 @@ class ConsumerComplaintAnalyzer:
         ))
         # Para cada modelo, adicionar curva ROC
-        for name, model in self.models.items():
-            if hasattr(model, 'predict_proba'):
-                y_proba = model.predict_proba(self.X_test_scaled)[:, 1]
                 fpr, tpr, _ = roc_curve(self.y_test, y_proba)
                 roc_auc = roc_auc_score(self.y_test, y_proba)
@@ -425,7 +433,7 @@ def create_analysis_interface():
                         load_status = gr.Textbox(label="Status", interactive=False)
                     with gr.Column():
-                        data_preview = gr.Dataframe(label="Pré-visualização dos Dados", max_rows=5)
                         stats_display = gr.JSON(label="Estatísticas do Dataset")
                 # Conectar eventos
@@ -444,32 +452,35 @@ def create_analysis_interface():
             with gr.TabItem("📈 Análise Exploratória"):
                 with gr.Row():
                     with gr.Column():
-                        dist_plot = gr.Plot(label="Distribuição de Queixas")
-                        update_dist_btn = gr.Button("🔄 Atualizar Gráfico de Distribuição")
                     with gr.Column():
                         corr_vars = gr.CheckboxGroup(
                             choices=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                    'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                    'Recency', 'NumWebVisitsMonth', 'Total_Campaigns_Accepted'],
-                            label="Variáveis para Correlação",
                             value=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                  'Customer_Years', 'Total_Children', 'Average_Purchase_Value', 'Complain']
                         )
-                        corr_plot = gr.Plot(label="Matriz de Correlação")
-                        update_corr_btn = gr.Button("🔄 Atualizar Correlações")
                 with gr.Row():
                     with gr.Column():
                         bivariate_var = gr.Dropdown(
                             choices=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                    'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                    'Recency', 'NumWebVisitsMonth'],
-                            label="Variável para Análise Bivariada",
                             value='Income'
                         )
-                        bivariate_plot = gr.Plot(label="Análise Bivariada")
-                        update_bivariate_btn = gr.Button("🔄 Atualizar Análise Bivariada")
                 # Conectar botões
                 update_dist_btn.click(
@@ -492,31 +503,35 @@ def create_analysis_interface():
             with gr.TabItem("🤖 Modelagem Preditiva"):
                 with gr.Row():
                     with gr.Column():
                         feature_selection = gr.CheckboxGroup(
                             choices=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                    'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                    'Recency', 'NumWebVisitsMonth', 'Total_Campaigns_Accepted'],
-                            label="Selecionar Features para o Modelo",
                             value=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                  'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                  'Recency', 'NumWebVisitsMonth', 'Total_Campaigns_Accepted']
                         )
-                        test_size = gr.Slider(10, 40, value=20, label="Tamanho do Teste (%)")
-                        use_smote = gr.Checkbox(value=True, label="Usar SMOTE para Balanceamento")
                         train_btn = gr.Button("🎯 Treinar Modelos", variant="primary")
                         train_status = gr.Textbox(label="Status do Treinamento")
                     with gr.Column():
-                        model_results = gr.Dataframe(label="Resultados dos Modelos")
-                        model_comparison = gr.Plot(label="Comparação de Modelos")
                 with gr.Row():
                     with gr.Column():
-                        feature_importance_plot = gr.Plot(label="Importância das Features")
                     with gr.Column():
-                        roc_plot = gr.Plot(label="Curvas ROC")
                 # Conectar botão de treinamento
                 train_btn.click(
@@ -548,22 +563,24 @@ def create_analysis_interface():
             with gr.TabItem("📋 Relatório e Insights"):
                 with gr.Row():
                     with gr.Column():
                         insights_text = gr.Textbox(
-                            label="Principais Insights",
-                            lines=10,
                             interactive=False
                         )
-                        generate_insights_btn = gr.Button("💡 Gerar Insights")
                     with gr.Column():
                         recommendations = gr.Textbox(
-                            label="Recomendações Estratégicas",
-                            lines=10,
                             interactive=False
                         )
-                        generate_recommendations_btn = gr.Button("🎯 Gerar Recomendações")
                 def generate_insights():
                     if analyzer.df is None:
@@ -576,9 +593,10 @@ def create_analysis_interface():
 • **Total de Clientes Analisados:** {total_customers:,}
 • **Taxa de Queixas:** {complaint_rate:.2f}%
-• **Problema de Classificação:** {'Desbalanceado' if complaint_rate < 5 else 'Balanceado'}
-🔍 **Padrões Identificados:**"""
                     if analyzer.feature_importance is not None:
                         top_features = analyzer.feature_importance.head(3)['Feature'].tolist()
@@ -586,40 +604,50 @@ def create_analysis_interface():
                     if analyzer.results_df is not None:
                         best_model = analyzer.results_df.loc[analyzer.results_df['ROC-AUC'].idxmax()]
-                        insights += f"\n• **Melhor Modelo:** {best_model['Modelo']} (AUC: {best_model['ROC-AUC']:.3f})"
-                    insights += "\n\n📈 **Interpretação:**"
-                    insights += "\n• Valores de AUC > 0.7 indicam bom poder preditivo"
-                    insights += "\n• Features importantes revelam padrões comportamentais"
-                    insights += "\n• Modelos ensemble geralmente performam melhor"
                     return insights
                 def generate_recommendations():
                     return """🎯 **RECOMENDAÇÕES ESTRATÉGICAS:**
-🚨 **Ações Imediatas:**
-• Implementar sistema de early warning para clientes de alto risco
-• Criar segmentação baseada nas variáveis mais importantes
-• Desenvolver campanhas proativas para grupos específicos
-📈 **Otimizações de Longo Prazo:**
-• Integrar modelo preditivo ao CRM
-• Estabelecer métricas de monitoramento contínuo
-• Realizar treinamentos regulares da equipe
-💡 **Sugestões Específicas:**
-• Monitorar clientes com alta recência
-• Acompanhar mudanças abruptas no padrão de gastos
-• Desenvolver programas de fidelidade segmentados
-• Implementar contato proativo para clientes de alto risco
-📊 **Métricas de Sucesso:**
-• Redução na taxa de queixas
-• Aumento na satisfação do cliente
-• Melhoria no tempo de resposta
-��� Otimização de recursos de atendimento"""
                 generate_insights_btn.click(
                     fn=generate_insights,
                     outputs=[insights_text]
@@ -631,7 +659,7 @@ def create_analysis_interface():
                 )
         gr.Markdown("---")
-        gr.Markdown("**Desenvolvido para PPCA/UnB - AEDI - Tarefa 6**")
     return demo

         if file_obj is None:
             return None, {}
         try:
+            df_preview = pd.read_csv(file_obj.name, sep='\t').head(5)
             df_full = pd.read_csv(file_obj.name, sep='\t')
             stats = {
     def create_complaint_distribution(self):
         """Cria gráfico de distribuição de queixas"""
         if self.df is None:
+            return self._create_placeholder_plot("Carregue os dados primeiro")
         complain_counts = self.df['Complain'].value_counts()
     def create_correlation_heatmap(self, selected_variables):
         """Cria heatmap de correlação"""
+        if self.df_processed is None:
+            return self._create_placeholder_plot("Carregue os dados primeiro")
+        if not selected_variables:
+            return self._create_placeholder_plot("Selecione variáveis para análise")
         # Verificar quais variáveis existem no dataframe
         available_vars = [var for var in selected_variables if var in self.df_processed.columns]
         if not available_vars:
+            return self._create_placeholder_plot("Nenhuma variável válida selecionada")
         corr_matrix = self.df_processed[available_vars].corr()
                        color_continuous_scale='RdBu_r',
                        title="Matriz de Correlação")
+        fig.update_layout(height=500)
         return fig
     def create_bivariate_analysis(self, variable):
         """Análise bivariada entre uma variável e queixas"""
+        if self.df_processed is None:
+            return self._create_placeholder_plot("Carregue os dados primeiro")
+        if variable not in self.df_processed.columns:
+            return self._create_placeholder_plot(f"Variável '{variable}' não encontrada")
         fig = px.box(self.df_processed, x='Complain', y=variable,
                     color='Complain',
         fig.update_layout(height=400)
         return fig
+    def _create_placeholder_plot(self, message):
+        """Cria um gráfico placeholder com mensagem"""
+        fig = go.Figure()
+        fig.add_annotation(text=message,
+                          xref="paper", yref="paper",
+                          x=0.5, y=0.5, xanchor='center', yanchor='middle',
+                          showarrow=False,
+                          font=dict(size=16))
+        fig.update_layout(height=400)
+        return fig
     def train_models(self, selected_features, test_size, use_smote):
         """Treina os modelos de machine learning"""
         try:
             # Armazenar para uso posterior
             self.X_test_scaled = X_test_scaled
             self.y_test = y_test
+            self.scaler = scaler
+            self.features_to_use = features_to_use
             # Balanceamento com SMOTE
             if use_smote:
             models = {
                 'Regressão Logística': LogisticRegression(random_state=42, max_iter=1000),
                 'Árvore de Decisão': DecisionTreeClassifier(random_state=42, max_depth=10),
+                'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42, max_depth=15),
+                'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42, max_depth=5)
             }
             results = []
+            self.predictions = {}
             for name, model in models.items():
                 model.fit(X_train_balanced, y_train_balanced)
                     'ROC-AUC': round(roc_auc, 4)
                 })
+                self.predictions[name] = (y_pred, y_proba)
+                self.models[name] = model
                 # Importância das features (para modelos que suportam)
                 if hasattr(model, 'feature_importances_'):
                     self.feature_importance = pd.DataFrame({
                     }).sort_values('Importance', ascending=False)
             self.results_df = pd.DataFrame(results)
             self.is_trained = True
+            best_model = self.results_df.loc[self.results_df['ROC-AUC'].idxmax()]
+            return f"✅ Modelos treinados com sucesso! Melhor modelo: {best_model['Modelo']} (AUC: {best_model['ROC-AUC']:.3f})"
         except Exception as e:
             return f"❌ Erro no treinamento: {str(e)}"
     def create_model_comparison(self):
         """Cria gráfico de comparação de modelos"""
         if self.results_df is None:
+            return self._create_placeholder_plot("Treine os modelos primeiro")
         fig = go.Figure()
     def create_feature_importance(self):
         """Cria gráfico de importância das features"""
         if self.feature_importance is None:
+            return self._create_placeholder_plot("Treine os modelos primeiro para ver a importância das features")
         top_features = self.feature_importance.head(15)
     def create_roc_curves(self):
         """Cria curvas ROC para todos os modelos"""
+        if not self.is_trained or not hasattr(self, 'predictions'):
+            return self._create_placeholder_plot("Treine os modelos primeiro para ver as curvas ROC")
         fig = go.Figure()
         ))
         # Para cada modelo, adicionar curva ROC
+        for name, (_, y_proba) in self.predictions.items():
+            if y_proba is not None:
                 fpr, tpr, _ = roc_curve(self.y_test, y_proba)
                 roc_auc = roc_auc_score(self.y_test, y_proba)
                         load_status = gr.Textbox(label="Status", interactive=False)
                     with gr.Column():
+                        data_preview = gr.Dataframe(label="Pré-visualização dos Dados (Primeiras 5 linhas)")
                         stats_display = gr.JSON(label="Estatísticas do Dataset")
                 # Conectar eventos
             with gr.TabItem("📈 Análise Exploratória"):
                 with gr.Row():
                     with gr.Column():
+                        gr.Markdown("### Distribuição de Queixas")
+                        dist_plot = gr.Plot()
+                        update_dist_btn = gr.Button("🔄 Atualizar Distribuição")
                     with gr.Column():
+                        gr.Markdown("### Análise de Correlação")
                         corr_vars = gr.CheckboxGroup(
                             choices=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                    'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                    'Recency', 'NumWebVisitsMonth', 'Total_Campaigns_Accepted'],
+                            label="Selecione variáveis para análise de correlação:",
                             value=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                  'Customer_Years', 'Total_Children', 'Average_Purchase_Value', 'Complain']
                         )
+                        corr_plot = gr.Plot()
+                        update_corr_btn = gr.Button("🔄 Atualizar Correlação")
                 with gr.Row():
                     with gr.Column():
+                        gr.Markdown("### Análise Bivariada")
                         bivariate_var = gr.Dropdown(
                             choices=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                    'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                    'Recency', 'NumWebVisitsMonth'],
+                            label="Selecione uma variável para análise:",
                             value='Income'
                         )
+                        bivariate_plot = gr.Plot()
+                        update_bivariate_btn = gr.Button("🔄 Atualizar Análise")
                 # Conectar botões
                 update_dist_btn.click(
             with gr.TabItem("🤖 Modelagem Preditiva"):
                 with gr.Row():
                     with gr.Column():
+                        gr.Markdown("### Configuração do Modelo")
                         feature_selection = gr.CheckboxGroup(
                             choices=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                    'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                    'Recency', 'NumWebVisitsMonth', 'Total_Campaigns_Accepted'],
+                            label="Selecione features para o modelo:",
                             value=['Age', 'Income', 'Total_Spent', 'Total_Purchases',
                                  'Customer_Years', 'Total_Children', 'Average_Purchase_Value',
                                  'Recency', 'NumWebVisitsMonth', 'Total_Campaigns_Accepted']
                         )
+                        test_size = gr.Slider(10, 40, value=20, label="Tamanho do conjunto de teste (%)")
+                        use_smote = gr.Checkbox(value=True, label="Usar SMOTE para balanceamento de dados")
                         train_btn = gr.Button("🎯 Treinar Modelos", variant="primary")
                         train_status = gr.Textbox(label="Status do Treinamento")
                     with gr.Column():
+                        gr.Markdown("### Resultados dos Modelos")
+                        model_results = gr.Dataframe(label="Métricas de Desempenho")
+                        model_comparison = gr.Plot(label="Comparação Visual dos Modelos")
                 with gr.Row():
                     with gr.Column():
+                        gr.Markdown("### Importância das Features")
+                        feature_importance_plot = gr.Plot()
                     with gr.Column():
+                        gr.Markdown("### Curvas ROC")
+                        roc_plot = gr.Plot()
                 # Conectar botão de treinamento
                 train_btn.click(
             with gr.TabItem("📋 Relatório e Insights"):
                 with gr.Row():
                     with gr.Column():
+                        gr.Markdown("### Insights da Análise")
                         insights_text = gr.Textbox(
+                            label="Principais Descobertas",
+                            lines=12,
                             interactive=False
                         )
+                        generate_insights_btn = gr.Button("💡 Gerar Insights", variant="secondary")
                     with gr.Column():
+                        gr.Markdown("### Recomendações Estratégicas")
                         recommendations = gr.Textbox(
+                            label="Ações Recomendadas",
+                            lines=12,
                             interactive=False
                         )
+                        generate_recommendations_btn = gr.Button("🎯 Gerar Recomendações", variant="secondary")
                 def generate_insights():
                     if analyzer.df is None:
 • **Total de Clientes Analisados:** {total_customers:,}
 • **Taxa de Queixas:** {complaint_rate:.2f}%
+• **Problema de Classificação:** {'DESBALANCEADO' if complaint_rate < 5 else 'Balanceado'}
+• **Complexidade:** {'Alta (múltiplos fatores)' if complaint_rate > 1 else 'Média'}
+🔍 **PADRÕES IDENTIFICADOS:**"""
                     if analyzer.feature_importance is not None:
                         top_features = analyzer.feature_importance.head(3)['Feature'].tolist()
                     if analyzer.results_df is not None:
                         best_model = analyzer.results_df.loc[analyzer.results_df['ROC-AUC'].idxmax()]
+                        insights += f"\n• **Melhor Modelo:** {best_model['Modelo']}"
+                        insights += f"\n• **Desempenho (AUC):** {best_model['ROC-AUC']:.3f}"
+                    insights += "\n\n📈 **INTERPRETAÇÃO TÉCNICA:**"
+                    insights += "\n• AUC > 0.7: Bom poder preditivo"
+                    insights += "\n• AUC > 0.8: Excelente poder preditivo"
+                    insights += "\n• Features importantes indicam padrões comportamentais relevantes"
+                    insights += "\n• Modelos ensemble geralmente performam melhor em dados complexos"
                     return insights
                 def generate_recommendations():
                     return """🎯 **RECOMENDAÇÕES ESTRATÉGICAS:**
+🚨 **AÇÕES IMEDIATAS (0-30 dias):**
+• Implementar sistema de alerta precoce para clientes de alto risco
+• Criar segmentação baseada nas variáveis mais importantes identificadas
+• Desenvolver campanhas proativas direcionadas a grupos específicos
+• Estabelecer protocolo de contato proativo para clientes com alta probabilidade de queixa
+📈 **OTIMIZAÇÕES DE LONGO PRAZO (30-90 dias):**
+• Integrar modelo preditivo ao sistema de CRM existente
+• Implementar dashboard de monitoramento em tempo real
+• Desenvolver programa de treinamento para equipes de atendimento
+• Criar fluxo de trabalho automatizado para casos de alto risco
+💡 **SUGESTÕES OPERACIONAIS ESPECÍFICAS:**
+• Monitorar continuamente clientes com alta recência de compra
+• Acompanhar mudanças abruptas no padrão de gastos dos clientes
+• Implementar programas de fidelidade segmentados por perfil de risco
+• Estabelecer métricas de satisfação pós-atendimento
+📊 **MÉTRICAS DE SUCESSO:**
+• Redução de 20% na taxa de queixas em 6 meses
+• Aumento de 15% na satisfação do cliente (NPS)
+• Melhoria de 30% no tempo de resposta a queixas
+• Redução de 25% nos custos com resolução reativa de problemas
+🔧 **IMPLEMENTAÇÃO TÉCNICA:**
+• Revisar e atualizar modelos trimestralmente
+• Validar performance com novos dados
+• Expandir análise para outros indicadores (churn, lifetime value)
+• Incorporar feedback dos clientes no refinamento do modelo"""
                 generate_insights_btn.click(
                     fn=generate_insights,
                     outputs=[insights_text]
                 )
         gr.Markdown("---")
+        gr.Markdown("**Desenvolvido para PPCA/UnB - AEDI - Tarefa 6** | *Análise Preditiva de Queixas de Consumidores*")
     return demo