Spaces:

HugoNeres
/

Prova_Final_Credifast

Sleeping

App Files Files Community

HugoNeres commited on Dec 4, 2025

Commit

4e66049

verified ·

1 Parent(s): 8f3ba17

Update app.py

Browse files

Files changed (1) hide show

app.py +98 -10

app.py CHANGED Viewed

@@ -8,6 +8,9 @@ import numpy as np
 import plotly.express as px
 import io
 from sklearn.metrics import confusion_matrix, roc_curve, auc
 # --- CONFIGURAÇÃO ---
 st.set_page_config(page_title="CrediFast Risk System", layout="wide")
@@ -422,20 +425,105 @@ with tab2:
             st.info("👈 Preencha os dados ao lado e clique em 'Calcular Risco' para ver o resultado.")
 # =========================================================
-# ABA IV: CLUSTERIZAÇÃO (Mantida)
 # =========================================================
 with tab3:
-    st.header("IV. Segmentação de Clientes")
-    if 'Cluster' in df.columns:
-        st.markdown("**Perfis Identificados (K-Means):**")
-        st.dataframe(df.groupby('Cluster')[['person_age', 'person_income', 'loan_amnt', 'loan_status']].mean().style.format({'person_income': 'R$ {:,.2f}', 'loan_status': '{:.1%}'}), use_container_width=True)
-        fig_clus = px.scatter(df, x='person_income', y='loan_amnt', color='Cluster',
-                              title="Clusterização: Renda vs Empréstimo", range_x=[0, 200000])
-        st.plotly_chart(fig_clus, use_container_width=True)
-    else:
-        st.warning("Clusterização não disponível.")
 # =========================================================
 # ABA V: RECOMENDAÇÕES (Mantida)
 # =========================================================

 import plotly.express as px
 import io
 from sklearn.metrics import confusion_matrix, roc_curve, auc
+from sklearn.decomposition import PCA
+from sklearn.preprocessing import StandardScaler
+from sklearn.cluster import KMeans
 # --- CONFIGURAÇÃO ---
 st.set_page_config(page_title="CrediFast Risk System", layout="wide")
             st.info("👈 Preencha os dados ao lado e clique em 'Calcular Risco' para ver o resultado.")
 # =========================================================
+# ABA III: CLUSTERIZAÇÃO COM PCA (Visualização Avançada)
 # =========================================================
 with tab3:
+    st.header("IV. Segmentação de Clientes (Clusterização)")
+    st.markdown("""
+    Abaixo, utilizamos **K-Means** para agrupar clientes semelhantes e **PCA (Análise de Componentes Principais)** para reduzir todas as dimensões (Renda, Idade, Juros, etc.) em um mapa 2D.
+    """)
+    # 1. Definição das Colunas Numéricas para Clusterização
+    # (Removendo colunas categóricas e alvo)
+    cols_cluster = ['person_age', 'person_income', 'person_emp_length',
+                    'loan_amnt', 'loan_int_rate', 'loan_percent_income',
+                    'cb_person_cred_hist_length']
+    # 2. Verifica/Gera Clusters (Caso o CSV não tenha a coluna 'Cluster')
+    if 'Cluster' not in df.columns:
+        with st.spinner("Identificando grupos de clientes (Clusterização)..."):
+            # Prepara dados (Inputa médidas se houver nulos para não quebrar)
+            X_clus = df[cols_cluster].fillna(df[cols_cluster].mean())
+            # Escala específica para o Cluster (importante ser fresco)
+            scaler_clus = StandardScaler()
+            X_clus_scaled = scaler_clus.fit_transform(X_clus)
+            # Aplica K-Means (Ex: 4 grupos)
+            kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
+            df['Cluster'] = kmeans.fit_predict(X_clus_scaled)
+    # Garante que Cluster seja tratado como texto (Categoria) para cores discretas
+    df['Cluster'] = df['Cluster'].astype(str)
+    # 3. Aplicação do PCA para Visualização
+    try:
+        # Prepara dados para PCA
+        X_pca_input = df[cols_cluster].fillna(df[cols_cluster].mean())
+        scaler_pca = StandardScaler()
+        X_scaled = scaler_pca.fit_transform(X_pca_input)
+        # Calcula PCA (Reduz para 2 componentes)
+        pca = PCA(n_components=2)
+        components = pca.fit_transform(X_scaled)
+        # Cria DataFrame temporário para o gráfico
+        df_pca = pd.DataFrame(data=components, columns=['PC1', 'PC2'])
+        df_pca['Cluster'] = df['Cluster'].values
+        # Adiciona dados originais para o Tooltip (Hover)
+        df_pca['Renda'] = df['person_income'].values
+        df_pca['Empréstimo'] = df['loan_amnt'].values
+        df_pca['Risco'] = df['loan_status'].apply(lambda x: 'Calote' if x==1 else 'Bom Pagador').values
+        # 4. Gráfico Interativo
+        col_graph, col_stats = st.columns([2, 1])
+        with col_graph:
+            var_explicada = pca.explained_variance_ratio_.sum()
+            st.caption(f"Visualização PCA (Explica {var_explicada:.1%} da variação dos dados)")
+            fig_pca = px.scatter(
+                df_pca,
+                x='PC1',
+                y='PC2',
+                color='Cluster',
+                symbol='Risco', # Diferencia caloteiros por formato (opcional)
+                hover_data=['Renda', 'Empréstimo', 'Risco'],
+                title="Mapa de Clusters (PCA)",
+                color_discrete_sequence=px.colors.qualitative.Bold,
+                height=500
+            )
+            fig_pca.update_traces(marker=dict(size=8, opacity=0.7), selector=dict(mode='markers'))
+            st.plotly_chart(fig_pca, use_container_width=True)
+        # 5. Estatísticas dos Perfis
+        with col_stats:
+            st.subheader("Perfil dos Grupos")
+            # Agrupa e calcula médias
+            resumo = df.groupby('Cluster')[['person_income', 'loan_amnt', 'person_age', 'loan_status']].mean()
+            # Formatação bonita
+            st.dataframe(
+                resumo.style.format({
+                    'person_income': 'R$ {:,.0f}',
+                    'loan_amnt': 'R$ {:,.0f}',
+                    'person_age': '{:.0f} anos',
+                    'loan_status': '{:.1%}'
+                }).background_gradient(cmap='Blues', subset=['loan_status']),
+                use_container_width=True
+            )
+            # Interpretação Rápida (Exemplo genérico, ajuste conforme seus dados reais)
+            st.info("""
+            **Dica de Análise:**
+            * Observe se existe um cluster com **alta inadimplência** (Vermelho escuro na tabela).
+            * Veja se o PCA conseguiu separar bem os grupos (espaço entre as cores).
+            """)
+    except Exception as e:
+        st.error(f"Erro ao gerar PCA: {e}")
 # =========================================================
 # ABA V: RECOMENDAÇÕES (Mantida)
 # =========================================================