Spaces:

brunaaaz
/

CrediFast-Risk-Analysis

Sleeping

App Files Files Community

brunaaaz commited on Dec 4, 2025

Commit

6638655

verified ·

1 Parent(s): 70f15a8

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -30

app.py CHANGED Viewed

@@ -58,8 +58,9 @@ def processar_dados(df):
     return X, y, df # Retorna df original limpo para visualização
 @st.cache_resource
-def treinar_modelo(X, y):
     # Split
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
@@ -82,6 +83,12 @@ def treinar_modelo(X, y):
     model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42, base_score=0.5)
     model.fit(X_train_final, y_train_bal)
     return model, scaler, X_test_final, y_test, X_train_final, feature_names
 # --- LOGICA PRINCIPAL ---
@@ -94,7 +101,8 @@ if df_raw is not None:
     # Mostra um spinner enquanto carrega para o usuário saber que está trabalhando
     with st.spinner('Inicializando sistema: Processando dados e treinando IA...'):
         X, y, df_clean = processar_dados(df_raw)
-        model, scaler, X_test, y_test, X_train, feature_names = treinar_modelo(X, y)
     # --- SIDEBAR (Simulador) ---
     st.sidebar.header("📂 Menu")
@@ -188,37 +196,44 @@ if df_raw is not None:
         try:
             # Calcular SHAP
             explainer = shap.TreeExplainer(model)
             shap_values = explainer.shap_values(X_test)
-            st.markdown("**1. Visão Global (Quais variáveis importam mais?)**")
-            # Correção para exibir o gráfico sem warning: criar figura explícita e passar para st.pyplot
-            fig_summary, ax = plt.subplots()
-            shap.summary_plot(shap_values, X_test, show=False)
-            st.pyplot(plt.gcf())
-            plt.clf() # Limpar figura atual
-            st.markdown("---")
-            st.markdown("**2. Visão Local (Análise caso a caso)**")
-            # Seletor de índice
-            idx = st.number_input("Selecione o ID do Cliente para auditar:", min_value=0, max_value=len(X_test)-1, value=0)
-            real_val = y_test.iloc[idx]
-            pred_val = y_pred[idx]
-            st.write(f"Cliente ID {idx} | Real: {'Bad' if real_val==1 else 'Good'} | Predito: {'Bad' if pred_val==1 else 'Good'}")
-            # Waterfall Plot
-            fig_waterfall = plt.figure()
-            shap.plots.waterfall(shap.Explanation(values=shap_values[idx],
-                                                  base_values=explainer.expected_value,
-                                                  data=X_test.iloc[idx],
-                                                  feature_names=X_test.columns.tolist()),
-                                 max_display=10, show=False)
-            st.pyplot(fig_waterfall)
         except Exception as e:
-            st.error(f"Erro ao calcular SHAP: {e}")
-            st.warning("Dica: Tente recarregar a página ou verifique compatibilidade de versões.")
     # TAB 4: Clusters
     with tab4:

     return X, y, df # Retorna df original limpo para visualização
+# Renomeado para v2 para forçar o Streamlit a limpar o cache antigo e aplicar o fix do base_score
 @st.cache_resource
+def treinar_modelo_v2(X, y):
     # Split
     X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
     model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42, base_score=0.5)
     model.fit(X_train_final, y_train_bal)
+    # Garantia extra: forçar parametro no booster interno
+    try:
+        model.get_booster().set_param({'base_score': 0.5})
+    except:
+        pass
     return model, scaler, X_test_final, y_test, X_train_final, feature_names
 # --- LOGICA PRINCIPAL ---
     # Mostra um spinner enquanto carrega para o usuário saber que está trabalhando
     with st.spinner('Inicializando sistema: Processando dados e treinando IA...'):
         X, y, df_clean = processar_dados(df_raw)
+        # Chamando a função v2 para garantir que o fix seja usado
+        model, scaler, X_test, y_test, X_train, feature_names = treinar_modelo_v2(X, y)
     # --- SIDEBAR (Simulador) ---
     st.sidebar.header("📂 Menu")
         try:
             # Calcular SHAP
+            # TENTATIVA 1: Explainer Padrão
             explainer = shap.TreeExplainer(model)
             shap_values = explainer.shap_values(X_test)
         except Exception as e:
+            # TENTATIVA 2: Fallback para erro de versão XGBoost/SHAP
+            if "could not convert string to float" in str(e):
+                st.warning("🔄 Ajustando compatibilidade do SHAP... (Isso é normal em versões novas)")
+                # Usa o booster interno diretamente, ignorando o wrapper sklearn que causa o erro
+                explainer = shap.TreeExplainer(model.get_booster())
+                shap_values = explainer.shap_values(X_test)
+            else:
+                raise e
+        st.markdown("**1. Visão Global (Quais variáveis importam mais?)**")
+        # Correção para exibir o gráfico sem warning: criar figura explícita e passar para st.pyplot
+        fig_summary, ax = plt.subplots()
+        shap.summary_plot(shap_values, X_test, show=False)
+        st.pyplot(plt.gcf())
+        plt.clf() # Limpar figura atual
+        st.markdown("---")
+        st.markdown("**2. Visão Local (Análise caso a caso)**")
+        # Seletor de índice
+        idx = st.number_input("Selecione o ID do Cliente para auditar:", min_value=0, max_value=len(X_test)-1, value=0)
+        real_val = y_test.iloc[idx]
+        pred_val = y_pred[idx]
+        st.write(f"Cliente ID {idx} | Real: {'Bad' if real_val==1 else 'Good'} | Predito: {'Bad' if pred_val==1 else 'Good'}")
+        # Waterfall Plot
+        fig_waterfall = plt.figure()
+        shap.plots.waterfall(shap.Explanation(values=shap_values[idx],
+                                                base_values=explainer.expected_value,
+                                                data=X_test.iloc[idx],
+                                                feature_names=X_test.columns.tolist()),
+                                max_display=10, show=False)
+        st.pyplot(fig_waterfall)
     # TAB 4: Clusters
     with tab4: