Spaces:

ESTUDOPSP
/

Atividade2

Sleeping

App Files Files Community

vsalgs commited on Jun 5, 2025

Commit

45e81a9

verified ·

1 Parent(s): ba1df54

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +52 -18

src/streamlit_app.py CHANGED Viewed

@@ -35,7 +35,13 @@ def load_data_anova():
     if df is None:
         return None, None, [], []
-    df.columns = df.columns.str.replace('[^A-Za-z0-9_]+', '', regex=True).str.lower()
     coluna_preco_nome = None
     if 'saleprice' in df.columns:
@@ -69,11 +75,18 @@ def load_data_reg():
     try:
         df = pd.read_csv(fixed_url)
         url_carregada = fixed_url
-    except Exception as e:
         return None, None, [], [], []
     st.success(f"Dataset carregado com sucesso de: {url_carregada} (Shape: {df.shape})")
-    df.columns = df.columns.str.replace('[^A-Za-z0-9_]+', '', regex=True).str.lower()
     coluna_preco_nome = None
     possible_price_cols = ['saleprice', 'sale_price', 'price']
@@ -126,7 +139,9 @@ def load_data_reg():
             col not in colunas_categoricas_potenciais or col in vars_sempre_continuas_para_reg
         ) and col != coluna_preco_nome
     ]
-    colunas_continuas_potenciais = sorted(list(set(col for col in colunas_continuas_potenciais if col in df.columns)))
     return df, coluna_preco_nome, colunas_categoricas_potenciais, colunas_continuas_potenciais, df.columns.tolist()
@@ -138,6 +153,7 @@ def perform_anova_for_variable(df_analysis, var_cat, col_preco):
     results = {"var_cat": var_cat, "plots": {}}
     df_var = df_analysis[[var_cat, col_preco]].copy()
     if df_var[var_cat].dtype != 'object' and not pd.api.types.is_categorical_dtype(df_var[var_cat]):
         df_var[var_cat] = df_var[var_cat].astype('category')
@@ -146,19 +162,23 @@ def perform_anova_for_variable(df_analysis, var_cat, col_preco):
         results["error"] = "Dados insuficientes ou poucos níveis após limpeza."
         return results
-    formula = f'{col_preco} ~ C({var_cat})'
     try:
         modelo = ols(formula, data=df_var).fit()
         results["anova_table"] = sm.stats.anova_lm(modelo, typ=2)
-        if f'C({var_cat})' in results["anova_table"].index:
-            results["p_valor_anova"] = results["anova_table"].loc[f'C({var_cat})', 'PR(>F)']
         else:
             results["p_valor_anova"] = results["anova_table"]['PR(>F)'].iloc[0]
         residuos = modelo.resid
         results["residuos_count"] = len(residuos)
         normalidade_ok = False
         if len(residuos) >= 3:
             if len(residuos) <= 5000:
@@ -179,7 +199,8 @@ def perform_anova_for_variable(df_analysis, var_cat, col_preco):
         if len(residuos) > 1:
             sns.histplot(residuos, kde=True, ax=ax_norm[0], stat="density", bins=30)
             ax_norm[0].set_title(f'Histograma Resíduos ({var_cat})', fontsize=10)
-            sm.qqplot(residuos, line='s', ax=ax_norm[1], markerfacecolor="skyblue", markeredgecolor="dodgerblue", alpha=0.7)
             ax_norm[1].set_title(f'Q-Q Plot Resíduos ({var_cat})', fontsize=10)
         else:
             ax_norm[0].text(0.5, 0.5, "Poucos dados", ha='center', va='center')
@@ -187,9 +208,10 @@ def perform_anova_for_variable(df_analysis, var_cat, col_preco):
         plt.tight_layout()
         results["plots"]["normalidade"] = fig_norm
-        # Teste de homocedasticidade (Levene)
         homocedasticidade_ok = False
-        grupos = [df_var[col_preco][df_var[var_cat] == categoria].dropna() for categoria in df_var[var_cat].unique()]
         grupos_validos = [g for g in grupos if len(g) >= 2]
         if len(grupos_validos) >= 2:
             stat_levene, p_levene = levene(*grupos_validos)
@@ -198,7 +220,7 @@ def perform_anova_for_variable(df_analysis, var_cat, col_preco):
                 homocedasticidade_ok = True
         results["homocedasticidade_ok"] = homocedasticidade_ok
-        # Teste de Kruskal-Wallis (se necessário)
         if not normalidade_ok or not homocedasticidade_ok:
             if len(grupos_validos) >= 2:
                 stat_kruskal, p_kruskal = kruskal(*grupos_validos)
@@ -654,28 +676,42 @@ elif st.session_state.page == 'REGRESSAO':
                 model_summary_obj = output_reg.get('model_summary_obj')
                 if model_summary_obj:
                     st.markdown("##### Sumário Geral do Modelo:")
-                    sum_table0 = pd.read_html(model_summary_obj.tables[0].as_html(), header=None, index_col=None)[0]
                     st.table(sum_table0.iloc[:, :2].rename(columns={0: "Métrica", 1: "Valor"}))
                     st.table(sum_table0.iloc[:, 2:].rename(columns={2: "Métrica", 3: "Valor"}))
                     st.markdown("##### Coeficientes do Modelo:")
-                    sum_table1 = pd.read_html(model_summary_obj.tables[1].as_html(), header=0, index_col=0)[0]
                     st.dataframe(sum_table1.style.format({
-                        "coef": "{:.4f}", "std err": "{:.4f}", "t": "{:.3f}", "P>|t|": "{:.3e}",
                         "[0.025": "{:.4f}", "0.975]": "{:.4f}"
                     }))
                     if len(model_summary_obj.tables) > 2:
                         st.markdown("##### Outras Estatísticas e Notas:")
                         notes_html = model_summary_obj.tables[2].as_html()
-                        notes_df = pd.read_html(notes_html, header=None, index_col=None)[0]
                         for i in range(len(notes_df)):
                             line = notes_df.iloc[i].tolist()
                             st.text("  ".join([str(x) for x in line if pd.notna(x)]))
                 st.subheader("Métricas de Desempenho")
                 if 'performance_metrics' in output_reg:
-                    metrics_df = pd.DataFrame.from_dict(output_reg['performance_metrics'], orient='index', columns=['Valor'])
                     st.table(metrics_df.style.format("{:.4f}"))
                     st.markdown("""
                     * **R-squared / R-squared Ajustado:** Variância explicada pelo modelo.
@@ -705,5 +741,3 @@ elif st.session_state.page == 'REGRESSAO':
         else:
             if not colunas_categoricas_reg and not colunas_continuas_reg:
                 st.error("Nenhuma coluna adequada identificada para regressão.")

     if df is None:
         return None, None, [], []
+    # Normalizar nomes de coluna: sem espaços, minúsculas, sem caracteres especiais
+    df.columns = (
+        df.columns
+          .str.strip()
+          .str.lower()
+          .str.replace('[^0-9a-z_]+', '', regex=True)
+    )
     coluna_preco_nome = None
     if 'saleprice' in df.columns:
     try:
         df = pd.read_csv(fixed_url)
         url_carregada = fixed_url
+    except Exception:
         return None, None, [], [], []
     st.success(f"Dataset carregado com sucesso de: {url_carregada} (Shape: {df.shape})")
+    # Normalizar nomes de coluna: sem espaços, minúsculas, sem caracteres especiais
+    df.columns = (
+        df.columns
+          .str.strip()
+          .str.lower()
+          .str.replace('[^0-9a-z_]+', '', regex=True)
+    )
     coluna_preco_nome = None
     possible_price_cols = ['saleprice', 'sale_price', 'price']
             col not in colunas_categoricas_potenciais or col in vars_sempre_continuas_para_reg
         ) and col != coluna_preco_nome
     ]
+    colunas_continuas_potenciais = sorted(
+        list(set(col for col in colunas_continuas_potenciais if col in df.columns))
+    )
     return df, coluna_preco_nome, colunas_categoricas_potenciais, colunas_continuas_potenciais, df.columns.tolist()
     results = {"var_cat": var_cat, "plots": {}}
     df_var = df_analysis[[var_cat, col_preco]].copy()
+    # Garantir que a variável categórica seja do tipo category
     if df_var[var_cat].dtype != 'object' and not pd.api.types.is_categorical_dtype(df_var[var_cat]):
         df_var[var_cat] = df_var[var_cat].astype('category')
         results["error"] = "Dados insuficientes ou poucos níveis após limpeza."
         return results
+    # Usar backticks para nomes de coluna na fórmula
+    formula = f'{col_preco} ~ C(`{var_cat}`)'
     try:
         modelo = ols(formula, data=df_var).fit()
         results["anova_table"] = sm.stats.anova_lm(modelo, typ=2)
+        key = f'C(`{var_cat}`)'
+        if key in results["anova_table"].index:
+            results["p_valor_anova"] = results["anova_table"].loc[key, 'PR(>F)']
         else:
             results["p_valor_anova"] = results["anova_table"]['PR(>F)'].iloc[0]
         residuos = modelo.resid
         results["residuos_count"] = len(residuos)
+        # 1. Normalidade dos resíduos
         normalidade_ok = False
         if len(residuos) >= 3:
             if len(residuos) <= 5000:
         if len(residuos) > 1:
             sns.histplot(residuos, kde=True, ax=ax_norm[0], stat="density", bins=30)
             ax_norm[0].set_title(f'Histograma Resíduos ({var_cat})', fontsize=10)
+            sm.qqplot(residuos, line='s', ax=ax_norm[1],
+                      markerfacecolor="skyblue", markeredgecolor="dodgerblue", alpha=0.7)
             ax_norm[1].set_title(f'Q-Q Plot Resíduos ({var_cat})', fontsize=10)
         else:
             ax_norm[0].text(0.5, 0.5, "Poucos dados", ha='center', va='center')
         plt.tight_layout()
         results["plots"]["normalidade"] = fig_norm
+        # 2. Homocedasticidade (Teste de Levene)
         homocedasticidade_ok = False
+        grupos = [df_var[col_preco][df_var[var_cat] == categoria].dropna()
+                  for categoria in df_var[var_cat].unique()]
         grupos_validos = [g for g in grupos if len(g) >= 2]
         if len(grupos_validos) >= 2:
             stat_levene, p_levene = levene(*grupos_validos)
                 homocedasticidade_ok = True
         results["homocedasticidade_ok"] = homocedasticidade_ok
+        # 3. Kruskal-Wallis (se necessário)
         if not normalidade_ok or not homocedasticidade_ok:
             if len(grupos_validos) >= 2:
                 stat_kruskal, p_kruskal = kruskal(*grupos_validos)
                 model_summary_obj = output_reg.get('model_summary_obj')
                 if model_summary_obj:
                     st.markdown("##### Sumário Geral do Modelo:")
+                    # Usar flavor='bs4' para evitar a dependência de lxml
+                    sum_table0 = pd.read_html(
+                        model_summary_obj.tables[0].as_html(),
+                        header=None,
+                        index_col=None,
+                        flavor='bs4'
+                    )[0]
                     st.table(sum_table0.iloc[:, :2].rename(columns={0: "Métrica", 1: "Valor"}))
                     st.table(sum_table0.iloc[:, 2:].rename(columns={2: "Métrica", 3: "Valor"}))
                     st.markdown("##### Coeficientes do Modelo:")
+                    sum_table1 = pd.read_html(
+                        model_summary_obj.tables[1].as_html(),
+                        header=0,
+                        index_col=0,
+                        flavor='bs4'
+                    )[0]
                     st.dataframe(sum_table1.style.format({
+                        "coef": "{:.4f}", "std err": "{:.4f}",
+                        "t": "{:.3f}", "P>|t|": "{:.3e}",
                         "[0.025": "{:.4f}", "0.975]": "{:.4f}"
                     }))
                     if len(model_summary_obj.tables) > 2:
                         st.markdown("##### Outras Estatísticas e Notas:")
                         notes_html = model_summary_obj.tables[2].as_html()
+                        notes_df = pd.read_html(notes_html, header=None, index_col=None, flavor='bs4')[0]
                         for i in range(len(notes_df)):
                             line = notes_df.iloc[i].tolist()
                             st.text("  ".join([str(x) for x in line if pd.notna(x)]))
                 st.subheader("Métricas de Desempenho")
                 if 'performance_metrics' in output_reg:
+                    metrics_df = pd.DataFrame.from_dict(
+                        output_reg['performance_metrics'], orient='index', columns=['Valor']
+                    )
                     st.table(metrics_df.style.format("{:.4f}"))
                     st.markdown("""
                     * **R-squared / R-squared Ajustado:** Variância explicada pelo modelo.
         else:
             if not colunas_categoricas_reg and not colunas_continuas_reg:
                 st.error("Nenhuma coluna adequada identificada para regressão.")