Spaces:

ricardoadriano
/

Atividade3

Sleeping

App Files Files Community

ricardoadriano commited on Sep 24, 2025

Commit

f9a622e

verified ·

1 Parent(s): 036301c

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +108 -71

src/streamlit_app.py CHANGED Viewed

@@ -44,7 +44,7 @@ with tabs[0]:
     st.sidebar.markdown("### Parâmetros do Teste (Proporção)")
     p_pop      = st.sidebar.slider("Proporção populacional (H0)", 0.0, 1.0, 0.1, 0.01, key="p_pop")
     p_sample   = st.sidebar.slider("Proporção amostral", 0.0, 1.0, 0.12, 0.01, key="p_sample")
-    n          = st.sidebar.slider("Tamanho da amostra", 100, 50000, 1000, 10, key="n_sample")
     alpha_prop = st.sidebar.slider("Nível de significância (α)", 0.01, 0.10, 0.05, 0.01, key="alpha_prop")
     se      = np.sqrt(p_pop*(1-p_pop)/n)
@@ -65,28 +65,62 @@ with tabs[1]:
     st.subheader("Análise de Variância - AmesHousing Dataset")
     st.markdown("---")
-    # Leitura fixa do CSV dentro da pasta Dados
     casa_data = pd.read_csv("../Dados/AmesHousing.csv")
     casa_data.columns = casa_data.columns.str.strip().str.replace(" ", "_")
-    # ------------------------------------------
-    # Usar o parâmetro "Tamanho da amostra" já definido
-    # ------------------------------------------
     n_amostra = st.session_state.get("n_sample", len(casa_data))
     if n_amostra < len(casa_data):
         dados = casa_data.sample(n=n_amostra, random_state=42)
     else:
         dados = casa_data.copy()
     # -------------------------------------------------
     # Análise Exploratória
     # -------------------------------------------------
     st.markdown("### Distribuição do Preço de Venda")
-    fig, ax = plt.subplots(figsize=(8,5))
-    sns.histplot(dados['SalePrice'], kde=True, ax=ax)
-    ax.set_title("Distribuição do Preço de Venda")
-    st.pyplot(fig)
     # Boxplots
     st.markdown("### Boxplots das Variáveis Selecionadas")
@@ -95,31 +129,33 @@ with tabs[1]:
         ["Neighborhood","Garage_Type","Fireplaces"]
     )
-    fig2, ax2 = plt.subplots(figsize=(12,6))
-    sns.boxplot(x=variavel, y="SalePrice", data=dados, ax=ax2)
-    plt.xticks(rotation=90)
-    ax2.set_title(f"Preço de Venda por {variavel}")
-    st.pyplot(fig2)
     # Scatter interativo (média de preço por bairro)
     st.markdown("### Preço Médio de Venda por Bairro")
-    bairro_grouped = dados.groupby('Neighborhood').agg(
-        count=('SalePrice','size'),
-        mean_price=('SalePrice','mean')
-    ).reset_index()
-    bairro_filtered = bairro_grouped[bairro_grouped['count'] >= 5]
-    fig3 = px.scatter(
-        bairro_filtered,
-        x='mean_price',
-        y='Neighborhood',
-        size='count',
-        color='Neighborhood',
-        title='Preço Médio de Venda vs Bairro (Ames, Iowa)',
-        labels={'mean_price': 'Preço Médio de Venda', 'Neighborhood':'Bairro'},
-        opacity=0.8
-    )
-    st.plotly_chart(fig3, use_container_width=True)
     # -------------------------------------------------
     # ANOVA
@@ -131,42 +167,43 @@ with tabs[1]:
         key="alpha_ames"
     )
-    modelos = {
-        "Neighborhood": ols('SalePrice ~ C(Neighborhood)', data=dados).fit(),
-        "Garage_Type": ols('SalePrice ~ C(Garage_Type)', data=dados).fit(),
-        "Fireplaces": ols('SalePrice ~ C(Fireplaces)', data=dados).fit()
-    }
-    for nome, modelo in modelos.items():
-        st.markdown(f"#### ANOVA - {nome}")
-        anova = sm.stats.anova_lm(modelo, typ=2)
-        st.dataframe(anova)
-    # -------------------------------------------------
-    # Validação dos Pressupostos
-    # -------------------------------------------------
-    st.markdown("### Validação dos Pressupostos da ANOVA")
-    st.markdown("#### Teste de Normalidade (Shapiro-Wilk)")
-    for nome, modelo in modelos.items():
-        residuos = modelo.resid
-        stat, p = shapiro(residuos.dropna())
-        st.write(f"{nome}: estatística={stat:.3f}, p={p:.3f}  "
-                 + ("resíduos normais" if p >= alpha else "violação de normalidade"))
-    st.markdown("#### Teste de Homocedasticidade (Levene)")
-    for nome in ["Neighborhood","Garage_Type","Fireplaces"]:
-        grupos = [grupo["SalePrice"].dropna() for _, grupo in dados.groupby(nome)]
-        stat, p = levene(*grupos)
-        st.write(f"{nome}: estatística={stat:.3f}, p={p:.3f}  "
-                 + ("variâncias iguais" if p >= alpha else "variâncias diferentes"))
-    # -------------------------------------------------
-    # Kruskal-Wallis
-    # -------------------------------------------------
-    st.markdown("### Teste não-paramétrico (Kruskal-Wallis)")
-    for nome in ["Neighborhood","Garage_Type","Fireplaces"]:
-        grupos = [grupo["SalePrice"].dropna() for _, grupo in dados.groupby(nome)]
-        stat, p = kruskal(*grupos)
-        st.write(f"{nome}: estatística={stat:.3f}, p={p:.3f}  "
-                 + ("diferenças significativas" if p < alpha else "sem diferença significativa"))

     st.sidebar.markdown("### Parâmetros do Teste (Proporção)")
     p_pop      = st.sidebar.slider("Proporção populacional (H0)", 0.0, 1.0, 0.1, 0.01, key="p_pop")
     p_sample   = st.sidebar.slider("Proporção amostral", 0.0, 1.0, 0.12, 0.01, key="p_sample")
+    n          = st.sidebar.slider("Tamanho da amostra", 100, 10000, 1000, 10, key="n_sample")
     alpha_prop = st.sidebar.slider("Nível de significância (α)", 0.01, 0.10, 0.05, 0.01, key="alpha_prop")
     se      = np.sqrt(p_pop*(1-p_pop)/n)
     st.subheader("Análise de Variância - AmesHousing Dataset")
     st.markdown("---")
+    # Leitura do CSV
     casa_data = pd.read_csv("../Dados/AmesHousing.csv")
     casa_data.columns = casa_data.columns.str.strip().str.replace(" ", "_")
+    # -----------------------------
+    # Amostragem
+    # -----------------------------
     n_amostra = st.session_state.get("n_sample", len(casa_data))
     if n_amostra < len(casa_data):
         dados = casa_data.sample(n=n_amostra, random_state=42)
     else:
         dados = casa_data.copy()
+    # -----------------------------
+    # Filtros interativos no sidebar
+    # -----------------------------
+    st.sidebar.markdown("### Filtros AmesHousing")
+    garagens = st.sidebar.multiselect(
+        "Selecione tipos de garagem",
+        options=sorted(dados["Garage_Type"].dropna().unique()),
+        default=None
+    )
+    lareiras = st.sidebar.multiselect(
+        "Selecione número de lareiras",
+        options=sorted(dados["Fireplaces"].dropna().unique()),
+        default=None
+    )
+    bairros = st.sidebar.multiselect(
+        "Selecione bairros",
+        options=sorted(dados["Neighborhood"].dropna().unique()),
+        default=None
+    )
+    # Aplicar filtros
+    dados_filtrados = dados.copy()
+    if garagens:
+        dados_filtrados = dados_filtrados[dados_filtrados["Garage_Type"].isin(garagens)]
+    if lareiras:
+        dados_filtrados = dados_filtrados[dados_filtrados["Fireplaces"].isin(lareiras)]
+    if bairros:
+        dados_filtrados = dados_filtrados[dados_filtrados["Neighborhood"].isin(bairros)]
     # -------------------------------------------------
     # Análise Exploratória
     # -------------------------------------------------
     st.markdown("### Distribuição do Preço de Venda")
+    if not dados_filtrados.empty:
+        fig, ax = plt.subplots(figsize=(8,5))
+        sns.histplot(dados_filtrados['SalePrice'], kde=True, ax=ax)
+        ax.set_title("Distribuição do Preço de Venda")
+        st.pyplot(fig)
+    else:
+        st.warning("Nenhum dado disponível com os filtros aplicados.")
     # Boxplots
     st.markdown("### Boxplots das Variáveis Selecionadas")
         ["Neighborhood","Garage_Type","Fireplaces"]
     )
+    if not dados_filtrados.empty:
+        fig2, ax2 = plt.subplots(figsize=(12,6))
+        sns.boxplot(x=variavel, y="SalePrice", data=dados_filtrados, ax=ax2)
+        plt.xticks(rotation=90)
+        ax2.set_title(f"Preço de Venda por {variavel}")
+        st.pyplot(fig2)
     # Scatter interativo (média de preço por bairro)
     st.markdown("### Preço Médio de Venda por Bairro")
+    if not dados_filtrados.empty:
+        bairro_grouped = dados_filtrados.groupby('Neighborhood').agg(
+            count=('SalePrice','size'),
+            mean_price=('SalePrice','mean')
+        ).reset_index()
+        bairro_filtered = bairro_grouped[bairro_grouped['count'] >= 5]
+        fig3 = px.scatter(
+            bairro_filtered,
+            x='mean_price',
+            y='Neighborhood',
+            size='count',
+            color='Neighborhood',
+            title='Preço Médio de Venda vs Bairro (Ames, Iowa)',
+            labels={'mean_price': 'Preço Médio de Venda', 'Neighborhood':'Bairro'},
+            opacity=0.8
+        )
+        st.plotly_chart(fig3, use_container_width=True)
     # -------------------------------------------------
     # ANOVA
         key="alpha_ames"
     )
+    if not dados_filtrados.empty:
+        modelos = {
+            "Neighborhood": ols('SalePrice ~ C(Neighborhood)', data=dados_filtrados).fit(),
+            "Garage_Type": ols('SalePrice ~ C(Garage_Type)', data=dados_filtrados).fit(),
+            "Fireplaces": ols('SalePrice ~ C(Fireplaces)', data=dados_filtrados).fit()
+        }
+        for nome, modelo in modelos.items():
+            st.markdown(f"#### ANOVA - {nome}")
+            anova = sm.stats.anova_lm(modelo, typ=2)
+            st.dataframe(anova)
+        # -------------------------------------------------
+        # Validação dos Pressupostos
+        # -------------------------------------------------
+        st.markdown("### Validação dos Pressupostos da ANOVA")
+        st.markdown("#### Teste de Normalidade (Shapiro-Wilk)")
+        for nome, modelo in modelos.items():
+            residuos = modelo.resid
+            stat, p = shapiro(residuos.dropna())
+            st.write(f"{nome}: estatística={stat:.3f}, p={p:.3f}  "
+                    + ("resíduos normais" if p >= alpha else "violação de normalidade"))
+        st.markdown("#### Teste de Homocedasticidade (Levene)")
+        for nome in ["Neighborhood","Garage_Type","Fireplaces"]:
+            grupos = [grupo["SalePrice"].dropna() for _, grupo in dados_filtrados.groupby(nome)]
+            stat, p = levene(*grupos)
+            st.write(f"{nome}: estatística={stat:.3f}, p={p:.3f}  "
+                    + ("variâncias iguais" if p >= alpha else "variâncias diferentes"))
+        # -------------------------------------------------
+        # Kruskal-Wallis
+        # -------------------------------------------------
+        st.markdown("### Teste não-paramétrico (Kruskal-Wallis)")
+        for nome in ["Neighborhood","Garage_Type","Fireplaces"]:
+            grupos = [grupo["SalePrice"].dropna() for _, grupo in dados_filtrados.groupby(nome)]
+            stat, p = kruskal(*grupos)
+            st.write(f"{nome}: estatística={stat:.3f}, p={p:.3f}  "
+                    + ("diferenças significativas" if p < alpha else "sem diferença significativa"))