Spaces:

enzograndino
/

4.0

Sleeping

App Files Files Community

4.0 / src /streamlit_app.py

enzograndino

Update src/streamlit_app.py

5d09271 verified 3 months ago

raw

history blame contribute delete

22.4 kB

	# 1. Importar Bibliotecas

	import streamlit as st
	import pandas as pd
	import numpy as np
	import kagglehub
	from kagglehub import KaggleDatasetAdapter
	import plotly.express as px
	import plotly.graph_objects as go
	from scipy.stats import shapiro, levene, kruskal
	import statsmodels.api as sm
	from statsmodels.formula.api import ols
	from statsmodels.stats.stattools import durbin_watson
	from statsmodels.stats.diagnostic import het_breuschpagan
	from statsmodels.stats.outliers_influence import variance_inflation_factor
	from statsmodels.stats.stattools import jarque_bera
	from sklearn.metrics import mean_squared_error, mean_absolute_error
	from sklearn.model_selection import cross_val_score, cross_val_predict, train_test_split
	from sklearn.linear_model import LinearRegression
	from sklearn.preprocessing import StandardScaler
	from sklearn.pipeline import make_pipeline
	import os
	import warnings

	warnings.filterwarnings("ignore")

	# 2. Configuração da página e funções auxiliares

	# Configuração da página do Streamlit
	st.set_page_config(
	page_title="Análise de Precificação Imobiliária ",
	layout="wide",
	initial_sidebar_state="expanded"
	)

	@st.cache_data
	def load_data():
	"""
	Carrega o dataset do Kaggle diretamente para um DataFrame do Pandas
	utilizando a API Kaggle Hub com o Pandas Adapter.
	"""
	try:
	cache_path = "/tmp/kagglehub_cache"
	os.makedirs(cache_path, exist_ok=True)
	os.environ['KAGGLEHUB_CACHE'] = cache_path

	df = kagglehub.load_dataset(
	KaggleDatasetAdapter.PANDAS,
	"prevek18/ames-housing-dataset",
	"AmesHousing.csv",
	)

	# Limpeza e pré-processamento
	if 'Order' in df.columns:
	df.rename(columns={'Order': 'OrderID'}, inplace=True)
	if 'PID' in df.columns:
	df.rename(columns={'PID': 'PropertyID'}, inplace=True)

	if 'MS SubClass' in df.columns:
	df['MS SubClass'] = df['MS SubClass'].astype(str)
	if 'Mo Sold' in df.columns:
	df['Mo Sold'] = df['Mo Sold'].astype(str)

	# Tratamento robusto de valores nulos
	numeric_cols = df.select_dtypes(include=np.number).columns
	df[numeric_cols] = df[numeric_cols].fillna(df[numeric_cols].median())

	categorical_cols = df.select_dtypes(include=['object']).columns
	df[categorical_cols] = df[categorical_cols].fillna('Missing')

	return df

	except Exception as e:
	st.error(f"Erro ao baixar ou carregar os dados do Kaggle: {e}")
	st.info("Verifique as credenciais do Kaggle (kaggle.json) nos Secrets do Space.")
	return None

	def safe_numeric_columns(df):
	cols = df.select_dtypes(include=np.number).columns
	exclude = [c for c in ['SalePrice', 'OrderID', 'PropertyID'] if c in cols]
	return cols.drop(exclude).tolist()

	def group_top_categories(df, col, top_n=10):
	"""
	Agrupa categorias menos frequentes em 'Other' para reduzir cardinalidade.
	Retorna Série transformada.
	"""
	counts = df[col].value_counts(dropna=False)
	top = counts.nlargest(top_n).index
	return df[col].where(df[col].isin(top), other='Other')

	def compute_vif(X_df):
	"""
	Computa VIF para DataFrame X_df (sem constante).
	"""
	vif_df = pd.DataFrame({
	"feature": X_df.columns,
	"VIF": [variance_inflation_factor(X_df.values, i) for i in range(X_df.shape[1])]
	})
	return vif_df

	# Carrega os dados
	data = load_data()

	# 3. Layout do Dashboard (título e sidebar)
	st.sidebar.title("Configurações da Análise")
	st.sidebar.header("Tarefa 2 - SIEP")
	st.sidebar.markdown("Esta aplicação interativa realiza uma análise de dados imobiliários com ANOVA e regressão linear.")

	# Título Principal
	st.title("Análise Preditiva de Preços de Imóveis")
	st.markdown("Dashboard para a disciplina de Sistemas de Informação em Engenharia de Produção")


	tab_intro, tab_eda, tab_anova, tab_regressao = st.tabs([
	"Introdução", "Análise Exploratória (EDA)", "Análise de Variância (ANOVA)", "Modelo de Regressão Linear"
	])

	# 4. Conteudo das abas

	if data is not None:
	with tab_intro:
	st.header("Contexto do Projeto")
	st.write("""
	Projeto: prever preço de venda (`SalePrice`) usando Regressão Linear Múltipla.
	Requisitos principais da tarefa:
	- Escolher 4 a 6 variáveis explicativas (pelo menos 1 contínua e 1 categórica).
	- Ajustar modelo de regressão sem interações.
	- Avaliar pressupostos (linearidade, normalidade, homocedasticidade, multicolinearidade).
	- Aplicar transformações logarítmicas quando necessário e interpretar coeficientes.
	- Avaliar desempenho (R², RMSE, MAE).
	- Gerar recomendações e (bônus) disponibilizar interface interativa.
	""")

	with tab_eda:
	st.header("Análise Exploratória de Dados (EDA)")
	if st.checkbox("Mostrar uma amostra dos dados"):
	st.dataframe(data.head())
	st.write(f"O dataset contém {data.shape[0]} linhas e {data.shape[1]} colunas.")

	st.subheader("Distribuição do Preço de Venda (SalePrice)")
	col1, col2 = st.columns(2)
	with col1:
	fig_hist_price = px.histogram(data, x='SalePrice', nbins=100, title="Histograma de SalePrice")
	st.plotly_chart(fig_hist_price, use_container_width=True)
	with col2:
	fig_box_price = px.box(data, y='SalePrice', title="Boxplot de SalePrice")
	st.plotly_chart(fig_box_price, use_container_width=True)
	st.markdown("Interpretação: `SalePrice` tende a ser assimétrico à direita — considere transformação logarítmica para modelagem.")

	st.subheader("Correlação com SalePrice")
	if st.checkbox("Calcular e mostrar correlações"):
	numeric_cols = data.select_dtypes(include=np.number).columns.tolist()
	corr_matrix = data[numeric_cols].corr()
	corr_saleprice = corr_matrix['SalePrice'].sort_values(ascending=False).iloc[1:16]
	fig_corr = px.bar(corr_saleprice, x=corr_saleprice.values, y=corr_saleprice.index, orientation='h',
	title="Top 15 Variáveis Mais Correlacionadas com SalePrice",
	labels={'x': 'Coeficiente de Correlação', 'y': 'Variável'})
	st.plotly_chart(fig_corr, use_container_width=True)
	st.markdown("Interpretação: `Overall Qual` e `Gr Liv Area` costumam ser fortes preditores.")

	with tab_anova:
	st.header("Análise de Variância (ANOVA)")
	st.sidebar.header("Configurações da ANOVA")
	suggested_cols_anova = ['Overall Qual', 'Neighborhood', 'Garage Cars', 'Full Bath', 'Kitchen Qual', 'Foundation']
	valid_suggested_anova = [col for col in suggested_cols_anova if col in data.columns]
	if not valid_suggested_anova:
	st.warning("Nenhuma das colunas sugeridas para ANOVA foi encontrada no dataset.")
	else:
	anova_var = st.sidebar.selectbox("Selecione a variável categórica:", valid_suggested_anova)
	alpha_anova = st.sidebar.slider("Nível de Significância (α) - ANOVA", 0.01, 0.10, 0.05, 0.01, key="alpha_anova")

	st.subheader(f"Preço de Venda por '{anova_var}'")
	fig_anova_box = px.box(data, x=anova_var, y='SalePrice', title=f"Boxplot de SalePrice por {anova_var}",
	category_orders={anova_var: data.groupby(anova_var)['SalePrice'].median().sort_values().index})
	st.plotly_chart(fig_anova_box, use_container_width=True)

	if st.button("Executar Análise ANOVA"):
	groups = [group["SalePrice"].dropna() for name, group in data.groupby(anova_var)]
	stat_levene, p_levene = levene(*groups)

	# Envolve a variável em Q("") para lidar com espaços no nome
	formula = f'SalePrice ~ C(Q("{anova_var}"))'
	model_ols = ols(formula, data=data).fit()

	stat_shapiro, p_shapiro = shapiro(model_ols.resid)

	st.subheader("Resultados dos Testes de Pressupostos")
	st.markdown(f"Levene (homocedasticidade): p = {p_levene:.4f}")
	st.markdown(f"Shapiro-Wilk (normalidade resíduos): p = {p_shapiro:.4f}")
	st.info("Shapiro-Wilk pode rejeitar normalidade em grandes amostras — verifique QQ-plot e JB.")

	if p_levene >= alpha_anova and p_shapiro >= alpha_anova:
	st.info("Pressupostos atendidos — aplicando ANOVA (F).")
	anova_result = sm.stats.anova_lm(model_ols, typ=2)
	st.dataframe(anova_result)
	p_value_main = anova_result['PR(>F)'][0]
	test_used = "ANOVA"
	else:
	st.warning("Pressupostos não atendidos — aplicando Kruskal-Wallis (teste não paramétrico).")
	stat_kruskal, p_kruskal = kruskal(*groups)
	st.markdown(f"Kruskal-Wallis: estatística = {stat_kruskal:.3f}, p = {p_kruskal:.4f}")
	p_value_main = p_kruskal
	test_used = "Kruskal-Wallis"

	if p_value_main < alpha_anova:
	st.success(f"✅ Diferença significativa entre grupos detectada (p = {p_value_main:.4f} < {alpha_anova})")
	else:
	st.info(f"ℹ️ Nenhuma diferença estatisticamente significativa encontrada entre grupos (p = {p_value_main:.4f} >= {alpha_anova})")

	st.subheader("📊 Interpretação Prática e Impacto para o Negócio")

	group_stats = data.groupby(anova_var)['SalePrice'].agg([
	('n', 'count'),
	('média', 'mean'),
	('mediana', 'median'),
	('desvio_padrão', 'std'),
	('mínimo', 'min'),
	('máximo', 'max')
	]).round(2)

	group_stats = group_stats.sort_values('média', ascending=False)

	st.markdown("Estatísticas Descritivas por Categoria:")
	st.dataframe(group_stats.style.format({
	'média': '${:,.2f}',
	'mediana': '${:,.2f}',
	'desvio_padrão': '${:,.2f}',
	'mínimo': '${:,.2f}',
	'máximo': '${:,.2f}'
	}))

	if p_value_main < alpha_anova:
	st.markdown("---")
	st.markdown("### 🎯 Insights Estratégicos para Tomada de Decisão")

	categoria_mais_cara = group_stats.index[0]
	preco_mais_caro = group_stats.iloc[0]['média']
	categoria_mais_barata = group_stats.index[-1]
	preco_mais_barato = group_stats.iloc[-1]['média']

	diferenca_absoluta = preco_mais_caro - preco_mais_barato
	diferenca_percentual = ((preco_mais_caro / preco_mais_barato) - 1) * 100

	st.markdown(f"""
	1️⃣ Diferença de Valorização Identificada:
	- A categoria '{categoria_mais_cara}' apresenta o maior preço médio: ${preco_mais_caro:,.2f}
	- A categoria '{categoria_mais_barata}' apresenta o menor preço médio: ${preco_mais_barato:,.2f}
	- Diferença: ${diferenca_absoluta:,.2f} ({diferenca_percentual:.1f}% mais caro)
	""")

	if anova_var in ['Neighborhood', 'MS Zoning']:
	st.markdown(f"""
	2️⃣ Recomendações para Investidores:
	- Oportunidade de alto retorno: Focar em imóveis na categoria '{categoria_mais_cara}' pode maximizar o valor de revenda.
	- Oportunidade de valorização: Imóveis em '{categoria_mais_barata}' podem ser boas opções para reforma/revitalização se houver potencial de melhoria da região.
	""")

	elif anova_var in ['Overall Qual', 'Kitchen Qual', 'Exter Qual']:
	st.markdown(f"""
	2️⃣ Recomendações para Proprietários:
	- Investimento em melhorias: Elevar a qualidade de '{categoria_mais_barata}' para '{categoria_mais_cara}' pode agregar até ${diferenca_absoluta:,.2f} ao valor do imóvel.
	- Priorização de reformas: Foque em melhorias que elevem a classificação de qualidade, pois o impacto no preço é estatisticamente comprovado.
	""")

	elif anova_var in ['Garage Cars', 'Full Bath', 'Bedroom AbvGr']:
	st.markdown(f"""
	2️⃣ Recomendações de Design e Reforma:
	- Impacto quantitativo: Aumentar de '{categoria_mais_barata}' para '{categoria_mais_cara}' está associado a um acréscimo médio de ${diferenca_absoluta:,.2f} no valor.
	- Reforma estratégica: Se viável, considere adicionar unidades/capacidade nesta característica para valorizar o imóvel.
	""")

	else:
	st.markdown("---")
	st.markdown("### ℹ️ Interpretação")
	st.markdown(f"""
	Não foram encontradas diferenças estatisticamente significativas nos preços médios entre as categorias de '{anova_var}' (p = {p_value_main:.4f}).
	Implicações práticas: Esta característica não é um diferencial significativo na precificação de imóveis quando analisada isoladamente.
	""")

	st.caption(f"💡 Fonte: Análise do Ames Housing Dataset usando {test_used} (α = {alpha_anova})")


	with tab_regressao:
	st.header("Modelo de Regressão Linear Múltipla")
	st.sidebar.header("Configurações da Regressão")

	numeric_cols_reg = safe_numeric_columns(data)
	categorical_cols_reg = [c for c in ['Neighborhood', 'House Style', 'Overall Qual', 'Kitchen Qual', 'Foundation', 'Exter Qual'] if c in data.columns]

	selected_numeric = st.sidebar.multiselect("Selecione variáveis numéricas (contínuas):", numeric_cols_reg,
	default=['Gr Liv Area', 'Garage Area', 'Total Bsmt SF', '1st Flr SF'])
	selected_categorical = st.sidebar.multiselect("Selecione variáveis categóricas:", categorical_cols_reg,
	default=['Overall Qual', 'Neighborhood'])

	st.sidebar.markdown("Requisitos: escolha entre 4 e 6 variáveis no total; pelo menos 1 contínua e 1 categórica.")
	use_log_transform = st.sidebar.checkbox("Usar transformação log1p em y e em variáveis numéricas selecionadas", value=True)
	alpha_reg = st.sidebar.slider("Nível de Significância (α) - Regressão", 0.01, 0.10, 0.05, 0.01, key="alpha_reg")

	if st.button("Executar Modelo de Regressão"):
	total_selected = len(selected_numeric) + len(selected_categorical)
	if not (4 <= total_selected <= 6):
	st.error("Seleção inválida: escolha entre 4 e 6 variáveis no total (numéricas + categóricas).")
	st.stop()
	if len(selected_numeric) < 1 or len(selected_categorical) < 1:
	st.error("Seleção inválida: deve haver pelo menos 1 variável contínua e 1 categórica.")
	st.stop()

	cols_model = selected_numeric + selected_categorical + ['SalePrice']
	df_model = data[cols_model].copy()
	df_model[selected_numeric] = df_model[selected_numeric].fillna(df_model[selected_numeric].median())
	for c in selected_categorical:
	if c in df_model.columns:
	df_model[c] = df_model[c].fillna('Missing')

	high_card_cols = [c for c in selected_categorical if df_model[c].nunique() > 15]
	for c in high_card_cols:
	st.info(f"A coluna '{c}' tem alta cardinalidade ({df_model[c].nunique()} categorias). Agrupando menores frequências em 'Other' (top 10 mantidos).")
	df_model[c] = group_top_categories(df_model, c, top_n=10)

	if use_log_transform:
	df_model['SalePrice'] = np.log1p(df_model['SalePrice'])
	for col in selected_numeric:
	if (df_model[col] >= 0).all():
	df_model[col] = np.log1p(df_model[col])
	else:
	st.warning(f"A variável '{col}' contém valores negativos e permanecerá na escala original.")

	X = pd.get_dummies(df_model.drop('SalePrice', axis=1), drop_first=True, dtype=float)
	y = df_model['SalePrice']

	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)
	X_train_sm = sm.add_constant(X_train)
	X_test_sm = sm.add_constant(X_test, has_constant='add')

	model = sm.OLS(y_train, X_train_sm).fit()
	st.subheader("Sumário do Modelo (Treino)")
	st.text(model.summary().as_text())

	pred_test = model.predict(X_test_sm)
	y_test_orig = np.expm1(y_test) if use_log_transform else y_test
	pred_test_orig = np.expm1(pred_test) if use_log_transform else pred_test

	rmse_test = np.sqrt(mean_squared_error(y_test_orig, pred_test_orig))
	mae_test = mean_absolute_error(y_test_orig, pred_test_orig)

	st.subheader("Métricas de Desempenho (no conjunto de teste)")
	col1, col2 = st.columns(2)
	col1.metric("RMSE (teste)", f"${rmse_test:,.2f}")
	col2.metric("MAE (teste)", f"${mae_test:,.2f}")

	st.subheader("Diagnósticos dos Pressupostos (no conjunto de treino)")
	resid = model.resid
	_, p_shapiro = shapiro(resid)
	jb_stat, jb_pvalue, _, _ = jarque_bera(resid)
	st.markdown(f"- Normalidade dos resíduos (Shapiro-Wilk): p = {p_shapiro:.4f} {'✅' if p_shapiro >= alpha_reg else '❌'}")
	st.markdown(f"- Normalidade dos resíduos (Jarque-Bera): p = {jb_pvalue:.4f} {'✅' if jb_pvalue >= alpha_reg else '❌'}")

	fig_qq = sm.qqplot(resid, line='45', fit=True)
	st.pyplot(fig_qq)

	_, bp_lm_pvalue, _, _ = het_breuschpagan(resid, model.model.exog)
	st.markdown(f"- Homocedasticidade (Breusch-Pagan): p = {bp_lm_pvalue:.4f} {'✅' if bp_lm_pvalue >= alpha_reg else '❌'}")

	dw = durbin_watson(resid)
	st.markdown(f"- Autocorrelação de resíduos (Durbin-Watson): {dw:.3f} (valores próximos de 2 são ideais)")

	predictions_train = model.fittedvalues
	fig_line = px.scatter(x=predictions_train, y=resid, labels={'x': 'Valores Preditos', 'y': 'Resíduos'}, title='Resíduos vs. Valores Preditos (Linearidade)')
	fig_line.add_hline(y=0, line_dash="dash", line_color="red")
	st.plotly_chart(fig_line, use_container_width=True)

	X_vif = X_train_sm.drop(columns=['const'], errors='ignore')
	if not X_vif.empty:
	vif_df = compute_vif(X_vif)
	st.subheader("VIF (Multicolinearidade)")
	st.dataframe(vif_df.sort_values('VIF', ascending=False).reset_index(drop=True))
	if (vif_df['VIF'] > 10).any():
	st.warning("VIFs > 10 indicam multicolinearidade severa.")

	if bp_lm_pvalue < alpha_reg:
	st.warning("Heterocedasticidade detectada. Exibindo resultados com erros robustos (HC3).")
	robust_res = model.get_robustcov_results(cov_type='HC3')
	st.text(robust_res.summary().as_text())

	st.subheader("🎯 Recomendações Práticas")

	if bp_lm_pvalue < alpha_reg:
	final_model_params = pd.Series(robust_res.params, index=model.params.index)
	final_model_pvalues = pd.Series(robust_res.pvalues, index=model.params.index)
	else:
	final_model_params = model.params
	final_model_pvalues = model.pvalues

	for var in final_model_params.index:
	if var == 'const': continue
	if final_model_pvalues[var] < alpha_reg:
	coef = final_model_params[var]
	is_dummy = any(cat_col in var for cat_col in selected_categorical)

	if use_log_transform:
	if is_dummy:
	impact = (np.exp(coef) - 1) * 100
	st.write(f"🏷️ {var}: Associado a uma alteração de {impact:+.2f}% no preço.")
	else: # contínua
	impact = coef * 100
	st.write(f"📈 {var}: Aumento de 1% está associado a {impact:+.2f}% no preço.")
	else: # modelo linear
	st.write(f"{var}: Aumento de 1 unidade está associado a ${coef:,.2f} no preço.")

	st.subheader("Validação Cruzada")
	if st.checkbox("Mostrar Validação Cruzada (5 folds)"):
	pipeline = make_pipeline(StandardScaler(), LinearRegression())
	y_cv_pred = cross_val_predict(pipeline, X, y, cv=5)
	y_orig = np.expm1(y) if use_log_transform else y
	y_cv_pred_orig = np.expm1(y_cv_pred) if use_log_transform else y_cv_pred
	rmse_cv = np.sqrt(mean_squared_error(y_orig, y_cv_pred_orig))
	st.metric("RMSE Médio (CV 5-fold)", f"${rmse_cv:,.2f}")


	else:
	st.warning("Aguardando o carregamento dos dados... Verifique a conexão e as credenciais do Kaggle.")