Spaces:

CursoIDSA
/

Regresion

Sleeping

App Files Files Community

Regresion / app.py

CursoIDSA

Update app.py

7854b44 verified 7 months ago

raw

history blame contribute delete

15 kB

	# 1. CARGA DE LIBRERÍAS ------------------------------------
	import pandas as pd
	import numpy as np
	import seaborn as sns
	import matplotlib.pyplot as plt
	import plotly.express as px
	import plotly.graph_objects as go
	import statsmodels.formula.api as smf
	import itertools
	import io
	import gradio as gr
	import warnings
	warnings.filterwarnings("ignore")


	# 2. CARGA Y PREPARACIÓN DE LOS DATOS ---------------------
	try:
	# Use the raw URL to the CSV file
	# Para Hugging Face Spaces, la ruta es local al repositorio
	seguros = pd.read_csv('Costo_Seguro.csv')
	# print("Dataset 'Costo_Seguro' cargado correctamente.")
	except Exception as e:
	print(f"Fallo al cargar el archivo: {e}.")

	modelo_RLM = None # Objeto para guardar el modelo de Regresión Lineal Múltiple
	modelo_RLM_log = None # Objeto para guardar el modelo de Regresión Lineal Múltiple Logarítmico

	# Modelo Regresión Lineal Múltiple
	formula = 'seguro ~ edad + imc + C(genero) + C(hijos) + C(fumador) + C(region)'
	modelo_RLM = smf.ols(formula, data = seguros).fit()

	# Modelo Regresión Lineal Múltiple logarítmico
	formula = 'np.log(seguro) ~ edad + imc + C(genero) + C(hijos) + C(fumador) + C(region)'
	modelo_RLM_log = smf.ols(formula, data = seguros).fit()

	# Mostrar la forma (filas, columnas) del dataset original
	# print(f"\nForma del dataset original: {seguros.shape}")

	# Mostrar las primeras filas deL dataset
	# print("\nPrimetras 20 filas del dataset:")
	# print(seguros.head(20))

	### FUNCIONES PARA PRESENTAR DATOS / GRÁFICOS EN LA INTERFAZ GRADIO

	def obtener_info_dataset():

	# Convertimos la tupla shape a Markdown
	filas, columnas = seguros.shape
	info_shape = f"{filas} filas, {columnas} columnas"

	# Convertimos el DataFrame.head() a Markdown
	info_head = seguros.head(10).to_markdown(index=False)

	# Convertimos el DataFrame.describe() a Markdown
	info_describe = seguros.describe().to_markdown()

	return info_shape, info_head, info_describe


	def generar_graficos():

	plt1 = px.histogram(seguros, x='seguro', nbins=50,
	title="Histograma del Costo del Seguro",
	labels={'seguro': 'Costo del Seguro'})
	#plt1.show()

	plt2 = px.box(seguros, x='genero', y='seguro',
	title="Distribución del Costo del Seguro por Género",
	labels={'genero': 'Género del Asegurado', 'seguro': 'Costo del Seguro'})
	# plt2.show()

	plt3 = px.box(seguros, x='fumador', y='seguro',
	title="Distribución del Costo del Seguro por Condición de Fumador",
	labels={'fumador': 'Condición de Fumador del Asegurado', 'seguro': 'Costo del Seguro'})
	# plt3.show()

	plt4 = px.box(seguros, x='region', y='seguro',
	title="Distribución del Costo del Seguro por Regiones",
	labels={'region': 'Región de Origen del Asegurado', 'seguro': 'Costo del Seguro'})
	# plt4.show()

	plt5 = px.scatter(seguros, x='edad', y='seguro',
	title="Edad vs. Costo del Seguro",
	labels={'edad': 'Edad del Asegurado', 'seguro': 'Costo del Seguro'})
	# plt5.show()

	plt6 = px.scatter(seguros, x='imc', y='seguro',
	title="IMC vs. Costo del Seguro",
	labels={'imc': 'Índice de Masa Corporal del Asegurado', 'seguro': 'Costo del Seguro'})
	# plt6.show()

	return plt1, plt2, plt3, plt4, plt5, plt6


	def calcular_RLS():

	# Costo del Seguro vs. Edad
	RLS_1 = smf.ols('seguro ~ edad', data=seguros).fit()
	summary_text_1 = RLS_1.summary().as_text()
	data1_1 = f"```\n{summary_text_1}\n```" # Envuelve el texto en un bloque de código Markdown
	# Métricas
	r2 = RLS_1.rsquared
	adj = RLS_1.rsquared_adj
	rmse = np.sqrt(np.mean(RLS_1.resid**2))
	data1_2 = f"<b>Métricas:</b><br><b>R² = {r2:.4f}</b><br><b>R² Ajustado = {adj:.4f}</b><br><b>RMSE = {rmse:.2f}</b>"
	# Ecuación de la recta
	b0, b1 = RLS_1.params
	data1_3 = f"<b>Ecuación de la Recta:</b><br><b>Costo del Seguro = {b0:.2f} + {b1:.2f} * Edad</b>"
	# Gráfico de la recta de regresión
	grid1 = np.linspace(seguros['edad'].min(), seguros['edad'].max(), 100)
	preds1 = RLS_1.predict(pd.DataFrame({'edad': grid1}))
	fig1 = go.Figure([
	go.Scatter(x=seguros['edad'], y=seguros['seguro'], mode='markers', name='Datos'),
	go.Scatter(x=grid1, y=preds1, mode='lines', name='Recta')
	])
	fig1.update_layout(# title="Regresión Lineal Simple: Costo del Seguro vs. Edad",
	xaxis_title='Edad', yaxis_title='Costo del Seguro')
	# fig1.show()

	# Costo del Sefuro vs. IMC
	RLS_2 = smf.ols('seguro ~ imc', data=seguros).fit()
	summary_text_2 = RLS_1.summary().as_text()
	data2_1 = f"```\n{summary_text_2}\n```" # Envuelve el texto en un bloque de código Markdown
	# Métricas
	r2 = RLS_2.rsquared
	adj = RLS_2.rsquared_adj
	rmse = np.sqrt(np.mean(RLS_2.resid**2))
	data2_2 = f"<b>Métricas:</b><br><b>R² = {r2:.4f}</b><br><b>R² Ajustado = {adj:.4f}</b><br><b>RMSE = {rmse:.2f}</b>"
	# Ecuación de la recta
	b0, b1 = RLS_2.params
	data2_3 = f"<b>Ecuación de la Recta:</b><br><b>Costo del Seguro = {b0:.2f} + {b1:.2f} * IMC</b>"
	# Gráfico de la recta de regresión
	grid2 = np.linspace(seguros['imc'].min(), seguros['imc'].max(), 100)
	preds2 = RLS_2.predict(pd.DataFrame({'imc': grid2}))
	fig2 = go.Figure([
	go.Scatter(x=seguros['imc'], y=seguros['seguro'], mode='markers', name='Datos'),
	go.Scatter(x=grid2, y=preds2, mode='lines', name='Recta')
	])
	fig2.update_layout(# title="Regresión Lineal Simple: Costo del Seguro vs. IMC",
	xaxis_title='IMC', yaxis_title='Costo del Seguro')
	# fig2.show()

	return data1_1, data1_2, data1_3, data2_1, data2_2, data2_3, fig1, fig2


	def calcular_RLM():
	summary_text = modelo_RLM.summary().as_text()
	data1 = f"```\n{summary_text}\n```"
	# Métricas
	r2 = modelo_RLM.rsquared
	adj = modelo_RLM.rsquared_adj
	rmse = np.sqrt(np.mean(modelo_RLM.resid**2))
	data2 = f"<b>Métricas:</b><br><b>R² = {r2:.4f}</b><br><b>R² Ajustado = {adj:.4f}</b><br><b>RMSE = {rmse:.2f}</b>"

	# Coeficientes de la Regresión Lineal Múltiple
	coef_orig = modelo_RLM.params
	terms = [f"{coef_orig['Intercept']:.2f}"]
	for name, coef in coef_orig.items():
	if name == 'Intercept': continue
	terms.append(f"{coef:+.2f}*{name}")
	data3 = "Costo del Seguro = " + " ".join(terms)
	data3 = f"<b>{data3}</b>"

	return data1, data2, data3


	def graficar_residuos():

	fig, axes = plt.subplots(1, 2, figsize=(12,5))
	# Gráfico de Residuos vs Costo del Seguro Ajustado
	axes[0].scatter(modelo_RLM.fittedvalues, modelo_RLM.resid, alpha=0.5)
	axes[0].axhline(0, color='red')
	axes[0].set(title='Residuos vs Costo del Seguro Ajustado', xlabel = 'Costo Ajustado', ylabel = 'Residuos')

	# Gráfico de Residuos vs Log(Costo del Seguro Ajustado)
	axes[1].scatter(modelo_RLM_log.fittedvalues, modelo_RLM_log.resid, color='darkgreen', alpha=0.5)
	axes[1].axhline(0, color='red')
	axes[1].set(title='Residuos vs Logaritmo del Costo del Seguro Ajustado', xlabel = 'Logaritmo del Costo Ajustado', ylabel = 'Residuos')
	plt.tight_layout()

	# IMPORTANTE: Para Gradio en Hugging Face, se retorna el objeto `plt`
	# o se usa `gr.Plot(plt.gcf())`. Aquí devolveremos el objeto `plt`.
	# Alternativamente, podrías guardar la imagen y devolver la ruta, pero devolver `plt` es más directo con `gr.Plot`.
	return plt


	def predecir_costo(edad, genero, imc, hijos, fumador, region):
	global modelo_RLM

	if modelo_RLM is None:
	# Esto no debería ocurrir si el modelo se entrena al inicio,
	# pero es una buena práctica de manejo de errores.
	return 0, 0, "ERROR: El Modelo de RLM no está disponible."

	nuevo = pd.DataFrame({
	'edad': [edad],
	'genero': [genero],
	'imc': [imc],
	'hijos': [hijos],
	'fumador': [fumador],
	'region': [region]
	})

	# Predicción con el modelo RLM original (variable dependiente 'seguro')
	prediccion1 = modelo_RLM.predict(nuevo)[0]

	# Predicción con el modelo RLM logarítmico (variable dependiente 'np.log(seguro)')
	prediccion_log = modelo_RLM_log.predict(nuevo)[0]
	# Se revierte el logaritmo con np.exp() para obtener la predicción original
	prediccion2 = np.exp(prediccion_log)

	return prediccion1, prediccion2

	### INTERFAZ GRADIO CON ESTRUCTURA DE PESTAÑAS

	with gr.Blocks() as appweb: # Contenedor principal
	with gr.Row():
	gr.Image('encabezado.png', container = False)
	# Título de la aplicación
	# gr.Markdown("# COSTO DE SEGUROS PERSONALES")

	# Contenedor de pestañas
	with gr.Tabs():

	# Pestaña 1: Inicio
	with gr.TabItem("Inicio") as tab_inicio:
	gr.Markdown("## DATASET DE COSTOS DE SEGUROS PERSONALES")
	gr.Markdown("### Estructura:")
	data1_output = gr.Markdown()
	gr.Markdown("### Primeras 10 filas:")
	data2_output = gr.Markdown()
	gr.Markdown("### Estadísticas Generales:")
	data3_output = gr.Markdown()

	# Se cargan los datos al iniciar la aplicación
	appweb.load(fn = obtener_info_dataset, inputs = None,
	outputs=[data1_output, data2_output, data3_output])

	# Se cargan los datos al seleccionar la pestaña "Inicio"
	# tab_inicio.select(fn = obtener_info_dataset, inputs = None,
	# outputs=[data1_output, data2_output, data3_output])

	# Pestaña 2: Gráficos Exploratorios
	with gr.TabItem("Gráficos") as tab_graficos:
	gr.Markdown("## VISUALIZACIÓN EXPLORATORIA DE DATOS")

	with gr.Row():
	plot1_output = gr.Plot(label=None, show_label=False)
	plot2_output = gr.Plot(label=None, show_label=False)
	with gr.Row():
	plot3_output = gr.Plot(label=None, show_label=False)
	plot4_output = gr.Plot(label=None, show_label=False)
	with gr.Row():
	plot5_output = gr.Plot(label=None, show_label=False)
	plot6_output = gr.Plot(label=None, show_label=False)

	# Alternativa 1: al presionar un botón se llama a la función generar_graficos()
	# btn_graficos = gr.Button("Gráficos")
	# btn_graficos.click(fn = generar_graficos, inputs = None,
	# outputs = [plot1_output, plot2_output, plot3_output,
	# plot4_output, plot5_output, plot6_output])

	# Alternativa 2: al seleccionar la pestaña "Gráficos" se llama a la función generar_graficos()
	# tab_graficos.select(fn = generar_graficos, inputs = None,
	# outputs = [plot1_output, plot2_output, plot3_output,
	# plot4_output, plot5_output, plot6_output])

	# Alternativa 3: al iniciar la aplicación se llama a la función generar_graficos()
	appweb.load(fn = generar_graficos, inputs = None,
	outputs = [plot1_output, plot2_output, plot3_output,
	plot4_output, plot5_output, plot6_output])


	# Pestaña 3: Regresiones Lineales Simples
	with gr.TabItem("Regresión Simple") as tab_reg_simple:
	gr.Markdown("# REGRESIONES LINEALES SIMPLES")

	gr.Markdown("## Costo del Seguro vs. Edad")
	reg11_output = gr.Markdown()
	with gr.Row():
	reg12_output = gr.Markdown()
	reg13_output = gr.Markdown()
	plotreg1_output = gr.Plot(label=None, show_label=False)

	gr.Markdown("## Costo del Seguro vs. IMC")
	reg21_output = gr.Markdown()
	with gr.Row():
	reg22_output = gr.Markdown()
	reg23_output = gr.Markdown()
	plotreg2_output = gr.Plot(label=None, show_label=False)

	tab_reg_simple.select(fn = calcular_RLS, inputs = None,
	outputs = [reg11_output, reg12_output, reg13_output,
	reg21_output, reg22_output, reg23_output,
	plotreg1_output, plotreg2_output])


	# Pestaña 4: Regresión Lineal Múltiple
	with gr.TabItem("Regresión Múltiple") as tab_reg_multiple:
	gr.Markdown("# REGRESIÓN LINEAL MÚLTIPLE")

	regm1_output = gr.Markdown()
	regm2_output = gr.Markdown()
	gr.Markdown("### Ecuación de la Regresión")
	regm3_output = gr.Markdown()

	tab_reg_multiple.select(fn = calcular_RLM, inputs = None,
	outputs = [regm1_output, regm2_output, regm3_output])


	# Pestaña 5: Comparación de Residuos
	with gr.TabItem("Residuos") as tab_residuos:
	gr.Markdown("## COMPARACIÓN DE RESIDUOS ENTRE COSTO DEL SEGURO Y LOG(COSTO DEL SEGURO)")
	plotres_output = gr.Plot(label=None, show_label=False)

	tab_residuos.select(fn = graficar_residuos, inputs = None, outputs = plotres_output)


	# Pestaña 6: Predicción de Costos - Modelo RLM
	with gr.TabItem("Predicción de Costos"):
	gr.Markdown("## PREDICCIÓN DE COSTOS DE SEGURO PERSONAL")

	with gr.Row():
	input_edad = gr.Slider(minimum=18, maximum=80, step=1, value=30, label="Edad")
	input_genero = gr.Radio(choices=["femenino", "masculino"], label="Género", value="femenino")
	with gr.Row():
	input_imc = gr.Slider(minimum=15, maximum=60, step=0.5, value=30.0, label="Índice de Masa Corporal")
	input_fumador = gr.Radio(choices=["si", "no"], label="Fumador", value="no")
	with gr.Row():
	input_hijos = gr.Slider(minimum=0, maximum=5, step=1, value=0, label="Cantidad de Hijos")
	input_region = gr.Radio(choices=["NO", "NE", "SO", "SE"], label="Región", value="NO")

	gr.Markdown("---")

	with gr.Row():
	btn_predecir = gr.Button("Predecir Costo")
	output_costo = gr.Number(label="Costo del Seguro (Modelo Lineal)", precision=2, value=0.00)
	output_costo_log = gr.Number(label="Costo del Seguro (Modelo Logarítmico)", precision=2, value=0.00)

	btn_predecir.click(fn = predecir_costo, inputs = [input_edad, input_genero, input_imc, input_hijos,
	input_fumador, input_region], outputs = [output_costo, output_costo_log])

	# Ejecución de la aplicación
	# MODIFICACIÓN CRUCIAL PARA HUGGING FACE SPACES
	# Usar server_name="0.0.0.0" y server_port=7860
	appweb.launch(server_name="0.0.0.0", server_port=7860)