Spaces:

Migue1804
/

process_optimization

Sleeping

App Files Files Community

process_optimization / app.py

Migue1804

Update app.py

1ed0844 verified about 1 year ago

raw

history blame contribute delete

21.3 kB

	import streamlit as st
	import pandas as pd
	import numpy as np
	import plotly.graph_objects as go
	from scipy.optimize import minimize, differential_evolution
	from sklearn.preprocessing import PolynomialFeatures
	from sklearn.linear_model import LinearRegression
	from sklearn.metrics import mean_squared_error, r2_score
	import matplotlib.pyplot as plt
	import seaborn as sns
	import io
	# Configuración inicial
	# Configuración de la aplicación
	st.set_page_config(page_title="Optimización Avanzada", page_icon="📊",layout="wide")
	# Display the image above the title
	st.image('cannabis.jpg', use_container_width=True)
	st.title("Optimización Avanzada con Diseño Experimental Box-Behnken")
	st.write("Aplicación con regresión cuadrática y estrategias de optimización mejoradas.")

	# Crear las pestañas
	tabs = st.selectbox("Selecciona una opción", ["Fundamento Teórico", "Aplicación Interactiva"])

	if tabs == "Fundamento Teórico":
	st.header("Fundamento Teórico")

	# Imagen del proceso
	st.subheader("Proceso de Extracción de CBD")
	st.image("CBD extraction process.png", caption="Proceso de Extracción de CBD con CO2 Supercrítico", use_container_width=True)
	st.write("""
	El proceso de extracción de CBD utiliza tecnología de CO2 supercrítico debido a su eficiencia y capacidad para producir extractos puros. Este método incluye etapas clave como molienda, extracción, separación y refinamiento, garantizando un producto de alta calidad para aplicaciones medicinales y comerciales.
	""")

	# Diseño Experimental Box-Behnken
	st.subheader("Diseño Experimental Box-Behnken")
	st.write("""
	El diseño experimental Box-Behnken se utiliza para modelar y optimizar procesos complejos. En este caso, se aplica para maximizar el rendimiento de CBD considerando variables clave como Temperatura, Presión, Flujo de CO2 y Tiempo.
	Este enfoque reduce significativamente la cantidad de experimentos necesarios, permitiendo explorar interacciones no lineales de manera eficiente.
	""")

	# Proceso de Producción de CBD
	st.subheader("Proceso de Producción de CBD")
	st.write("""
	Según el documento Optimization of Supercritical Carbon Dioxide Fluid Extraction of Medicinal Cannabis from Quebec, el proceso de extracción con CO2 supercrítico es preferido por su alta selectividad y pureza. Las principales etapas incluyen:
	1. Preparación de la materia prima: Molienda y acondicionamiento.
	2. Extracción supercrítica:
	- El CO2 actúa como solvente bajo condiciones controladas de presión y temperatura.
	- Variables clave: presión (150-320 bar), temperatura (40-70°C), flujo de CO2 (5-15 g/min), tiempo (2-4 horas).
	3. Separación y recolección: El CO2 se despresuriza para liberar los cannabinoides extraídos.
	4. Refinamiento posterior: Remoción de ceras y otros compuestos no deseados.
	""")

	# Caso de Negocio
	st.subheader("Caso de Negocio: Optimización del Rendimiento")
	st.write("""
	Optimizar el rendimiento del proceso de extracción permite:
	- Maximizar la cantidad de CBD extraído por lote.
	- Reducir costos operativos (energía, solventes, tiempo).
	- Mejorar la calidad del producto final.

	Este enfoque es crucial en la industria del cannabis medicinal, donde la eficiencia del proceso impacta directamente en la rentabilidad y sostenibilidad del negocio.
	""")

	# Método Basado en CRISP-DM
	st.subheader("Metodología Basada en CRISP-DM")
	st.write("""
	La metodología CRISP-DM estructura el desarrollo del modelo en seis etapas:
	1. Comprensión del Negocio: Definir objetivos y restricciones del proceso.
	2. Comprensión de los Datos: Analizar datos experimentales y evaluar su calidad.
	3. Preparación de los Datos: Limpiar y transformar datos para el modelado.
	4. Modelado: Ajustar un modelo de regresión cuadrática para capturar relaciones no lineales.
	5. Evaluación: Validar el modelo y analizar su desempeño.
	6. Despliegue: Implementar el modelo en una aplicación interactiva para optimización en tiempo real.
	""")

	# Optimización
	st.subheader("Optimización")
	st.write("""
	Se emplean técnicas avanzadas para maximizar el rendimiento:
	- L-BFGS-B: Método de optimización local.
	- Evolución Diferencial: Optimización global para evitar óptimos locales.
	- Múltiples inicios aleatorios: Combina estrategias locales y globales para robustez.
	""")

	# Referencias
	st.subheader("Referencias")
	st.write("""
	- [Optimization of Supercritical Carbon Dioxide Fluid Extraction of Medicinal Cannabis from Quebec](https://www.mdpi.com/2227-9717/11/7/1953).
	- Herrero, M., Cifuentes, A., & Ibañez, E. (2006). Supercritical fluid extraction: Recent advances and applications. Journal of Chromatography A, 1131(1), 1–24.
	- Turner, C., Mathiasson, L., & Lewis, G. (2001). Supercritical fluid extraction and chromatography. Journal of Biochemical Analysis, 121(3), 35–58.
	""")

	elif tabs == "Aplicación Interactiva":
	st.header("Aplicación Interactiva")
	st.write("A continuación, puedes cargar tus datos, realizar predicciones y optimizar el rendimiento del proceso de extracción de cannabinoides.")

	# Opciones de selección de datos de ejemplo
	st.subheader("Datos de Ejemplo")
	usar_datos_exp = st.checkbox("Usar datos de ejemplo: datos_exp.csv")
	usar_datos_process = st.checkbox("Usar datos de ejemplo: datos_process.csv")

	# Inicializar variable de datos
	data = None

	# Verificar qué checkbox está seleccionado y cargar el archivo correspondiente
	if usar_datos_exp and not usar_datos_process:
	data = pd.read_csv("data_exp.csv")
	st.success("Datos de ejemplo (datos_exp.csv) cargados exitosamente.")
	st.dataframe(data, use_container_width=True) # Ajustar al ancho de la app
	elif usar_datos_process and not usar_datos_exp:
	data = pd.read_csv("data_process.csv")
	st.success("Datos de ejemplo (datos_process.csv) cargados exitosamente.")
	st.dataframe(data, use_container_width=True) # Ajustar al ancho de la app
	elif usar_datos_exp and usar_datos_process:
	st.error("Por favor, selecciona solo un conjunto de datos de ejemplo a la vez.")

	# Opción para cargar datos personalizados
	st.subheader("Carga tus Datos")
	uploaded_file = st.file_uploader("Carga un archivo CSV con los datos experimentales:", type="csv")

	if uploaded_file is not None:
	# Leer datos cargados
	data = pd.read_csv(uploaded_file)
	st.success("Datos cargados exitosamente desde el archivo proporcionado.")
	st.dataframe(data, use_container_width=True) # Ajustar al ancho de la app

	# Validación para asegurarse de que se cargaron datos
	if data is None:
	st.warning("No se han cargado datos. Por favor, selecciona un archivo o usa datos de ejemplo.")
	else:
	st.write("### Datos listos para su análisis.")

	# Definir el orden fijo de variables
	variable_columns = ['Temperatura', 'Presión', 'Flujo_CO2', 'Tiempo']

	# Extraer variables independientes y dependiente en el orden correcto
	X = data[variable_columns]
	y = data['Rendimiento']

	# Generar términos cuadráticos (regresión polinómica de segundo grado)
	poly = PolynomialFeatures(degree=2, include_bias=False)
	X_poly = poly.fit_transform(X)
	columnas_poly = poly.get_feature_names_out(X.columns)

	# Ajustar modelo cuadrático
	modelo = LinearRegression()
	modelo.fit(X_poly, y)

	# Predicciones del modelo
	y_pred = modelo.predict(X_poly)

	# Evaluación del modelo
	st.subheader("Evaluación del Modelo Cuadrático")
	st.write(f"Error Cuadrático Medio (MSE): {mean_squared_error(y, y_pred):.4f}")
	st.write(f"R² (Coeficiente de Determinación): {r2_score(y, y_pred):.4f}")

	# Resumen del modelo: coeficientes

	# Visualización paralela usando columnas
	col1, col2 = st.columns(2)

	# En la columna 1, mostrar el DataFrame con términos y coeficientes, adaptado al ancho de la columna
	with col1:
	st.markdown("#### Términos y Coeficientes del Modelo")

	# Crear un DataFrame con los coeficientes
	coeficientes = pd.DataFrame({
	'Término': columnas_poly,
	'Coeficiente': modelo.coef_
	})

	coeficientes = coeficientes.sort_values(by='Coeficiente', ascending=False)

	# Función para aplicar colores a los coeficientes
	def color_coef(val):
	color = 'red' if val > 0 else 'blue' # Los coeficientes positivos serán rojos, negativos azules
	return f'background-color: {color}; color: white;'

	# Aplicar estilo a la columna 'Coeficiente' para colorear los valores
	styled_coef = coeficientes.style.applymap(color_coef, subset=['Coeficiente'])

	# Mostrar el DataFrame estilizado y ajustado al ancho de la columna
	st.dataframe(styled_coef, use_container_width=True)

	# En la columna 2, mostrar el gráfico de importancia de las variables, adaptado al ancho de la columna
	with col2:
	st.markdown("#### Importancia de las Variables (Feature Importance)")

	# Calcular la importancia de las variables (valor absoluto de los coeficientes)
	coef_abs = np.abs(modelo.coef_) # Valor absoluto de los coeficientes
	feature_importance = pd.DataFrame({
	'Variable': columnas_poly,
	'Importancia': coef_abs
	}).sort_values(by='Importancia', ascending=False) # De mayor a menor

	# Gráfico de barras horizontal con el eje Y invertido
	fig_importance = go.Figure(go.Bar(
	y=feature_importance['Variable'],
	x=feature_importance['Importancia'],
	orientation='h',
	marker=dict(color='teal')
	))
	fig_importance.update_layout(
	title="Importancia de las Variables en el Modelo Cuadrático",
	xaxis_title="Importancia",
	yaxis_title="Variables",
	yaxis=dict(autorange="reversed"), # Invertir el eje Y
	margin=dict(l=0, r=0, t=30, b=30) # Ajustar márgenes
	)
	st.plotly_chart(fig_importance, use_container_width=True)

	# Superficies de respuesta dinámicas
	st.subheader("Superficies de Respuesta")

	# Selector de variables
	eje_x = st.selectbox("Selecciona la variable para el eje X:", variable_columns, index=0)
	eje_z = st.selectbox("Selecciona la variable para el eje Z:", variable_columns, index=1)

	# Rango para generar puntos
	x_range = np.linspace(X[eje_x].min(), X[eje_x].max(), 50)
	z_range = np.linspace(X[eje_z].min(), X[eje_z].max(), 50)
	X_grid, Z_grid = np.meshgrid(x_range, z_range)

	# Preparar valores para las otras dos variables
	otras_variables = [col for col in variable_columns if col not in [eje_x, eje_z]]

	# Crear grilla de predicción con orden de columnas fijo
	grid_data = []
	for x_val, z_val in zip(X_grid.ravel(), Z_grid.ravel()):
	# Crear un diccionario con todas las variables en el orden correcto
	row_data = dict(zip(variable_columns, [
	x_val if eje_x == 'Temperatura' else X['Temperatura'].mean(),
	x_val if eje_x == 'Presión' else (z_val if eje_z == 'Presión' else X['Presión'].mean()),
	x_val if eje_x == 'Flujo_CO2' else (z_val if eje_z == 'Flujo_CO2' else X['Flujo_CO2'].mean()),
	x_val if eje_x == 'Tiempo' else (z_val if eje_z == 'Tiempo' else X['Tiempo'].mean())
	]))
	grid_data.append(row_data)

	# Convertir a DataFrame con orden de columnas fijo
	grid_df = pd.DataFrame(grid_data)[variable_columns]

	# Transformar datos para predicciones
	grid_poly = poly.transform(grid_df)

	# Predecir valores
	Y_grid = modelo.predict(grid_poly).reshape(X_grid.shape)

	# Gráfico dinámico con Plotly
	fig = go.Figure(data=[go.Surface(z=Y_grid, x=X_grid, y=Z_grid, colorscale='Viridis')])
	fig.update_layout(
	title=f"Superficie de Respuesta: {eje_x} vs {eje_z} vs Rendimiento",
	scene=dict(
	xaxis_title=eje_x,
	yaxis_title=eje_z,
	zaxis_title="Rendimiento (%)"
	)
	)
	st.plotly_chart(fig, use_container_width=True)

	# Análisis de sensibilidad
	st.subheader("Análisis de Sensibilidad")
	temp = st.slider("Temperatura (°C)", int(X['Temperatura'].min()), int(X['Temperatura'].max()), int(X['Temperatura'].mean()))
	pres = st.slider("Presión (Bar)", int(X['Presión'].min()), int(X['Presión'].max()), int(X['Presión'].mean()))
	flujo = st.slider("Flujo CO2 (g/min)", int(X['Flujo_CO2'].min()), int(X['Flujo_CO2'].max()), int(X['Flujo_CO2'].mean()))
	tiempo = st.slider("Tiempo (h)", int(X['Tiempo'].min()), int(X['Tiempo'].max()), int(X['Tiempo'].mean()))

	# Predicción para los valores seleccionados
	entrada_sensibilidad = pd.DataFrame({'Temperatura': [temp], 'Presión': [pres], 'Flujo_CO2': [flujo], 'Tiempo': [tiempo]})
	entrada_poly = poly.transform(entrada_sensibilidad)
	prediccion = modelo.predict(entrada_poly)
	st.write(f"Rendimiento Predicho: {prediccion[0]:.2f}%")

	# Optimización de puntos mejorada
	st.subheader("Determinación de Puntos Óptimos")
	def objetivo(params):
	"""Función objetivo para optimización."""
	# Transformar parámetros a DataFrame
	entrada = pd.DataFrame([params], columns=variable_columns)
	entrada_poly = poly.transform(entrada)
	return -modelo.predict(entrada_poly)[0] # Negativo para maximizar

	# Métodos de Optimización
	st.write("#### Comparación de Métodos de Optimización")

	# Límites de las variables
	limites = [(X[col].min(), X[col].max()) for col in variable_columns]

	# 1. Optimización por L-BFGS-B (Método Local)
	#st.write("##### Método L-BFGS-B (Optimización Local)")
	x0 = [X[col].mean() for col in variable_columns]
	resultado_lbfgs = minimize(
	objetivo,
	x0=x0,
	bounds=limites,
	method='L-BFGS-B'
	)

	# 2. Evolución Diferencial (Método Global)
	#st.write("##### Evolución Diferencial (Optimización Global)")
	resultado_de = differential_evolution(
	objetivo,
	bounds=limites,
	strategy='best1bin',
	popsize=15,
	maxiter=100
	)

	# 3. Múltiples Inicios Aleatorios
	#st.write("##### Múltiples Inicios Aleatorios")
	def multi_start_optimize(num_starts=10):
	resultados = []
	for _ in range(num_starts):
	# Punto inicial aleatorio
	x0 = [np.random.uniform(low, high) for low, high in limites]

	resultado = minimize(
	objetivo,
	x0=x0,
	bounds=limites,
	method='L-BFGS-B'
	)
	resultados.append((resultado, -resultado.fun))

	# Encontrar el mejor resultado
	return max(resultados, key=lambda x: x[1])

	resultado_multi = multi_start_optimize()

	# Mostrar resultados de optimización
	metodos = [
	("L-BFGS-B", resultado_lbfgs, -resultado_lbfgs.fun),
	("Evolución Diferencial", resultado_de, -resultado_de.fun),
	("Múltiples Inicios", resultado_multi[0], resultado_multi[1])
	]

	# Tabla comparativa de resultados
	resultados_df = pd.DataFrame(columns=variable_columns + ['Rendimiento Predicho'])
	for nombre, resultado, rendimiento in metodos:
	if resultado.success:
	fila = pd.DataFrame([list(resultado.x) + [rendimiento]],
	columns=variable_columns + ['Rendimiento Predicho'])
	fila.insert(0, 'Método', nombre)
	resultados_df = pd.concat([resultados_df, fila], ignore_index=True)

	# Mostrar tabla de resultados
	#st.write("### Comparación de Resultados de Optimización")
	st.dataframe(resultados_df)

	# Seleccionar el mejor resultado
	mejor_resultado = resultados_df.loc[resultados_df['Rendimiento Predicho'].idxmax()]
	st.write("### Punto Óptimo Recomendado")
	st.write(f"Método: {mejor_resultado['Método']}")

	# Mostrar detalles del mejor punto
	detalles_optimos = mejor_resultado[variable_columns].to_dict()
	detalles_str = ", ".join([f"{col}: {val:.2f}" for col, val in detalles_optimos.items()])
	st.write(f"Punto Óptimo: {detalles_str}")
	st.write(f"Rendimiento Máximo Predicho: {mejor_resultado['Rendimiento Predicho']:.2f}%")

	# Análisis de Incertidumbre
	st.subheader("Análisis de Incertidumbre")

	# Input para número de bootstraps
	num_bootstraps = st.number_input(
	"Número de Bootstraps",
	min_value=10,
	max_value=1000,
	value=100,
	step=10,
	help="Número de remuestreos para el análisis de incertidumbre"
	)

	# Botón para realizar análisis de incertidumbre
	if st.button("Realizar Análisis de Incertidumbre"):
	with st.spinner('Realizando análisis de bootstrapping...'):
	# Bootstrap para estimar intervalos de confianza
	def bootstrap_optimize(num_bootstraps=num_bootstraps):
	resultados_bootstrap = []

	for _ in range(num_bootstraps):
	# Muestreo con reemplazo
	indices = np.random.randint(0, len(X), len(X))
	X_boot = X.iloc[indices]
	y_boot = y.iloc[indices]

	# Ajustar modelo
	poly_boot = PolynomialFeatures(degree=2, include_bias=False)
	X_poly_boot = poly_boot.fit_transform(X_boot)
	modelo_boot = LinearRegression()
	modelo_boot.fit(X_poly_boot, y_boot)

	# Definir nueva función objetivo
	def objetivo_boot(params):
	entrada = pd.DataFrame([params], columns=variable_columns)
	entrada_poly = poly_boot.transform(entrada)
	return -modelo_boot.predict(entrada_poly)[0]

	# Optimizar
	resultado = differential_evolution(
	objetivo_boot,
	bounds=limites,
	strategy='best1bin',
	popsize=15,
	maxiter=100
	)

	resultados_bootstrap.append({
	'Punto': resultado.x,
	'Rendimiento': -resultado.fun
	})

	return resultados_bootstrap

	# Realizar bootstrap
	resultados_bootstrap = bootstrap_optimize()

	# Convertir a DataFrame
	bootstrap_df = pd.DataFrame(resultados_bootstrap)

	# Calcular intervalos de confianza
	intervalos_confianza = {}
	for i, col in enumerate(variable_columns):
	intervalos_confianza[col] = (
	np.percentile(bootstrap_df['Punto'].apply(lambda x: x[i]), 2.5),
	np.percentile(bootstrap_df['Punto'].apply(lambda x: x[i]), 97.5)
	)

	# Mostrar intervalos de confianza
	st.write("### Intervalos de Confianza (95%)")
	for col, (min_val, max_val) in intervalos_confianza.items():
	st.write(f"{col}: [{min_val:.2f}, {max_val:.2f}]")

	# Distribución de rendimientos
	st.write("### Distribución de Rendimientos en Bootstrap")
	fig_bootstrap = plt.figure(figsize=(10, 6))
	plt.hist(bootstrap_df['Rendimiento'], bins=30, edgecolor='black')
	plt.title(f'Distribución de Rendimientos Predichos (Bootstrap: {num_bootstraps})')
	plt.xlabel('Rendimiento (%)')
	plt.ylabel('Frecuencia')
	st.pyplot(fig_bootstrap)