Migue1804's picture
Update app.py
1ed0844 verified
import streamlit as st
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from scipy.optimize import minimize, differential_evolution
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns
import io
# Configuración inicial
# Configuración de la aplicación
st.set_page_config(page_title="Optimización Avanzada", page_icon="📊",layout="wide")
# Display the image above the title
st.image('cannabis.jpg', use_container_width=True)
st.title("Optimización Avanzada con Diseño Experimental Box-Behnken")
st.write("Aplicación con regresión cuadrática y estrategias de optimización mejoradas.")
# Crear las pestañas
tabs = st.selectbox("Selecciona una opción", ["Fundamento Teórico", "Aplicación Interactiva"])
if tabs == "Fundamento Teórico":
st.header("Fundamento Teórico")
# Imagen del proceso
st.subheader("Proceso de Extracción de CBD")
st.image("CBD extraction process.png", caption="Proceso de Extracción de CBD con CO2 Supercrítico", use_container_width=True)
st.write("""
El proceso de extracción de CBD utiliza tecnología de CO2 supercrítico debido a su eficiencia y capacidad para producir extractos puros. Este método incluye etapas clave como molienda, extracción, separación y refinamiento, garantizando un producto de alta calidad para aplicaciones medicinales y comerciales.
""")
# Diseño Experimental Box-Behnken
st.subheader("Diseño Experimental Box-Behnken")
st.write("""
El diseño experimental **Box-Behnken** se utiliza para modelar y optimizar procesos complejos. En este caso, se aplica para maximizar el rendimiento de CBD considerando variables clave como **Temperatura**, **Presión**, **Flujo de CO2** y **Tiempo**.
Este enfoque reduce significativamente la cantidad de experimentos necesarios, permitiendo explorar interacciones no lineales de manera eficiente.
""")
# Proceso de Producción de CBD
st.subheader("Proceso de Producción de CBD")
st.write("""
Según el documento *Optimization of Supercritical Carbon Dioxide Fluid Extraction of Medicinal Cannabis from Quebec*, el proceso de extracción con CO2 supercrítico es preferido por su alta selectividad y pureza. Las principales etapas incluyen:
1. **Preparación de la materia prima**: Molienda y acondicionamiento.
2. **Extracción supercrítica**:
- El CO2 actúa como solvente bajo condiciones controladas de presión y temperatura.
- Variables clave: presión (150-320 bar), temperatura (40-70°C), flujo de CO2 (5-15 g/min), tiempo (2-4 horas).
3. **Separación y recolección**: El CO2 se despresuriza para liberar los cannabinoides extraídos.
4. **Refinamiento posterior**: Remoción de ceras y otros compuestos no deseados.
""")
# Caso de Negocio
st.subheader("Caso de Negocio: Optimización del Rendimiento")
st.write("""
Optimizar el rendimiento del proceso de extracción permite:
- Maximizar la cantidad de CBD extraído por lote.
- Reducir costos operativos (energía, solventes, tiempo).
- Mejorar la calidad del producto final.
Este enfoque es crucial en la industria del cannabis medicinal, donde la eficiencia del proceso impacta directamente en la rentabilidad y sostenibilidad del negocio.
""")
# Método Basado en CRISP-DM
st.subheader("Metodología Basada en CRISP-DM")
st.write("""
La metodología **CRISP-DM** estructura el desarrollo del modelo en seis etapas:
1. **Comprensión del Negocio**: Definir objetivos y restricciones del proceso.
2. **Comprensión de los Datos**: Analizar datos experimentales y evaluar su calidad.
3. **Preparación de los Datos**: Limpiar y transformar datos para el modelado.
4. **Modelado**: Ajustar un modelo de regresión cuadrática para capturar relaciones no lineales.
5. **Evaluación**: Validar el modelo y analizar su desempeño.
6. **Despliegue**: Implementar el modelo en una aplicación interactiva para optimización en tiempo real.
""")
# Optimización
st.subheader("Optimización")
st.write("""
Se emplean técnicas avanzadas para maximizar el rendimiento:
- **L-BFGS-B**: Método de optimización local.
- **Evolución Diferencial**: Optimización global para evitar óptimos locales.
- **Múltiples inicios aleatorios**: Combina estrategias locales y globales para robustez.
""")
# Referencias
st.subheader("Referencias")
st.write("""
- [Optimization of Supercritical Carbon Dioxide Fluid Extraction of Medicinal Cannabis from Quebec](https://www.mdpi.com/2227-9717/11/7/1953).
- Herrero, M., Cifuentes, A., & Ibañez, E. (2006). Supercritical fluid extraction: Recent advances and applications. *Journal of Chromatography A*, 1131(1), 1–24.
- Turner, C., Mathiasson, L., & Lewis, G. (2001). Supercritical fluid extraction and chromatography. *Journal of Biochemical Analysis*, 121(3), 35–58.
""")
elif tabs == "Aplicación Interactiva":
st.header("Aplicación Interactiva")
st.write("A continuación, puedes cargar tus datos, realizar predicciones y optimizar el rendimiento del proceso de extracción de cannabinoides.")
# Opciones de selección de datos de ejemplo
st.subheader("Datos de Ejemplo")
usar_datos_exp = st.checkbox("Usar datos de ejemplo: datos_exp.csv")
usar_datos_process = st.checkbox("Usar datos de ejemplo: datos_process.csv")
# Inicializar variable de datos
data = None
# Verificar qué checkbox está seleccionado y cargar el archivo correspondiente
if usar_datos_exp and not usar_datos_process:
data = pd.read_csv("data_exp.csv")
st.success("Datos de ejemplo (datos_exp.csv) cargados exitosamente.")
st.dataframe(data, use_container_width=True) # Ajustar al ancho de la app
elif usar_datos_process and not usar_datos_exp:
data = pd.read_csv("data_process.csv")
st.success("Datos de ejemplo (datos_process.csv) cargados exitosamente.")
st.dataframe(data, use_container_width=True) # Ajustar al ancho de la app
elif usar_datos_exp and usar_datos_process:
st.error("Por favor, selecciona solo un conjunto de datos de ejemplo a la vez.")
# Opción para cargar datos personalizados
st.subheader("Carga tus Datos")
uploaded_file = st.file_uploader("Carga un archivo CSV con los datos experimentales:", type="csv")
if uploaded_file is not None:
# Leer datos cargados
data = pd.read_csv(uploaded_file)
st.success("Datos cargados exitosamente desde el archivo proporcionado.")
st.dataframe(data, use_container_width=True) # Ajustar al ancho de la app
# Validación para asegurarse de que se cargaron datos
if data is None:
st.warning("No se han cargado datos. Por favor, selecciona un archivo o usa datos de ejemplo.")
else:
st.write("### Datos listos para su análisis.")
# Definir el orden fijo de variables
variable_columns = ['Temperatura', 'Presión', 'Flujo_CO2', 'Tiempo']
# Extraer variables independientes y dependiente en el orden correcto
X = data[variable_columns]
y = data['Rendimiento']
# Generar términos cuadráticos (regresión polinómica de segundo grado)
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)
columnas_poly = poly.get_feature_names_out(X.columns)
# Ajustar modelo cuadrático
modelo = LinearRegression()
modelo.fit(X_poly, y)
# Predicciones del modelo
y_pred = modelo.predict(X_poly)
# Evaluación del modelo
st.subheader("Evaluación del Modelo Cuadrático")
st.write(f"**Error Cuadrático Medio (MSE):** {mean_squared_error(y, y_pred):.4f}")
st.write(f"**R² (Coeficiente de Determinación):** {r2_score(y, y_pred):.4f}")
# Resumen del modelo: coeficientes
# Visualización paralela usando columnas
col1, col2 = st.columns(2)
# En la columna 1, mostrar el DataFrame con términos y coeficientes, adaptado al ancho de la columna
with col1:
st.markdown("#### Términos y Coeficientes del Modelo")
# Crear un DataFrame con los coeficientes
coeficientes = pd.DataFrame({
'Término': columnas_poly,
'Coeficiente': modelo.coef_
})
coeficientes = coeficientes.sort_values(by='Coeficiente', ascending=False)
# Función para aplicar colores a los coeficientes
def color_coef(val):
color = 'red' if val > 0 else 'blue' # Los coeficientes positivos serán rojos, negativos azules
return f'background-color: {color}; color: white;'
# Aplicar estilo a la columna 'Coeficiente' para colorear los valores
styled_coef = coeficientes.style.applymap(color_coef, subset=['Coeficiente'])
# Mostrar el DataFrame estilizado y ajustado al ancho de la columna
st.dataframe(styled_coef, use_container_width=True)
# En la columna 2, mostrar el gráfico de importancia de las variables, adaptado al ancho de la columna
with col2:
st.markdown("#### Importancia de las Variables (Feature Importance)")
# Calcular la importancia de las variables (valor absoluto de los coeficientes)
coef_abs = np.abs(modelo.coef_) # Valor absoluto de los coeficientes
feature_importance = pd.DataFrame({
'Variable': columnas_poly,
'Importancia': coef_abs
}).sort_values(by='Importancia', ascending=False) # De mayor a menor
# Gráfico de barras horizontal con el eje Y invertido
fig_importance = go.Figure(go.Bar(
y=feature_importance['Variable'],
x=feature_importance['Importancia'],
orientation='h',
marker=dict(color='teal')
))
fig_importance.update_layout(
title="Importancia de las Variables en el Modelo Cuadrático",
xaxis_title="Importancia",
yaxis_title="Variables",
yaxis=dict(autorange="reversed"), # Invertir el eje Y
margin=dict(l=0, r=0, t=30, b=30) # Ajustar márgenes
)
st.plotly_chart(fig_importance, use_container_width=True)
# Superficies de respuesta dinámicas
st.subheader("Superficies de Respuesta")
# Selector de variables
eje_x = st.selectbox("Selecciona la variable para el eje X:", variable_columns, index=0)
eje_z = st.selectbox("Selecciona la variable para el eje Z:", variable_columns, index=1)
# Rango para generar puntos
x_range = np.linspace(X[eje_x].min(), X[eje_x].max(), 50)
z_range = np.linspace(X[eje_z].min(), X[eje_z].max(), 50)
X_grid, Z_grid = np.meshgrid(x_range, z_range)
# Preparar valores para las otras dos variables
otras_variables = [col for col in variable_columns if col not in [eje_x, eje_z]]
# Crear grilla de predicción con orden de columnas fijo
grid_data = []
for x_val, z_val in zip(X_grid.ravel(), Z_grid.ravel()):
# Crear un diccionario con todas las variables en el orden correcto
row_data = dict(zip(variable_columns, [
x_val if eje_x == 'Temperatura' else X['Temperatura'].mean(),
x_val if eje_x == 'Presión' else (z_val if eje_z == 'Presión' else X['Presión'].mean()),
x_val if eje_x == 'Flujo_CO2' else (z_val if eje_z == 'Flujo_CO2' else X['Flujo_CO2'].mean()),
x_val if eje_x == 'Tiempo' else (z_val if eje_z == 'Tiempo' else X['Tiempo'].mean())
]))
grid_data.append(row_data)
# Convertir a DataFrame con orden de columnas fijo
grid_df = pd.DataFrame(grid_data)[variable_columns]
# Transformar datos para predicciones
grid_poly = poly.transform(grid_df)
# Predecir valores
Y_grid = modelo.predict(grid_poly).reshape(X_grid.shape)
# Gráfico dinámico con Plotly
fig = go.Figure(data=[go.Surface(z=Y_grid, x=X_grid, y=Z_grid, colorscale='Viridis')])
fig.update_layout(
title=f"Superficie de Respuesta: {eje_x} vs {eje_z} vs Rendimiento",
scene=dict(
xaxis_title=eje_x,
yaxis_title=eje_z,
zaxis_title="Rendimiento (%)"
)
)
st.plotly_chart(fig, use_container_width=True)
# Análisis de sensibilidad
st.subheader("Análisis de Sensibilidad")
temp = st.slider("Temperatura (°C)", int(X['Temperatura'].min()), int(X['Temperatura'].max()), int(X['Temperatura'].mean()))
pres = st.slider("Presión (Bar)", int(X['Presión'].min()), int(X['Presión'].max()), int(X['Presión'].mean()))
flujo = st.slider("Flujo CO2 (g/min)", int(X['Flujo_CO2'].min()), int(X['Flujo_CO2'].max()), int(X['Flujo_CO2'].mean()))
tiempo = st.slider("Tiempo (h)", int(X['Tiempo'].min()), int(X['Tiempo'].max()), int(X['Tiempo'].mean()))
# Predicción para los valores seleccionados
entrada_sensibilidad = pd.DataFrame({'Temperatura': [temp], 'Presión': [pres], 'Flujo_CO2': [flujo], 'Tiempo': [tiempo]})
entrada_poly = poly.transform(entrada_sensibilidad)
prediccion = modelo.predict(entrada_poly)
st.write(f"**Rendimiento Predicho:** {prediccion[0]:.2f}%")
# Optimización de puntos mejorada
st.subheader("Determinación de Puntos Óptimos")
def objetivo(params):
"""Función objetivo para optimización."""
# Transformar parámetros a DataFrame
entrada = pd.DataFrame([params], columns=variable_columns)
entrada_poly = poly.transform(entrada)
return -modelo.predict(entrada_poly)[0] # Negativo para maximizar
# Métodos de Optimización
st.write("#### Comparación de Métodos de Optimización")
# Límites de las variables
limites = [(X[col].min(), X[col].max()) for col in variable_columns]
# 1. Optimización por L-BFGS-B (Método Local)
#st.write("##### Método L-BFGS-B (Optimización Local)")
x0 = [X[col].mean() for col in variable_columns]
resultado_lbfgs = minimize(
objetivo,
x0=x0,
bounds=limites,
method='L-BFGS-B'
)
# 2. Evolución Diferencial (Método Global)
#st.write("##### Evolución Diferencial (Optimización Global)")
resultado_de = differential_evolution(
objetivo,
bounds=limites,
strategy='best1bin',
popsize=15,
maxiter=100
)
# 3. Múltiples Inicios Aleatorios
#st.write("##### Múltiples Inicios Aleatorios")
def multi_start_optimize(num_starts=10):
resultados = []
for _ in range(num_starts):
# Punto inicial aleatorio
x0 = [np.random.uniform(low, high) for low, high in limites]
resultado = minimize(
objetivo,
x0=x0,
bounds=limites,
method='L-BFGS-B'
)
resultados.append((resultado, -resultado.fun))
# Encontrar el mejor resultado
return max(resultados, key=lambda x: x[1])
resultado_multi = multi_start_optimize()
# Mostrar resultados de optimización
metodos = [
("L-BFGS-B", resultado_lbfgs, -resultado_lbfgs.fun),
("Evolución Diferencial", resultado_de, -resultado_de.fun),
("Múltiples Inicios", resultado_multi[0], resultado_multi[1])
]
# Tabla comparativa de resultados
resultados_df = pd.DataFrame(columns=variable_columns + ['Rendimiento Predicho'])
for nombre, resultado, rendimiento in metodos:
if resultado.success:
fila = pd.DataFrame([list(resultado.x) + [rendimiento]],
columns=variable_columns + ['Rendimiento Predicho'])
fila.insert(0, 'Método', nombre)
resultados_df = pd.concat([resultados_df, fila], ignore_index=True)
# Mostrar tabla de resultados
#st.write("### Comparación de Resultados de Optimización")
st.dataframe(resultados_df)
# Seleccionar el mejor resultado
mejor_resultado = resultados_df.loc[resultados_df['Rendimiento Predicho'].idxmax()]
st.write("### Punto Óptimo Recomendado")
st.write(f"**Método:** {mejor_resultado['Método']}")
# Mostrar detalles del mejor punto
detalles_optimos = mejor_resultado[variable_columns].to_dict()
detalles_str = ", ".join([f"{col}: {val:.2f}" for col, val in detalles_optimos.items()])
st.write(f"**Punto Óptimo:** {detalles_str}")
st.write(f"**Rendimiento Máximo Predicho:** {mejor_resultado['Rendimiento Predicho']:.2f}%")
# Análisis de Incertidumbre
st.subheader("Análisis de Incertidumbre")
# Input para número de bootstraps
num_bootstraps = st.number_input(
"Número de Bootstraps",
min_value=10,
max_value=1000,
value=100,
step=10,
help="Número de remuestreos para el análisis de incertidumbre"
)
# Botón para realizar análisis de incertidumbre
if st.button("Realizar Análisis de Incertidumbre"):
with st.spinner('Realizando análisis de bootstrapping...'):
# Bootstrap para estimar intervalos de confianza
def bootstrap_optimize(num_bootstraps=num_bootstraps):
resultados_bootstrap = []
for _ in range(num_bootstraps):
# Muestreo con reemplazo
indices = np.random.randint(0, len(X), len(X))
X_boot = X.iloc[indices]
y_boot = y.iloc[indices]
# Ajustar modelo
poly_boot = PolynomialFeatures(degree=2, include_bias=False)
X_poly_boot = poly_boot.fit_transform(X_boot)
modelo_boot = LinearRegression()
modelo_boot.fit(X_poly_boot, y_boot)
# Definir nueva función objetivo
def objetivo_boot(params):
entrada = pd.DataFrame([params], columns=variable_columns)
entrada_poly = poly_boot.transform(entrada)
return -modelo_boot.predict(entrada_poly)[0]
# Optimizar
resultado = differential_evolution(
objetivo_boot,
bounds=limites,
strategy='best1bin',
popsize=15,
maxiter=100
)
resultados_bootstrap.append({
'Punto': resultado.x,
'Rendimiento': -resultado.fun
})
return resultados_bootstrap
# Realizar bootstrap
resultados_bootstrap = bootstrap_optimize()
# Convertir a DataFrame
bootstrap_df = pd.DataFrame(resultados_bootstrap)
# Calcular intervalos de confianza
intervalos_confianza = {}
for i, col in enumerate(variable_columns):
intervalos_confianza[col] = (
np.percentile(bootstrap_df['Punto'].apply(lambda x: x[i]), 2.5),
np.percentile(bootstrap_df['Punto'].apply(lambda x: x[i]), 97.5)
)
# Mostrar intervalos de confianza
st.write("### Intervalos de Confianza (95%)")
for col, (min_val, max_val) in intervalos_confianza.items():
st.write(f"**{col}:** [{min_val:.2f}, {max_val:.2f}]")
# Distribución de rendimientos
st.write("### Distribución de Rendimientos en Bootstrap")
fig_bootstrap = plt.figure(figsize=(10, 6))
plt.hist(bootstrap_df['Rendimiento'], bins=30, edgecolor='black')
plt.title(f'Distribución de Rendimientos Predichos (Bootstrap: {num_bootstraps})')
plt.xlabel('Rendimiento (%)')
plt.ylabel('Frecuencia')
st.pyplot(fig_bootstrap)