ml_proyecto / DISCUSION.html

Commit final limpio

568241b 11 months ago

11 kB

	<!DOCTYPE html>
	<html lang="es">
	<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1.0">
	<title>Informe Final - Proyecto de Machine Learning</title>
	<style>
	body {
	font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif;
	line-height: 1.6;
	margin: 0 auto;
	max-width: 900px;
	padding: 20px;
	color: #333;
	background-color: #f9f9f9;
	}
	h1, h2, h3 {
	color: #2c3e50;
	border-bottom: 2px solid #3498db;
	padding-bottom: 10px;
	}
	h1 {
	text-align: center;
	font-size: 2.5em;
	}
	h2 {
	font-size: 1.8em;
	margin-top: 40px;
	}
	h3 {
	font-size: 1.4em;
	border-bottom: 1px solid #ccc;
	}
	code {
	background-color: #ecf0f1;
	padding: 2px 6px;
	border-radius: 4px;
	font-family: "Courier New", Courier, monospace;
	}
	table {
	width: 100%;
	border-collapse: collapse;
	margin-top: 20px;
	}
	th, td {
	border: 1px solid #bdc3c7;
	padding: 12px;
	text-align: left;
	}
	th {
	background-color: #3498db;
	color: white;
	font-weight: bold;
	}
	tr:nth-child(even) {
	background-color: #ecf0f1;
	}
	img {
	max-width: 100%;
	height: auto;
	display: block;
	margin: 20px auto;
	border: 1px solid #ddd;
	border-radius: 8px;
	box-shadow: 0 4px 8px rgba(0,0,0,0.1);
	}
	.container {
	background-color: white;
	padding: 30px;
	border-radius: 8px;
	box-shadow: 0 0 15px rgba(0,0,0,0.05);
	}
	.justification {
	background-color: #e8f6f3;
	border-left: 5px solid #1abc9c;
	padding: 15px;
	margin-top: 20px;
	}
	</style>
	</head>
	<body>
	<div class="container">
	<h1>Informe de Resultados y Discusión</h1>

	<h2>1. Resumen del Proyecto</h2>
	<p>
	El objetivo de este proyecto fue desarrollar un modelo de Machine Learning capaz de clasificar automáticamente la prioridad (Alta, Media, Baja) de los tickets de una mesa de ayuda. Se siguió un flujo de trabajo completo, desde la recolección y análisis de datos hasta el entrenamiento, evaluación y despliegue de un modelo funcional en una interfaz de usuario interactiva utilizando Streamlit.
	</p>
	<p>
	El proyecto culminó con éxito, obteniendo un modelo de <strong>Regresión Logística</strong> que fue seleccionado por su rendimiento superior y desplegado en dos aplicaciones web funcionales.
	</p>

	<h2>2. Análisis Exploratorio de Datos (EDA) - Hallazgos Clave</h2>
	<p>
	El análisis inicial se realizó sobre un dataset consolidado de <strong>1109 registros</strong>. Los hallazgos más importantes que guiaron el preprocesamiento y modelado fueron:
	</p>
	<ul>
	<li><strong>Desbalanceo de Clases:</strong> La variable objetivo, <code>Prioridad</code>, mostró un claro desbalanceo. Aproximadamente el <strong>47%</strong> de los tickets eran de prioridad 'Baja', mientras que 'Media' (27%) y 'Alta' (26%) tenían una representación menor. Este hallazgo fue crucial para elegir <code>f1-score (macro avg)</code> como la métrica principal de evaluación, ya que pondera equitativamente el rendimiento en todas las clases.</li>
	<li><strong>Distribuciones Categóricas:</strong> El análisis de variables como <code>Area_Solicitante</code> y <code>Grupo_Asignado</code> reveló las áreas y grupos que generan mayor volumen de tickets, proporcionando un contexto operativo valioso.</li>
	<li><strong>Tiempo de Resolución:</strong> La variable <code>Tiempo_Resolucion_Horas</code> presentó un fuerte sesgo a la derecha, indicando que la mayoría de los tickets se resuelven rápidamente, pero existe una larga cola de tickets que tardan mucho más tiempo en cerrarse (valores atípicos).</li>
	</ul>
	<h3>Visualizaciones Generadas</h3>
	<p>A continuación, se muestran los gráficos generados por el script <code>00_EDA.py</code>:</p>
	<img src="GRAFICOS_EDA/01_distribucion_prioridad.png" alt="Distribución de Prioridad">
	<img src="GRAFICOS_EDA/04_boxplot_tiempo_vs_prioridad.png" alt="Tiempo de Resolución vs Prioridad">
	<img src="GRAFICOS_EDA/02_distribucion_Area_Solicitante.png" alt="Distribución por Área Solicitante">

	<h2>3. Modelamiento y Evaluación</h2>
	<h3>Comparación de Modelos</h3>
	<p>
	Se entrenaron y evaluaron tres modelos de clasificación distintos utilizando las características categóricas (<code>Area_Solicitante</code>, <code>Grupo_Asignado</code>, <code>Categoria</code>). A continuación se presenta la tabla comparativa de sus métricas de rendimiento en el conjunto de prueba:
	</p>
	<table>
	<thead>
	<tr>
	<th>Modelo</th>
	<th>Accuracy</th>
	<th>F1-score (Macro Avg)</th>
	<th>Precisión (Clase 'Alta')</th>
	<th>Recall (Clase 'Alta')</th>
	</tr>
	</thead>
	<tbody>
	<tr>
	<td><strong>Regresión Logística</strong></td>
	<td><strong>0.8159</strong></td>
	<td><strong>0.7690</strong></td>
	<td><strong>0.6207</strong></td>
	<td><strong>0.7500</strong></td>
	</tr>
	<tr>
	<td>Random Forest</td>
	<td>0.7545</td>
	<td>0.6909</td>
	<td>0.5222</td>
	<td>0.6528</td>
	</tr>
	<tr>
	<td>Gradient Boosting</td>
	<td>0.7545</td>
	<td>0.6909</td>
	<td>0.5222</td>
	<td>0.6528</td>
	</tr>
	</tbody>
	</table>

	<div class="justification">
	<h3>Selección del Modelo</h3>
	<p>
	El modelo de <strong>Regresión Logística</strong> fue seleccionado como el modelo final. La justificación se basa en que obtuvo el <strong>mayor F1-score promedio (macro avg) de 0.7690</strong>, indicando el mejor balance entre precisión y recall a través de todas las clases, lo cual es fundamental para un dataset desbalanceado. Además, mostró el mejor rendimiento general en todas las métricas clave.
	</p>
	</div>

	<h2>4. Resultados del Despliegue</h2>
	<p>El modelo seleccionado fue desplegado en dos aplicaciones web interactivas construidas con Streamlit.</p>

	<h3>Aplicación 1: Predictor de Tickets Individuales</h3>
	<p>
	Esta herramienta permite a un usuario ingresar las características de un nuevo ticket (Categoría, Grupo Asignado, Área Solicitante) y recibir una predicción de prioridad en tiempo real, junto con las probabilidades asociadas a cada clase.
	</p>
	<!-- RENOMBRA TUS CAPTURAS A ESTOS NOMBRES -->
	<img src="captura_form_1.png" alt="Ejemplo de Predicción 1">
	<img src="captura_form_3.png" alt="Ejemplo de Predicción 2">

	<h3>Aplicación 2: Dashboard de Tickets por Grupo y Área</h3>
	<p>
	Esta aplicación ofrece una vista agregada, procesando todos los tickets del dataset para mostrar un resumen de las prioridades predichas por cada combinación de `Grupo_Asignado` y `Area_Solicitante`. La celda con la mayor cantidad de tickets por fila se resalta en verde para una fácil identificación de patrones.
	</p>
	<img src="captura_grid.png" alt="Dashboard de Tickets">

	<h2>5. Discusión, Limitaciones y Futuras Mejoras</h2>
	<h3>Discusión</h3>
	<p>
	El proyecto demuestra de manera exitosa la viabilidad de utilizar un modelo de Machine Learning para automatizar la priorización de tickets. El modelo de Regresión Logística, aunque simple, provee una base sólida y resultados interpretables que pueden ayudar a optimizar la asignación de recursos en una mesa de ayuda. Las aplicaciones de Streamlit validan que el modelo puede ser integrado en herramientas prácticas para usuarios finales.
	</p>

	<h3>Limitaciones del Modelo Actual</h3>
	<ul>
	<li><strong>Tamaño del Dataset:</strong> El modelo fue entrenado con solo 1109 registros. Un dataset más grande y variado aumentaría la confianza en su capacidad para generalizar a tickets futuros.</li>
	<li><strong>Ingeniería de Características Limitada:</strong> El modelo final se basa únicamente en tres variables categóricas. Se está desaprovechando información potencialmente valiosa, como el texto del <code>Asunto</code> o la fecha/hora de creación.</li>
	<li><strong>Validación Simple:</strong> Se utilizó una única división de datos para entrenamiento y prueba. Una técnica más robusta como la <strong>validación cruzada (k-fold)</strong> proporcionaría una estimación más fiable del rendimiento del modelo.</li>
	<li><strong>Sin Optimización de Hiperparámetros:</strong> Los modelos se entrenaron con sus hiperparámetros por defecto. Un proceso de ajuste fino podría mejorar aún más el rendimiento.</li>
	</ul>

	<h3>Posibles Mejoras Futuras</h3>
	<ul>
	<li><strong>Incorporar Procesamiento de Lenguaje Natural (NLP):</strong> Integrar el análisis del campo <code>Asunto</code> utilizando técnicas como TF-IDF (como se exploró en el script <code>05_ENTRENA_REPARA_DATOS.py</code>) para capturar el contexto del ticket, lo cual probablemente mejoraría significativamente la precisión.</li>
	<li><strong>Implementar Validación Cruzada y Ajuste de Hiperparámetros:</strong> Utilizar herramientas como <code>GridSearchCV</code> para encontrar la mejor combinación de parámetros y validar los resultados de forma más rigurosa.</li>
	<li><strong>Expandir la Ingeniería de Características:</strong> Extraer nuevas características de las columnas de fecha, como el día de la semana, la hora del día o si fue creado fuera del horario laboral.</li>
	<li><strong>Recopilar Más Datos:</strong> Implementar un ciclo de retroalimentación donde el modelo se re-entrene periódicamente con nuevos tickets para que aprenda de nuevos patrones y no se vuelva obsoleto.</li>
	</ul>
	</div>
	</body>
	</html>