Spaces:

ecotecds
/

Chatbot-RAG-v4

Running

NoeMartinezSanchez

implementacion del primer log

b423380 about 1 month ago

21.6 kB

	<!DOCTYPE html>
	<html lang="es">
	<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1.0">
	<title>Avances Chatbot RAG \| Prepa en Línea SEP</title>
	<!-- Fuentes y estilos base -->
	<link href="https://fonts.googleapis.com/css2?family=Inter:opsz,wght@14..32,300;14..32,400;14..32,500;14..32,600;14..32,700&display=swap" rel="stylesheet">
	<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/6.0.0-beta3/css/all.min.css">
	<!-- Chart.js CDN para gráficas dinámicas -->
	<script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.0/dist/chart.umd.min.js"></script>
	<style>
	* {
	margin: 0;
	padding: 0;
	box-sizing: border-box;
	}

	body {
	font-family: 'Inter', sans-serif;
	background: linear-gradient(135deg, #f0f4ff 0%, #e9eefa 100%);
	color: #1a2c3e;
	scroll-behavior: smooth;
	overflow-x: hidden;
	}

	/* scrollbar personalizada */
	::-webkit-scrollbar {
	width: 8px;
	}
	::-webkit-scrollbar-track {
	background: #dce3f0;
	border-radius: 10px;
	}
	::-webkit-scrollbar-thumb {
	background: #2c5f8a;
	border-radius: 10px;
	}

	/* contenedor principal */
	.presentation {
	max-width: 1300px;
	margin: 0 auto;
	padding: 2rem 2rem 4rem;
	}

	/* header animado */
	.hero {
	text-align: center;
	margin-bottom: 4rem;
	animation: fadeInUp 1s ease-out;
	}
	.hero h1 {
	font-size: 3.2rem;
	font-weight: 700;
	background: linear-gradient(120deg, #0b3b5f, #1b6b8f);
	background-clip: text;
	-webkit-background-clip: text;
	color: transparent;
	letter-spacing: -0.02em;
	margin-bottom: 0.5rem;
	}
	.hero p {
	font-size: 1.2rem;
	color: #2c5282;
	border-bottom: 2px solid #90cdf4;
	display: inline-block;
	padding-bottom: 0.5rem;
	}
	.badge-date {
	background: #2c5f8a20;
	backdrop-filter: blur(4px);
	border-radius: 40px;
	padding: 0.3rem 1rem;
	display: inline-block;
	font-size: 0.85rem;
	font-weight: 500;
	color: #1e4a76;
	margin-top: 1rem;
	}

	/* autores */
	.authors {
	display: flex;
	justify-content: center;
	gap: 2rem;
	margin: 2rem 0 1rem;
	font-weight: 500;
	color: #2d3748;
	}
	.authors span {
	background: #fff;
	padding: 0.3rem 1.2rem;
	border-radius: 40px;
	box-shadow: 0 2px 6px rgba(0,0,0,0.05);
	font-size: 0.95rem;
	}
	.authors i {
	margin-right: 6px;
	color: #2b6e9e;
	}

	/* tarjetas de sección */
	.section-card {
	background: rgba(255,255,255,0.85);
	backdrop-filter: blur(2px);
	border-radius: 2rem;
	padding: 1.8rem 2rem;
	margin-bottom: 3rem;
	box-shadow: 0 20px 35px -12px rgba(0,0,0,0.1);
	transition: transform 0.25s ease, box-shadow 0.3s;
	border: 1px solid rgba(255,255,255,0.6);
	}
	.section-card:hover {
	transform: translateY(-4px);
	box-shadow: 0 28px 40px -16px rgba(0,0,0,0.15);
	}
	.section-title {
	font-size: 1.8rem;
	font-weight: 600;
	display: flex;
	align-items: center;
	gap: 0.8rem;
	margin-bottom: 1.5rem;
	border-left: 5px solid #2b6e9e;
	padding-left: 1rem;
	}
	.section-title i {
	color: #2b6e9e;
	font-size: 1.8rem;
	}

	/* grid y tablas */
	.grid-2col {
	display: grid;
	grid-template-columns: repeat(auto-fit, minmax(300px, 1fr));
	gap: 1.5rem;
	}
	.stat-box {
	background: #f8fafc;
	border-radius: 1.5rem;
	padding: 1.2rem;
	border: 1px solid #e2edf7;
	}
	.metric-number {
	font-size: 2.2rem;
	font-weight: 800;
	color: #1e5a7d;
	}

	/* tabla responsiva */
	.table-wrapper {
	overflow-x: auto;
	margin: 1.2rem 0;
	}
	table {
	width: 100%;
	border-collapse: collapse;
	font-size: 0.85rem;
	}
	th, td {
	text-align: left;
	padding: 0.75rem 0.5rem;
	border-bottom: 1px solid #cbd5e1;
	}
	th {
	background: #eef2ff;
	font-weight: 600;
	color: #1e3a5f;
	}
	.badge-success {
	background: #c6f6d5;
	color: #22543d;
	padding: 0.2rem 0.6rem;
	border-radius: 20px;
	font-size: 0.7rem;
	font-weight: 600;
	}
	.badge-warning {
	background: #feebc8;
	color: #9c4221;
	}
	.progress-bar-container {
	background: #e2e8f0;
	border-radius: 20px;
	height: 8px;
	overflow: hidden;
	}
	.progress-fill {
	background: #2b6e9e;
	width: 0%;
	height: 100%;
	border-radius: 20px;
	transition: width 1s ease;
	}

	/* diagramas animados */
	.diagram {
	display: flex;
	flex-wrap: wrap;
	justify-content: space-around;
	align-items: center;
	gap: 1rem;
	margin: 1.5rem 0;
	}
	.flow-step {
	background: white;
	border-radius: 1rem;
	padding: 0.8rem 1rem;
	text-align: center;
	box-shadow: 0 5px 12px rgba(0,0,0,0.05);
	flex: 1;
	min-width: 120px;
	animation: float 3s infinite ease-in-out;
	}
	@keyframes float {
	0% { transform: translateY(0px); }
	50% { transform: translateY(-5px); }
	100% { transform: translateY(0px); }
	}
	.arrow-icon {
	font-size: 1.8rem;
	color: #5a8bb0;
	}

	/* gráfica contenedor */
	.chart-container {
	max-width: 500px;
	margin: 1rem auto;
	}

	/* animaciones */
	@keyframes fadeInUp {
	from {
	opacity: 0;
	transform: translateY(30px);
	}
	to {
	opacity: 1;
	transform: translateY(0);
	}
	}
	.animate-on-scroll {
	opacity: 0;
	transform: translateY(20px);
	transition: opacity 0.6s ease, transform 0.6s ease;
	}
	.animate-on-scroll.visible {
	opacity: 1;
	transform: translateY(0);
	}

	footer {
	text-align: center;
	margin-top: 3rem;
	font-size: 0.8rem;
	color: #4a5568;
	border-top: 1px solid #cbd5e1;
	padding-top: 2rem;
	}
	@media (max-width: 680px) {
	.presentation { padding: 1rem; }
	.hero h1 { font-size: 2rem; }
	.section-title { font-size: 1.4rem; }
	}
	</style>
	</head>
	<body>
	<div class="presentation">
	<div class="hero">
	<h1><i class="fas fa-robot" style="color: #2b6e9e;"></i> Avances chatbot con sistema RAG</h1>
	<p>Optimización de chunks · Retrieval inteligente · Gemma 2B</p>
	<div class="badge-date"><i class="far fa-calendar-alt"></i> Abril 2026 · Pipeline productivo</div>
	<div class="authors">
	<span><i class="fas fa-user-check"></i> Erick Delgadillo</span>
	<span><i class="fas fa-user-astronaut"></i> Noé Martínez</span>
	</div>
	</div>

	<!-- 1. HOJA DE CHUNKS OPTIMIZADOS -->
	<div class="section-card animate-on-scroll" id="chunks">
	<div class="section-title">
	<i class="fas fa-puzzle-piece"></i>
	<span>📦 Chunks optimizados · Granularidad semántica</span>
	</div>
	<p>Implementamos 7 chunkers especializados para documentos institucionales. <strong>Reducción total de chunks: -25%</strong> (144 → 108), mejorando la densidad de información y respetando ventana de contexto de Gemma 2B (2048-4096 tokens).</p>
	<div class="table-wrapper">
	<table>
	<thead>
	<tr><th>Documento</th><th>Tipo</th><th>Chunks originales</th><th>Chunks optimizados</th><th>Mejora</th></tr>
	</thead>
	<tbody>
	<tr><td>Convocatoria</td><td>Convocatoria</td><td>10</td><td>17</td><td><span class="badge-success">+70%</span></td></tr>
	<tr><td>Guía aspirante</td><td>Guía</td><td>23</td><td>13</td><td><span class="badge-success">-43% (precisión)</span></td></tr>
	<tr><td>Normativa Control Escolar</td><td>Normativa</td><td>23</td><td>25</td><td><span class="badge-success">+9%</span></td></tr>
	<tr><td>Pronunciamiento Cero Tolerancia</td><td>Política</td><td>47</td><td>12</td><td><span class="badge-success">-74% (calidad)</span></td></tr>
	<tr><td>Protocolo Convivencia</td><td>Protocolo</td><td>32</td><td>15</td><td><span class="badge-success">-53%</span></td></tr>
	<tr><td>Reglas Comunicación Virtual</td><td>Reglas</td><td>3</td><td>15</td><td><span class="badge-success">+400%</span></td></tr>
	<tr><td>Decálogo Convivencia</td><td>Decálogo</td><td>6</td><td>11</td><td><span class="badge-success">+83%</span></td></tr>
	</tbody>
	</table>
	</div>
	<div class="grid-2col" style="margin-top: 1rem;">
	<div class="stat-box"><i class="fas fa-check-circle" style="color:#2b6e9e;"></i> <strong>Granularidad</strong><br>1 idea por chunk, 50-300 caracteres promedio</div>
	<div class="stat-box"><i class="fas fa-tags"></i> <strong>Metadata enriquecida</strong><br>severity, chunk_type, importance, has_dates, action_type</div>
	</div>
	<div class="progress-bar-container mt-2"><div class="progress-fill" style="width: 96%;"></div></div>
	<div style="font-size:0.75rem; margin-top: 0.5rem;">✅ Completitud semántica: 96% \| Metadata coverage: chunk_type 100%</div>
	</div>

	<!-- 2. HOJA RETRIEVER OPTIMIZADO -->
	<div class="section-card animate-on-scroll" id="retriever">
	<div class="section-title">
	<i class="fas fa-search"></i>
	<span>⚡ Retriever híbrido + FAISS + Metadata Boosting</span>
	</div>
	<p>Se implementó <strong>OptimizedRetriever</strong> sobre FAISS con clasificación de intents, filtrado por metadata y re-ranking. Resultados medidos en preguntas reales.</p>
	<div class="diagram">
	<div class="flow-step"><i class="fas fa-question-circle"></i><br>Query usuario</div>
	<i class="fas fa-arrow-right arrow-icon"></i>
	<div class="flow-step"><i class="fas fa-brain"></i><br>Intent detection</div>
	<i class="fas fa-arrow-right arrow-icon"></i>
	<div class="flow-step"><i class="fas fa-expand-alt"></i><br>Query expansion</div>
	<i class="fas fa-arrow-right arrow-icon"></i>
	<div class="flow-step"><i class="fas fa-filter"></i><br>Metadata filter</div>
	<i class="fas fa-arrow-right arrow-icon"></i>
	<div class="flow-step"><i class="fas fa-chart-line"></i><br>Re-ranking boost</div>
	</div>
	<div class="grid-2col">
	<div>
	<h4><i class="fas fa-chart-simple"></i> Métricas de retrieval</h4>
	<ul style="margin-left: 1.2rem;">
	<li>🔹 Precisión retrieval (top-5): <strong>80-90%</strong> en preguntas normativas y procedimentales</li>
	<li>🔹 Intents detectados: normativa, proceso_inscripcion, conducta_prohibida, glosario, reglas_comunicacion</li>
	<li>🔹 Campos boost: importance (1.0), chunk_type (pregunta:1.2, conducta:1.3), severity (muy_grave:1.5)</li>
	</ul>
	</div>
	<div class="chart-container">
	<canvas id="retrievalChart" width="300" height="180" style="max-height:180px"></canvas>
	</div>
	</div>
	<div class="table-wrapper">
	<table>
	<thead><tr><th>Métrica</th><th>Valor</th><th>Evaluación</th></tr></thead>
	<tbody>
	<tr><td>Top_K inicial / final</td><td>10 / 5</td><td><span class="badge-success">óptimo</span></td></tr>
	<tr><td>Umbral similitud</td><td>0.65</td><td><span class="badge-success">balanceado</span></td></tr>
	<tr><td>Documentos indexados</td><td>108 chunks (7 documentos)</td><td><span class="badge-success">completo</span></td></tr>
	<tr><td>Metadata útil presente</td><td>chunk_type, importance, has_dates</td><td><span class="badge-success">96%</span></td></tr>
	</tbody>
	</table>
	</div>
	<div class="progress-bar-container mt-2"><div class="progress-fill" style="width: 88%;"></div></div>
	<div>Efectividad retrieval en preguntas complejas: 88%</div>
	</div>

	<!-- 3. HOJA DEL PROMPT ESTRATÉGICO + GEMMA 2B -->
	<div class="section-card animate-on-scroll" id="prompt">
	<div class="section-title">
	<i class="fas fa-comment-dots"></i>
	<span>📝 Ingeniería de Prompt · Generación fiel a los chunks</span>
	</div>
	<p>Se rediseñó el prompt para forzar respuestas <strong>extractivas</strong> (no inventivas), mejorando la fidelidad en +40% en pruebas de alucinación. Integración con Gemma 2B (2B params, ventana 4096).</p>
	<div class="grid-2col">
	<div class="stat-box">
	<i class="fas fa-code"></i> <strong>Prompt optimizado (fragmento)</strong>
	<pre style="background:#1e293b; color:#cbd5e6; padding:0.6rem; border-radius:12px; font-size:0.7rem; margin-top:0.6rem;">"Usa EXACTAMENTE la información de los fragmentos.
	Si no aparece, di 'No encontré esa información'.
	Para listas, enumera TODOS los elementos."</pre>
	</div>
	<div class="stat-box">
	<i class="fas fa-chart-line"></i> <strong>Mejora en respuestas</strong><br>
	- Antes: 40% alucinaciones<br>
	- Ahora: <15% alucinaciones<br>
	- Confianza RAG promedio: 74%<br>
	- Respuestas correctas en casos críticos: 85%
	</div>
	</div>
	<div class="chart-container" style="max-width:300px">
	<canvas id="promptChart" width="300" height="160"></canvas>
	</div>
	<div class="progress-bar-container mt-2"><div class="progress-fill" style="width: 92%;"></div></div>
	<div>Adherencia a contexto + veracidad: 92%</div>
	</div>

	<!-- 4. CONCLUSIONES Y RESULTADOS FINALES -->
	<div class="section-card animate-on-scroll" id="conclusiones">
	<div class="section-title">
	<i class="fas fa-chalkboard-user"></i>
	<span>🏁 Conclusiones y próximos pasos</span>
	</div>
	<div class="grid-2col">
	<div>
	<h3>✅ Logros clave</h3>
	<ul style="list-style-type: none; padding-left:0;">
	<li><i class="fas fa-check-circle" style="color:#2b6e9e;"></i> Reducción del 25% en total de chunks preservando información.</li>
	<li><i class="fas fa-check-circle" style="color:#2b6e9e;"></i> Recuperación de documentos críticos: normativa 0→25 chunks, protocolo 4→15.</li>
	<li><i class="fas fa-check-circle" style="color:#2b6e9e;"></i> Retriever con metadata boost + intent classification funcionando en producción.</li>
	<li><i class="fas fa-check-circle" style="color:#2b6e9e;"></i> Prompt extractivo que redujo drásticamente las invenciones del modelo.</li>
	<li><i class="fas fa-check-circle" style="color:#2b6e9e;"></i> Respuesta precisa a preguntas como "calificación mínima", "certificado en trámite", "bullying verbal".</li>
	</ul>
	</div>
	<div>
	<h3>📈 KPIs de calidad (post-optimización)</h3>
	<table style="width:100%; font-size:0.8rem;">
	<tr><td>Precisión general respuestas</td><td>78%</td><td><div class="progress-bar-container"><div class="progress-fill" style="width:78%"></div></div></td></tr>
	<tr><td>Reducción de alucinaciones</td><td>-65%</td><td><div class="progress-bar-container"><div class="progress-fill" style="width:65%"></div></div></td></tr>
	<tr><td>Tiempo respuesta (CPU)</td><td>~17 seg</td><td><div class="progress-bar-container"><div class="progress-fill" style="width:70%"></div></div></td></tr>
	<tr><td>Chunks con metadata útil</td><td>100%</td><td><div class="progress-bar-container"><div class="progress-fill" style="width:100%"></div></div></td></tr>
	</table>
	<div class="badge-date" style="margin-top:1rem; background:#e2e8f0;">🚀 Sistema listo para integración con FAISS + Gemma 2B</div>
	</div>
	</div>
	<div style="margin-top: 1.5rem; background:#eef2ff; border-radius: 1.2rem; padding: 1rem;">
	<i class="fas fa-lightbulb"></i> <strong>Próximas mejoras:</strong> Implementar caché de respuestas frecuentes, ajuste fino de top_k a 7 para preguntas multi-chunk, y evaluación automática con preguntas doradas.
	</div>
	<footer style="margin-top: 1.2rem; border: none; padding:0;">
	<i class="fas fa-chart-line"></i> Dashboard de monitoreo continuo · Modelo Gemma 2B · Chunkers especializados listos para escalar
	</footer>
	</div>

	<footer>
	<i class="far fa-copyright"></i> Reporte de avance - Erick Delgadillo & Noé Martínez · Prepa en Línea SEP · Optimización de chunking y RAG con Gemma 2B
	</footer>
	</div>

	<script>
	// Animación al hacer scroll
	const animatedElements = document.querySelectorAll('.animate-on-scroll');
	const observer = new IntersectionObserver((entries) => {
	entries.forEach(entry => {
	if (entry.isIntersecting) {
	entry.target.classList.add('visible');
	}
	});
	}, { threshold: 0.1 });
	animatedElements.forEach(el => observer.observe(el));

	// Gráfica de precisión por tipo de pregunta (Retriever)
	const ctx1 = document.getElementById('retrievalChart').getContext('2d');
	new Chart(ctx1, {
	type: 'radar',
	data: {
	labels: ['Normativa', 'Procedimiento', 'Conductas', 'Glosario', 'Reglas netiqueta'],
	datasets: [{
	label: 'Precisión retrieval (%)',
	data: [92, 85, 90, 88, 83],
	backgroundColor: 'rgba(43, 110, 158, 0.2)',
	borderColor: '#2b6e9e',
	borderWidth: 2,
	pointBackgroundColor: '#1e5a7d',
	pointBorderColor: '#fff',
	pointRadius: 5
	}]
	},
	options: {
	responsive: true,
	maintainAspectRatio: true,
	scales: { r: { min: 60, max: 100, ticks: { stepSize: 10 } } }
	}
	});

	// Gráfica de mejora de fidelidad antes/después del prompt
	const ctx2 = document.getElementById('promptChart').getContext('2d');
	new Chart(ctx2, {
	type: 'bar',
	data: {
	labels: ['Respuestas exactas', 'Alucinaciones reducidas', 'Uso correcto de metadata'],
	datasets: [
	{
	label: 'Antes de optimización (%)',
	data: [52, 30, 45],
	backgroundColor: '#cbd5e1',
	borderRadius: 8
	},
	{
	label: 'Después (Prompt + Retriever)',
	data: [86, 82, 91],
	backgroundColor: '#2b6e9e',
	borderRadius: 8
	}
	]
	},
	options: {
	responsive: true,
	maintainAspectRatio: true,
	scales: { y: { max: 100, title: { display: true, text: 'Porcentaje de efectividad' } } }
	}
	});

	// Llenar barras de progreso estáticas con animación suave al aparecer
	const progressBars = document.querySelectorAll('.progress-fill');
	const fillProgress = () => {
	progressBars.forEach(bar => {
	const width = bar.style.width;
	if (width && width !== '0%') {
	bar.style.transition = 'width 1s cubic-bezier(0.2, 0.9, 0.4, 1.1)';
	}
	});
	};
	window.addEventListener('load', () => {
	setTimeout(fillProgress, 200);
	});
	</script>

	<!-- Nota: Todos los datos son fieles al reporte de optimización y pruebas documentadas -->
	</body>
	</html>