Spaces:

TomatitoToho
/

zelin-bot

Paused

App Files Files Community

zelin-bot / src /reflexion.js

Z User

v5.8.5: Gemma 4, MC Wiki, MC Player, anti-hallucination, CPU optimizations

ee826ee 24 days ago

history blame contribute delete

8.97 kB

	/**
	* reflexion.js — Reflexion Loop para Zelin
	* ==========================================
	* Basado en: Shinn et al., "Reflexion: Language Agents with Verbal RL" (NeurIPS 2023)
	* Resultado real: 88% HumanEval vs 67% GPT-4 usando solo auto-corrección.
	*
	* ARQUITECTURA (3 roles separados):
	* Actor → genera la respuesta (proveedor principal)
	* Evaluador → puntúa si es buena (proveedor DIFERENTE — evita confirmation bias)
	* Reflector → genera crítica verbal específica (local-ai o proveedor diferente)
	*
	* LÍMITES DE SEGURIDAD:
	* - MAX_ROUNDS = 3 (nunca más — se convierte en loop destructivo)
	* - El Evaluador no tiene acceso a herramientas (solo opina)
	* - Si falla 3 rondas → escalar al owner, no seguir intentando
	*/

	import { callAI, callAIBackground } from './ai.js';
	import { isLocalAIReady, ollamaChatDirect } from './local-ai.js';
	import * as db from './db.js';

	const MAX_ROUNDS = 3; // Cap duro — investigación recomienda 1-3
	const REFLEXION_PROVIDERS = {
	actor : ['pollinations', 'groq', 'mistral', 'cerebrasLarge'],
	critic : ['mistral', 'groqFast', 'cerebras', 'pollinations'], // diferente al actor
	};

	// ── Memoria episódica: guarda pares (error, solución) ──────────────────────────
	const episodicMemory = []; // [{ problem, critique, solution, ts, success }]
	const MAX_EPISODIC = 50;

	function storeEpisode(problem, critique, solution, success) {
	episodicMemory.push({ problem: problem.slice(0, 300), critique, solution: solution.slice(0, 500), success, ts: Date.now() });
	if (episodicMemory.length > MAX_EPISODIC) episodicMemory.shift();
	}

	function retrieveRelevantEpisode(problem) {
	// Búsqueda textual simple — buscar problema parecido en los últimos 20
	const recent = episodicMemory.slice(-20).filter(e => e.success);
	const words = problem.toLowerCase().split(/\s+/).slice(0, 5);
	return recent.find(e => words.some(w => e.problem.toLowerCase().includes(w)));
	}

	// ── Evaluador externo (crítico) ────────────────────────────────────────────────
	// CLAVE: usa proveedor DIFERENTE al actor para evitar confirmation bias
	async function evaluate(response, originalQuestion, context = '') {
	const evalPrompt = [
	{
	role : 'system',
	content: `Eres un evaluador crítico de respuestas de un bot de Discord (TomateSMP, servidor Minecraft).
	Evalúa esta respuesta de forma ESTRICTA y OBJETIVA.
	Criterios: relevancia, precisión, completitud, tono apropiado para Discord, ausencia de alucinaciones.

	Responde SOLO JSON:
	{
	"score": 0-10,
	"pass": true/false,
	"specific_errors": ["error 1 concreto", "error 2"],
	"what_to_fix": "instrucción específica de cómo mejorar (máx 100 palabras)"
	}

	Sé duro: score < 7 = no pasa. Un "no sé" honesto pasa mejor que una respuesta inventada.`,
	},
	{
	role : 'user',
	content: `Pregunta original: "${originalQuestion}"\n${context ? `Contexto: ${context}\n` : ''}Respuesta a evaluar: "${response}"`,
	},
	];

	// Intentar con local-ai primero (gratis, diferente del actor)
	if (isLocalAIReady()) {
	try {
	const raw = await ollamaChatDirect(evalPrompt, 200, 8000);
	return JSON.parse(raw.replace(/```json\|```/g, '').trim());
	} catch {}
	}

	// Fallback: usar proveedor API diferente
	try {
	const raw = await callAI(evalPrompt, 'fast', 200, originalQuestion);
	return JSON.parse(raw.replace(/```json\|```/g, '').trim());
	} catch {
	return { score: 7, pass: true }; // si falla el evaluador, no bloquear
	}
	}

	// ── Generador de crítica verbal específica (Reflector) ─────────────────────────
	async function reflect(response, evalResult, originalQuestion, previousAttempts) {
	const attemptsText = previousAttempts.map((a, i) =>
	`Intento ${i+1}: "${a.response.slice(0, 200)}" → Errores: ${a.errors.join(', ')}`
	).join('\n');

	const reflectPrompt = [
	{
	role : 'system',
	content: `Eres un reflexion coach. Analiza por qué esta respuesta falló y genera instrucciones CONCRETAS para el siguiente intento.
	NO generes la respuesta correcta — solo las instrucciones para mejorarla.
	Basado en investigación de Reflexion (Shinn et al.): la crítica debe ser específica, accionable y evitar los mismos errores.`,
	},
	{
	role : 'user',
	content: `Pregunta: "${originalQuestion}"
	Respuesta fallida: "${response}"
	Errores específicos: ${evalResult.specific_errors?.join(', ') ?? 'calidad baja'}
	Qué mejorar: ${evalResult.what_to_fix ?? 'desconocido'}
	${attemptsText ? `\nIntentos previos:\n${attemptsText}` : ''}

	Genera instrucciones específicas para el siguiente intento (máx 150 palabras):`,
	},
	];

	try {
	if (isLocalAIReady()) {
	return await ollamaChatDirect(reflectPrompt, 200, 8000);
	}
	return await callAIBackground(reflectPrompt, 'reasoning', 200);
	} catch {
	return evalResult.what_to_fix ?? 'Mejora la respuesta siendo más preciso y relevante.';
	}
	}

	// ── REFLEXION LOOP principal ───────────────────────────────────────────────────
	export async function reflexionGenerate(messages, taskType, userMessage, systemPrompt) {
	const attempts = [];
	let bestResponse = null;
	let bestScore = 0;

	// Verificar memoria episódica — ¿hay un caso similar resuelto antes?
	const pastEpisode = retrieveRelevantEpisode(userMessage);
	let reflexionHint = pastEpisode
	? `\n\n[Memoria episódica]: En situación similar, la solución exitosa fue: "${pastEpisode.solution.slice(0, 200)}"`
	: '';

	for (let round = 0; round < MAX_ROUNDS; round++) {
	// ── ACTOR: generar respuesta ──────────────────────────────────────────────
	const enrichedMessages = reflexionHint
	? [messages[0]
	? { ...messages[0], content: (messages[0].content ?? '') + reflexionHint }
	: { role: 'system', content: reflexionHint },
	...messages.slice(1)]
	: messages;

	let response;
	try {
	response = await callAI(enrichedMessages, taskType, null, userMessage);
	} catch (e) {
	console.warn(`[Reflexion] Actor falló en ronda ${round+1}:`, e.message);
	break;
	}

	// ── EVALUADOR: puntuar con modelo diferente ───────────────────────────────
	const evalResult = await evaluate(response, userMessage);
	console.log(`[Reflexion] Ronda ${round+1}: score=${evalResult.score}/10 pass=${evalResult.pass}`);

	attempts.push({ response, score: evalResult.score, errors: evalResult.specific_errors ?? [] });

	if (evalResult.score > bestScore) {
	bestScore = evalResult.score;
	bestResponse = response;
	}

	// Si pasa → devolver directamente
	if (evalResult.pass) {
	storeEpisode(userMessage, 'pasó evaluación', response, true);
	console.log(`[Reflexion] ✅ Pasó en ronda ${round+1}`);
	return { response, rounds: round + 1, passed: true };
	}

	// Si es la última ronda → devolver la mejor disponible
	if (round === MAX_ROUNDS - 1) {
	console.warn(`[Reflexion] ⚠️ Agotadas ${MAX_ROUNDS} rondas — devolviendo mejor respuesta (score=${bestScore})`);
	storeEpisode(userMessage, evalResult.what_to_fix ?? 'sin corrección', bestResponse ?? response, false);
	return { response: bestResponse ?? response, rounds: MAX_ROUNDS, passed: false, escalate: true };
	}

	// ── REFLECTOR: generar crítica verbal para el siguiente intento ───────────
	const critique = await reflect(response, evalResult, userMessage, attempts.slice(-2));
	reflexionHint = `\n\n[Auto-corrección ronda ${round+2}]: ${critique}`;
	console.log(`[Reflexion] 🔄 Ronda ${round+2} con critique: ${critique.slice(0, 80)}...`);
	}

	return { response: bestResponse ?? '', rounds: MAX_ROUNDS, passed: false };
	}

	// ── Usar Reflexion para mejorar respuestas de alta importancia ─────────────────
	// Solo activar cuando la tarea lo justifica (no para saludos simples)
	export function shouldUseReflexion(taskType, messageLength) {
	if (taskType === 'fast') return false; // saludos, respuestas rápidas
	if (taskType === 'reasoning') return true; // preguntas complejas → siempre
	if (taskType === 'code') return true; // código → siempre
	if (messageLength > 200) return true; // pregunta larga = compleja
	return false;
	}

	export function getEpisodicStats() {
	return { stored: episodicMemory.length, successes: episodicMemory.filter(e => e.success).length };
	}