Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1213 /es /chapter12 /2.html

rtrm

3 months ago

download

raw

46.9 kB

	<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"Introducción al aprendizaje por refuerzo y su papel en los LLM","local":"introducción-al-aprendizaje-por-refuerzo-y-su-papel-en-los-llm","sections":[{"title":"¿Qué es Reinforcement Learning (RL)?","local":"qué-es-reinforcement-learning-rl","sections":[{"title":"Agente","local":"agente","sections":[],"depth":3},{"title":"Entorno","local":"entorno","sections":[],"depth":3},{"title":"Acción","local":"acción","sections":[],"depth":3},{"title":"Recompensa","local":"recompensa","sections":[],"depth":3},{"title":"Política","local":"política","sections":[],"depth":3}],"depth":2},{"title":"El proceso de RL: prueba y error","local":"el-proceso-de-rl-prueba-y-error","sections":[],"depth":2},{"title":"El papel de RL en los Large Language Models (LLM)","local":"el-papel-de-rl-en-los-large-language-models-llm","sections":[],"depth":2},{"title":"Reinforcement Learning from Human Feedback (RLHF)","local":"reinforcement-learning-from-human-feedback-rlhf","sections":[],"depth":2},{"title":"¿Por qué deberíamos prestar atención a GRPO?","local":"por-qué-deberíamos-prestar-atención-a-grpo","sections":[],"depth":2},{"title":"Quiz","local":"quiz","sections":[{"title":"1. ¿Cuáles son los componentes clave del Reinforcement Learning?","local":"1-cuáles-son-los-componentes-clave-del-reinforcement-learning","sections":[],"depth":3},{"title":"2. ¿Cuál es la principal ventaja de RLHF para entrenar modelos de lenguaje?","local":"2-cuál-es-la-principal-ventaja-de-rlhf-para-entrenar-modelos-de-lenguaje","sections":[],"depth":3},{"title":"3. En el contexto de RL para LLM, ¿qué representa una acción?","local":"3-en-el-contexto-de-rl-para-llm-qué-representa-una-acción","sections":[],"depth":3},{"title":"4. ¿Cuál es el papel de la recompensa en el entrenamiento RL de modelos de lenguaje?","local":"4-cuál-es-el-papel-de-la-recompensa-en-el-entrenamiento-rl-de-modelos-de-lenguaje","sections":[],"depth":3},{"title":"5. ¿Qué es una recompensa en el contexto de RL para LLM?","local":"5-qué-es-una-recompensa-en-el-contexto-de-rl-para-llm","sections":[],"depth":3}],"depth":2}],"depth":1}">
	<link href="/docs/course/pr_1213/es/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/entry/start.36d27295.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/scheduler.505acc25.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/singletons.6865fa96.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/index.001f95d5.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/paths.ec28c642.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/entry/app.3b43d7f3.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/preload-helper.8c2bab6b.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/index.e22abd30.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/nodes/0.e2c0ea78.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/each.e59479a4.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/nodes/29.bc5ebfcf.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.a144e953.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/Question.bc1e0795.js">
	<link rel="modulepreload" href="/docs/course/pr_1213/es/_app/immutable/chunks/stores.f19d72fe.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"Introducción al aprendizaje por refuerzo y su papel en los LLM","local":"introducción-al-aprendizaje-por-refuerzo-y-su-papel-en-los-llm","sections":[{"title":"¿Qué es Reinforcement Learning (RL)?","local":"qué-es-reinforcement-learning-rl","sections":[{"title":"Agente","local":"agente","sections":[],"depth":3},{"title":"Entorno","local":"entorno","sections":[],"depth":3},{"title":"Acción","local":"acción","sections":[],"depth":3},{"title":"Recompensa","local":"recompensa","sections":[],"depth":3},{"title":"Política","local":"política","sections":[],"depth":3}],"depth":2},{"title":"El proceso de RL: prueba y error","local":"el-proceso-de-rl-prueba-y-error","sections":[],"depth":2},{"title":"El papel de RL en los Large Language Models (LLM)","local":"el-papel-de-rl-en-los-large-language-models-llm","sections":[],"depth":2},{"title":"Reinforcement Learning from Human Feedback (RLHF)","local":"reinforcement-learning-from-human-feedback-rlhf","sections":[],"depth":2},{"title":"¿Por qué deberíamos prestar atención a GRPO?","local":"por-qué-deberíamos-prestar-atención-a-grpo","sections":[],"depth":2},{"title":"Quiz","local":"quiz","sections":[{"title":"1. ¿Cuáles son los componentes clave del Reinforcement Learning?","local":"1-cuáles-son-los-componentes-clave-del-reinforcement-learning","sections":[],"depth":3},{"title":"2. ¿Cuál es la principal ventaja de RLHF para entrenar modelos de lenguaje?","local":"2-cuál-es-la-principal-ventaja-de-rlhf-para-entrenar-modelos-de-lenguaje","sections":[],"depth":3},{"title":"3. En el contexto de RL para LLM, ¿qué representa una acción?","local":"3-en-el-contexto-de-rl-para-llm-qué-representa-una-acción","sections":[],"depth":3},{"title":"4. ¿Cuál es el papel de la recompensa en el entrenamiento RL de modelos de lenguaje?","local":"4-cuál-es-el-papel-de-la-recompensa-en-el-entrenamiento-rl-de-modelos-de-lenguaje","sections":[],"depth":3},{"title":"5. ¿Qué es una recompensa en el contexto de RL para LLM?","local":"5-qué-es-una-recompensa-en-el-contexto-de-rl-para-llm","sections":[],"depth":3}],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 h-7 max-sm:h-7 px-2 max-sm:px-1.5 text-sm font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0 hover:text-gray-800 dark:hover:text-gray-200"><svg class="sm:size-3.5 size-3" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-7 max-sm:h-7 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible sm:size-3.5 size-3 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="introducción-al-aprendizaje-por-refuerzo-y-su-papel-en-los-llm" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#introducción-al-aprendizaje-por-refuerzo-y-su-papel-en-los-llm"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Introducción al aprendizaje por refuerzo y su papel en los LLM</span></h1> <p data-svelte-h="svelte-7xsot5">Bienvenido a la primera página.</p> <p data-svelte-h="svelte-19vbqih">Vamos a comenzar nuestro recorrido por el mundo del Reinforcement Learning (RL, aprendizaje por refuerzo) y veremos cómo está cambiando la forma en que entrenamos modelos de lenguaje como los que quizá uses a diario.</p> <blockquote class="tip" data-svelte-h="svelte-1sd55iq"><p>En este capítulo nos centramos en el aprendizaje por refuerzo para modelos de lenguaje. Sin embargo, el aprendizaje por refuerzo es un campo amplio con muchas aplicaciones más allá de los modelos de lenguaje. Si te interesa profundizar, revisa el <a href="https://huggingface.co/courses/deep-rl-course/en/unit1/introduction" rel="nofollow">curso de Deep Reinforcement Learning</a>.</p></blockquote> <p data-svelte-h="svelte-1pnonbk">Esta página te dará una introducción clara y amigable a RL, incluso si nunca te lo has encontrado antes. Desglosaremos las ideas fundamentales y veremos por qué RL se está volviendo tan importante en el campo de los Large Language Models (LLM).</p> <h2 class="relative group"><a id="qué-es-reinforcement-learning-rl" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#qué-es-reinforcement-learning-rl"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>¿Qué es Reinforcement Learning (RL)?</span></h2> <p data-svelte-h="svelte-1yluizn">Imagina que estás entrenando a un perro. Quieres enseñarle a sentarse. Podrías decir “¡Siéntate!” y, si el perro se sienta, le das un premio y lo felicitas. Si no se sienta, puedes guiarlo con suavidad o simplemente volver a intentarlo. Con el tiempo, el perro aprende a asociar sentarse con una recompensa positiva. En aprendizaje por refuerzo, a esta retroalimentación la llamamos <strong>recompensa</strong>.</p> <p data-svelte-h="svelte-10in66p">Esa es, en pocas palabras, la idea básica detrás del Reinforcement Learning. En lugar de un perro, tenemos un <strong>modelo de lenguaje</strong> y, en aprendizaje por refuerzo, lo llamamos un <strong>agente</strong>. En lugar de ti, tenemos el <strong>entorno</strong>, que le da retroalimentación.</p> <p data-svelte-h="svelte-1mld5x8"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/3.jpg" alt="Proceso de términos de RL"></p> <p data-svelte-h="svelte-1rnd8sj">Desglosemos las piezas clave de RL:</p> <h3 class="relative group"><a id="agente" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#agente"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Agente</span></h3> <p data-svelte-h="svelte-1kniuoj">Es quien aprende. En el ejemplo del perro, el perro es el agente. En el contexto de los LLM, el propio LLM se convierte en el agente que queremos entrenar. El agente toma decisiones y aprende del entorno y de las recompensas.</p> <h3 class="relative group"><a id="entorno" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#entorno"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Entorno</span></h3> <p data-svelte-h="svelte-1qhujvk">Es el mundo en el que vive e interactúa el agente. Para el perro, el entorno es tu casa y tú. Para un LLM, el entorno es más abstracto: pueden ser las personas usuarias con las que interactúa o un escenario simulado. El entorno proporciona retroalimentación al agente.</p> <h3 class="relative group"><a id="acción" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#acción"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Acción</span></h3> <p data-svelte-h="svelte-1vfyxhf">Son las decisiones que el agente puede tomar en el entorno. Las acciones del perro son cosas como sentarse, ponerse de pie o ladrar. Para un LLM, las acciones pueden ser generar palabras en una frase, elegir qué respuesta dar o decidir cómo responder en una conversación.</p> <h3 class="relative group"><a id="recompensa" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#recompensa"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Recompensa</span></h3> <p data-svelte-h="svelte-1s50jxv">Es la retroalimentación que el entorno da al agente después de una acción. Las recompensas suelen expresarse como números.</p> <p data-svelte-h="svelte-120cz8o">Las <strong>recompensas positivas</strong> son como premios y elogios: le dicen al agente que hizo algo bien.</p> <p data-svelte-h="svelte-1x3z3qf">Las <strong>recompensas negativas</strong> o penalizaciones son como un “no” suave: le dicen al agente que esa acción no fue adecuada y que debería probar otra cosa. En el ejemplo del perro, el premio es la recompensa.</p> <p data-svelte-h="svelte-188kc0z">En un LLM, las recompensas se diseñan para reflejar lo bien que el modelo realiza una tarea concreta: por ejemplo, cuán útil, veraz o inocua es su respuesta.</p> <h3 class="relative group"><a id="política" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#política"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Política</span></h3> <p data-svelte-h="svelte-1et48za">Es la estrategia del agente para elegir acciones. Es como la comprensión del perro de lo que debe hacer cuando le dices “¡Siéntate!“. En RL, la política es lo que realmente queremos aprender y mejorar. Es un conjunto de reglas o una función que le dice al agente qué acción tomar en distintas situaciones. Al principio puede ser aleatoria, pero con el tiempo mejora para elegir acciones que lleven a recompensas más altas.</p> <h2 class="relative group"><a id="el-proceso-de-rl-prueba-y-error" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#el-proceso-de-rl-prueba-y-error"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>El proceso de RL: prueba y error</span></h2> <p data-svelte-h="svelte-l82yec"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/1.jpg" alt="Proceso de RL"></p> <p data-svelte-h="svelte-10pn9lp">El aprendizaje por refuerzo ocurre mediante un proceso de prueba y error:</p> <table data-svelte-h="svelte-bofopp"><thead><tr><th>Paso</th> <th>Proceso</th> <th>Descripción</th></tr></thead> <tbody><tr><td>1. Observación</td> <td>El agente observa el entorno</td> <td>El agente incorpora información sobre su estado actual y su entorno</td></tr> <tr><td>2. Acción</td> <td>El agente realiza una acción según su política actual</td> <td>Usando su estrategia aprendida, el agente decide qué hacer después</td></tr> <tr><td>3. Retroalimentación</td> <td>El entorno le da una recompensa al agente</td> <td>El agente recibe retroalimentación sobre si su acción fue buena o mala</td></tr> <tr><td>4. Aprendizaje</td> <td>El agente actualiza su política según la recompensa</td> <td>El agente ajusta su estrategia, reforzando acciones que llevaron a recompensas altas y evitando las que llevaron a recompensas bajas</td></tr> <tr><td>5. Iteración</td> <td>Repetir el proceso</td> <td>Este ciclo continúa y permite que el agente mejore continuamente</td></tr></tbody></table> <p data-svelte-h="svelte-lnm6my">Piensa en aprender a montar en bicicleta. Al principio puedes tambalearte y caerte. Pero cuando logras mantener el equilibrio y pedalear con suavidad, obtienes retroalimentación positiva. Vas ajustando tus acciones según esa retroalimentación hasta que aprendes a montar bien. RL es parecido: se trata de aprender mediante interacción y retroalimentación.</p> <h2 class="relative group"><a id="el-papel-de-rl-en-los-large-language-models-llm" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#el-papel-de-rl-en-los-large-language-models-llm"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>El papel de RL en los Large Language Models (LLM)</span></h2> <p data-svelte-h="svelte-1286i3m">Ahora bien, ¿por qué RL es tan importante para los Large Language Models?</p> <p data-svelte-h="svelte-161p3ux">Entrenar LLM realmente buenos es complicado. Podemos entrenarlos con grandes cantidades de texto de internet y se vuelven muy buenos prediciendo la siguiente palabra de una frase. Así aprenden a generar texto fluido y gramaticalmente correcto, como vimos en el <a href="/course/chapter2/1">capítulo 2</a>.</p> <p data-svelte-h="svelte-17hys7d">Pero ser fluido no basta. Queremos que nuestros LLM sean algo más que modelos que encadenan palabras. Queremos que sean:</p> <ul data-svelte-h="svelte-1n3z5jq"><li><strong>Útiles:</strong> que proporcionen información relevante y útil.</li> <li><strong>Inofensivos:</strong> que eviten generar contenido tóxico, sesgado o dañino.</li> <li><strong>Alineados con las preferencias humanas:</strong> que respondan de formas que las personas perciban como naturales, útiles e interesantes.</li></ul> <p data-svelte-h="svelte-1twrdrt">Los métodos de preentrenamiento de LLM, que dependen sobre todo de predecir la siguiente palabra, a veces se quedan cortos en estos aspectos.</p> <p data-svelte-h="svelte-fr360s">Aunque el entrenamiento supervisado es excelente para producir salidas estructuradas, puede ser menos efectivo para producir respuestas útiles, inocuas y alineadas. Exploramos el entrenamiento supervisado en el <a href="/course/chapter11/1">capítulo 11</a>.</p> <p data-svelte-h="svelte-kc4f4i">Los modelos ajustados pueden generar texto fluido y estructurado que siga siendo incorrecto en términos factuales, sesgado o poco útil para la pregunta real de la persona usuaria.</p> <p data-svelte-h="svelte-fe1ad0"><strong>Aquí entra en juego Reinforcement Learning.</strong> RL nos da una manera de ajustar esos LLM preentrenados para acercarlos mejor a estas cualidades deseadas.</p> <h2 class="relative group"><a id="reinforcement-learning-from-human-feedback-rlhf" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#reinforcement-learning-from-human-feedback-rlhf"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Reinforcement Learning from Human Feedback (RLHF)</span></h2> <p data-svelte-h="svelte-1tfwf5e">Una técnica muy popular para alinear modelos de lenguaje es <strong>Reinforcement Learning from Human Feedback (RLHF)</strong>. En RLHF, usamos retroalimentación humana como sustituto de la señal de recompensa. Funciona así:</p> <ol data-svelte-h="svelte-vbcmof"><li><strong>Obtener preferencias humanas:</strong> podemos pedir a personas que comparen distintas respuestas generadas por el LLM para un mismo prompt y nos digan cuál prefieren.</li> <li><strong>Entrenar un modelo de recompensa:</strong> usamos esos datos para entrenar un modelo separado llamado <strong>reward model</strong>. Ese modelo aprende a puntuar respuestas según utilidad, inocuidad y alineación con preferencias humanas.</li> <li><strong>Ajustar el LLM con RL:</strong> después usamos el reward model como entorno para nuestro agente LLM. El modelo genera respuestas y el reward model las puntúa.</li></ol> <p data-svelte-h="svelte-1dhmf7o"><img src="https://huggingface.co/reasoning-course/images/resolve/main/grpo/2.jpg" alt="Concepto básico de RL"></p> <p data-svelte-h="svelte-1ijk8px">Desde una perspectiva general, estos son algunos beneficios de usar RL en LLM:</p> <table data-svelte-h="svelte-3k28rg"><thead><tr><th>Beneficio</th> <th>Descripción</th></tr></thead> <tbody><tr><td>Mayor control</td> <td>RL permite tener más control sobre el tipo de texto que generan los LLM y guiarlos hacia objetivos concretos</td></tr> <tr><td>Mejor alineación con valores humanos</td> <td>RLHF ayuda a alinear los LLM con preferencias humanas complejas y subjetivas</td></tr> <tr><td>Mitigación de comportamientos indeseables</td> <td>RL puede usarse para reducir lenguaje tóxico, desinformación o sesgos</td></tr></tbody></table> <p data-svelte-h="svelte-7xfjsz">Reinforcement Learning from Human Feedback se ha usado para entrenar muchos de los LLM más populares de hoy, como GPT-4, Gemini y R1 de DeepSeek. Hay muchas técnicas de RLHF con distintos grados de complejidad. En este capítulo nos centraremos en Group Relative Policy Optimization (GRPO), una técnica que ha demostrado ser efectiva para entrenar LLM útiles, inocuos y alineados con preferencias humanas.</p> <h2 class="relative group"><a id="por-qué-deberíamos-prestar-atención-a-grpo" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#por-qué-deberíamos-prestar-atención-a-grpo"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>¿Por qué deberíamos prestar atención a GRPO?</span></h2> <p data-svelte-h="svelte-1q8ygw2">Hay muchas técnicas de RLHF, pero este curso se centra en GRPO porque representa un avance importante en aprendizaje por refuerzo para modelos de lenguaje.</p> <p data-svelte-h="svelte-q9om0u">Consideremos brevemente otras dos técnicas populares:</p> <ul data-svelte-h="svelte-19pdi9y"><li>Proximal Policy Optimization (PPO)</li> <li>Direct Preference Optimization (DPO)</li></ul> <p data-svelte-h="svelte-aqpi56">Proximal Policy Optimization (PPO) fue una de las primeras técnicas muy efectivas para RLHF. Usa un método de gradiente de política para actualizar la política según la recompensa de un reward model separado.</p> <p data-svelte-h="svelte-mc224c">Direct Preference Optimization (DPO) apareció después como una técnica más simple que elimina la necesidad de un reward model separado al usar directamente datos de preferencias. En esencia, formula el problema como una tarea de clasificación entre respuestas elegidas y rechazadas.</p> <blockquote class="tip" data-svelte-h="svelte-lurbti"><p>DPO y PPO son algoritmos complejos de aprendizaje por refuerzo por derecho propio y no los cubriremos en este curso. Si quieres profundizar, revisa estos recursos:</p> <ul><li><a href="https://huggingface.co/docs/trl/main/en/ppo_trainer" rel="nofollow">Proximal Policy Optimization</a></li> <li><a href="https://huggingface.co/docs/trl/main/en/dpo_trainer" rel="nofollow">Direct Preference Optimization</a></li></ul></blockquote> <p data-svelte-h="svelte-1l9cvjc">A diferencia de DPO y PPO, GRPO agrupa muestras similares y las compara como grupo. Este enfoque proporciona gradientes más estables y mejores propiedades de convergencia.</p> <p data-svelte-h="svelte-138qtno">GRPO no usa datos de preferencias como DPO, sino que compara grupos de muestras similares usando una señal de recompensa proveniente de un modelo o de una función.</p> <p data-svelte-h="svelte-zqlzd0">GRPO es flexible en cómo obtiene esas señales de recompensa: puede funcionar con un reward model, como PPO, pero no lo necesita estrictamente. Por ejemplo, podríamos usar una función de longitud para recompensar respuestas más cortas, un solucionador matemático para verificar una solución o una función factual para premiar respuestas correctas.</p> <hr> <p data-svelte-h="svelte-1pvquiq">Has completado el Módulo 1. Ahora ya tienes una introducción sólida al aprendizaje por refuerzo y a su papel en el futuro de los LLM. Entiendes los conceptos básicos de RL, por qué se usa en LLM y ya conoces GRPO, un algoritmo clave en este espacio.</p> <p data-svelte-h="svelte-1is7hmo">En el siguiente módulo entraremos en el paper de DeepSeek R1 para ver estos conceptos en acción.</p> <h2 class="relative group"><a id="quiz" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#quiz"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Quiz</span></h2> <h3 class="relative group"><a id="1-cuáles-son-los-componentes-clave-del-reinforcement-learning" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#1-cuáles-son-los-componentes-clave-del-reinforcement-learning"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>1. ¿Cuáles son los componentes clave del Reinforcement Learning?</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->Agent, Environment, Action, Reward, and Policy<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->Model, Data, Loss Function, and Optimizer<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->Input, Output, and Hidden Layers<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="2-cuál-es-la-principal-ventaja-de-rlhf-para-entrenar-modelos-de-lenguaje" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#2-cuál-es-la-principal-ventaja-de-rlhf-para-entrenar-modelos-de-lenguaje"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>2. ¿Cuál es la principal ventaja de RLHF para entrenar modelos de lenguaje?</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->It helps align models with human preferences and values<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->It makes models generate text faster<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->It reduces the model's memory usage<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="3-en-el-contexto-de-rl-para-llm-qué-representa-una-acción" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#3-en-el-contexto-de-rl-para-llm-qué-representa-una-acción"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>3. En el contexto de RL para LLM, ¿qué representa una acción?</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->Generating words or choosing responses in a conversation<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->Updating model weights<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->Processing input tokens<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="4-cuál-es-el-papel-de-la-recompensa-en-el-entrenamiento-rl-de-modelos-de-lenguaje" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#4-cuál-es-el-papel-de-la-recompensa-en-el-entrenamiento-rl-de-modelos-de-lenguaje"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>4. ¿Cuál es el papel de la recompensa en el entrenamiento RL de modelos de lenguaje?</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->To provide feedback on how well the model's responses align with desired behavior<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->To measure the model's vocabulary size<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->To determine the model's training speed<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <h3 class="relative group"><a id="5-qué-es-una-recompensa-en-el-contexto-de-rl-para-llm" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#5-qué-es-una-recompensa-en-el-contexto-de-rl-para-llm"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>5. ¿Qué es una recompensa en el contexto de RL para LLM?</span></h3> <div><form><label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="0"> <!-- HTML_TAG_START -->A numerical score that measures the quality of a response<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="1"> <!-- HTML_TAG_START -->A function that generates responses<!-- HTML_TAG_END --></label> <label class="block"><input autocomplete="off" class="form-input -mt-1.5 mr-2" name="choice" type="checkbox" value="2"> <!-- HTML_TAG_START -->A model that evaluates the quality of responses<!-- HTML_TAG_END --></label> <div class="flex flex-row items-center mt-3"><button class="btn px-4 mr-4" type="submit" disabled>Submit</button> </div></form></div> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/es/chapter12/2.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p>

	<script>
	{
	__sveltekit_1nznq34 = {
	assets: "/docs/course/pr_1213/es",
	base: "/docs/course/pr_1213/es",
	env: {}
	};

	const element = document.currentScript.parentElement;

	const data = [null,null];

	Promise.all([
	import("/docs/course/pr_1213/es/_app/immutable/entry/start.36d27295.js"),
	import("/docs/course/pr_1213/es/_app/immutable/entry/app.3b43d7f3.js")
	]).then(([kit, app]) => {
	kit.start(app, element, {
	node_ids: [0, 29],
	data,
	form: null,
	error: null
	});
	});
	}
	</script>

Xet Storage Details

Size:: 46.9 kB
Xet hash:: 50cad1b281bebbbe9cc7e53f661718c2e3ca39002bb7c92b1e41157f96af87f2

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.