Buckets:
| <meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"Open R1 pentru Studenți","local":"open-r1-pentru-studenți","sections":[{"title":"Ce Vei Învăța","local":"ce-vei-învăța","sections":[],"depth":2},{"title":"De Ce Este Important Pentru Studenți","local":"de-ce-este-important-pentru-studenți","sections":[],"depth":2},{"title":"Prezentarea Capitolului","local":"prezentarea-capitolului","sections":[{"title":"1️⃣ Introducere în Învățarea prin Întărire și rolul acesteia în LLM-uri","local":"1-introducere-în-învățarea-prin-întărire-și-rolul-acesteia-în-llm-uri","sections":[],"depth":3},{"title":"2️⃣ Înțelegerea Lucrării DeepSeek R1","local":"2-înțelegerea-lucrării-deepseek-r1","sections":[],"depth":3},{"title":"3️⃣ Implementarea GRPO în TRL","local":"3-implementarea-grpo-în-trl","sections":[],"depth":3},{"title":"4️⃣ Caz de utilizare practic pentru alinierea unui model","local":"4-caz-de-utilizare-practic-pentru-alinierea-unui-model","sections":[],"depth":3}],"depth":2},{"title":"Cerințe Prealabile","local":"cerințe-prealabile","sections":[],"depth":2},{"title":"Cum să Folosești Acest Capitol","local":"cum-să-folosești-acest-capitol","sections":[],"depth":2}],"depth":1}"> | |
| <link href="/docs/course/pr_1069/rum/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/entry/start.1de7c3d2.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/scheduler.37c15a92.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/singletons.e13b7dfd.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/index.18351ede.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/paths.e130b7b0.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/entry/app.1f82014c.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/index.2bf4358c.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/nodes/0.3c83e1ab.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/each.e59479a4.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/nodes/27.41613899.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/Tip.363c041f.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/CodeBlock.4e987730.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1069/rum/_app/immutable/chunks/getInferenceSnippets.24b50994.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"Open R1 pentru Studenți","local":"open-r1-pentru-studenți","sections":[{"title":"Ce Vei Învăța","local":"ce-vei-învăța","sections":[],"depth":2},{"title":"De Ce Este Important Pentru Studenți","local":"de-ce-este-important-pentru-studenți","sections":[],"depth":2},{"title":"Prezentarea Capitolului","local":"prezentarea-capitolului","sections":[{"title":"1️⃣ Introducere în Învățarea prin Întărire și rolul acesteia în LLM-uri","local":"1-introducere-în-învățarea-prin-întărire-și-rolul-acesteia-în-llm-uri","sections":[],"depth":3},{"title":"2️⃣ Înțelegerea Lucrării DeepSeek R1","local":"2-înțelegerea-lucrării-deepseek-r1","sections":[],"depth":3},{"title":"3️⃣ Implementarea GRPO în TRL","local":"3-implementarea-grpo-în-trl","sections":[],"depth":3},{"title":"4️⃣ Caz de utilizare practic pentru alinierea unui model","local":"4-caz-de-utilizare-practic-pentru-alinierea-unui-model","sections":[],"depth":3}],"depth":2},{"title":"Cerințe Prealabile","local":"cerințe-prealabile","sections":[],"depth":2},{"title":"Cum să Folosești Acest Capitol","local":"cum-să-folosești-acest-capitol","sections":[],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <h1 class="relative group"><a id="open-r1-pentru-studenți" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#open-r1-pentru-studenți"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Open R1 pentru Studenți</span></h1> <p data-svelte-h="svelte-1g3gz12">Bun venit într-o călătorie captivantă în lumea AI-ului open-source cu învățarea prin întărire! Acest capitol este conceput pentru a ajuta studenții să înțeleagă învățarea prin întărire și rolul acesteia în LLM-uri.</p> <p data-svelte-h="svelte-1igtkij">De asemenea, vom explora <a href="https://github.com/huggingface/open-r1" rel="nofollow">Open R1</a>, un proiect comunitar revoluționar care face AI-ul avansat accesibil pentru toată lumea. În mod specific, acest curs este pentru a ajuta studenții și cursanții să folosească și să contribuie la <a href="https://github.com/huggingface/open-r1" rel="nofollow">Open R1</a>.</p> <h2 class="relative group"><a id="ce-vei-învăța" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ce-vei-învăța"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Ce Vei Învăța</span></h2> <p data-svelte-h="svelte-7n0z1d">În acest capitol, vom descompune concepte complexe în părți ușor de înțeles și îți vom arăta cum poți fi parte din acest proiect captivant de a face LLM-urile să raționeze asupra problemelor complexe.</p> <p data-svelte-h="svelte-2f34c4">LLM-urile au demonstrat performanțe excelente pe multe sarcini generative. Cu toate acestea, până recent, au avut dificultăți cu problemele complexe care necesită raționament. De exemplu, le este greu să se descurce cu puzzle-uri sau probleme de matematică care necesită mai mulți pași de raționament.</p> <p data-svelte-h="svelte-cdr611">Open R1 este un proiect care își propune să facă LLM-urile să raționeze asupra problemelor complexe. Face acest lucru folosind învățarea prin întărire pentru a încuraja LLM-urile să ‘gândească’ și să raționeze.</p> <p data-svelte-h="svelte-13axuo6">În termeni simpli, modelul este antrenat să genereze gânduri precum și rezultate, și să structureze aceste gânduri și rezultate astfel încât să poată fi gestionate separat de către utilizator.</p> <p data-svelte-h="svelte-6ptjfc">Să aruncăm o privire la un exemplu. Dacă ne-am dat nouă înșine sarcina de a rezolva următoarea problemă, am putea gândi astfel:</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->Problemă: <span class="hljs-string">"Am 3 mere și 2 portocale. Câte bucăți de fructe am în total?"</span> | |
| Gând: <span class="hljs-string">"Trebuie să adun numărul de mere și portocale pentru a obține numărul total de bucăți de fructe."</span> | |
| Răspuns: <span class="hljs-string">"5"</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1ygrbfy">Putem apoi să structurăm acest gând și răspuns astfel încât să poată fi gestionate separat de către utilizator. Pentru sarcinile de raționament, LLM-urile pot fi antrenate să genereze gânduri și răspunsuri în următorul format:</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><think>Trebuie să adun numărul de mere și portocale pentru a obține numărul total de bucăți de fructe.</think> | |
| 5<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-5lddm2">Ca utilizator, putem apoi să extragem gândul și răspunsul din rezultatul modelului și să le folosim pentru a rezolva problema.</p> <h2 class="relative group"><a id="de-ce-este-important-pentru-studenți" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#de-ce-este-important-pentru-studenți"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>De Ce Este Important Pentru Studenți</span></h2> <p data-svelte-h="svelte-1xv6mx2">Ca student, înțelegerea Open R1 și a rolului învățării prin întărire în LLM-uri este valoroasă pentru că:</p> <ul data-svelte-h="svelte-1calglj"><li>Îți arată cum se dezvoltă AI-ul de ultimă generație</li> <li>Îți oferă oportunități practice de a învăța și contribui</li> <li>Te ajută să înțelegi înspre unde se îndreaptă tehnologia AI</li> <li>Îți deschide uși către viitoare oportunități de carieră în AI</li></ul> <h2 class="relative group"><a id="prezentarea-capitolului" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#prezentarea-capitolului"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Prezentarea Capitolului</span></h2> <p data-svelte-h="svelte-mbs9tc">Acest capitol este împărțit în patru secțiuni, fiecare concentrându-se pe un aspect diferit al Open R1:</p> <h3 class="relative group"><a id="1-introducere-în-învățarea-prin-întărire-și-rolul-acesteia-în-llm-uri" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#1-introducere-în-învățarea-prin-întărire-și-rolul-acesteia-în-llm-uri"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>1️⃣ Introducere în Învățarea prin Întărire și rolul acesteia în LLM-uri</span></h3> <p data-svelte-h="svelte-1tnj1vf">Vom explora elementele de bază ale Învățării prin Întărire (RL) și rolul acesteia în antrenarea LLM-urilor.</p> <ul data-svelte-h="svelte-ktcldm"><li>Ce este RL?</li> <li>Cum este folosit RL în LLM-uri?</li> <li>Ce este DeepSeek R1?</li> <li>Care sunt inovațiile cheie ale DeepSeek R1?</li></ul> <h3 class="relative group"><a id="2-înțelegerea-lucrării-deepseek-r1" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#2-înțelegerea-lucrării-deepseek-r1"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>2️⃣ Înțelegerea Lucrării DeepSeek R1</span></h3> <p data-svelte-h="svelte-ef5nzf">Vom descompune lucrarea de cercetare care a inspirat <a href="https://huggingface.co/open-r1" rel="nofollow">Open R1</a>:</p> <ul data-svelte-h="svelte-1oorsyv"><li>Inovații și descoperiri cheie</li> <li>Procesul de antrenare și arhitectura</li> <li>Rezultate și semnificația lor</li></ul> <h3 class="relative group"><a id="3-implementarea-grpo-în-trl" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#3-implementarea-grpo-în-trl"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>3️⃣ Implementarea GRPO în TRL</span></h3> <p data-svelte-h="svelte-cv4bvj">Vom deveni practici cu exemple de cod:</p> <ul data-svelte-h="svelte-6wqqe0"><li>Cum să folosești biblioteca Transformer Reinforcement Learning (TRL)</li> <li>Configurarea antrenamentului GRPO</li></ul> <h3 class="relative group"><a id="4-caz-de-utilizare-practic-pentru-alinierea-unui-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#4-caz-de-utilizare-practic-pentru-alinierea-unui-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>4️⃣ Caz de utilizare practic pentru alinierea unui model</span></h3> <p data-svelte-h="svelte-wik6bu">Vom privi un caz de utilizare practic pentru alinierea unui model folosind Open R1.</p> <ul data-svelte-h="svelte-1mr1inp"><li>Cum să antrenezi un model folosind GRPO în TRL</li> <li>Să-ți partajezi modelul pe <a href="https://huggingface.co/models" rel="nofollow">Hugging Face Hub</a></li></ul> <h2 class="relative group"><a id="cerințe-prealabile" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#cerințe-prealabile"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Cerințe Prealabile</span></h2> <p data-svelte-h="svelte-1riyhja">Pentru a obține cel mai mult din acest capitol, este util să ai:</p> <ul data-svelte-h="svelte-oizrae"><li>Înțelegere solidă a programării Python</li> <li>Familiaritate cu conceptele de machine learning</li> <li>Interes pentru AI și modelele de limbaj</li></ul> <p data-svelte-h="svelte-xk6c4z">Nu-ți face griji dacă îți lipsesc unele dintre acestea – vom explica conceptele cheie pe măsură ce mergem! 🚀</p> <div class="course-tip bg-gradient-to-br dark:bg-gradient-to-r before:border-green-500 dark:before:border-green-800 from-green-50 dark:from-gray-900 to-white dark:to-gray-950 border border-green-50 text-green-700 dark:text-gray-400"><p data-svelte-h="svelte-1i6tov4">Dacă nu ai toate cerințele prealabile, consultă acest <a href="/course/chapter1/1">curs</a> de la unitățile 1 la 11</p></div> <h2 class="relative group"><a id="cum-să-folosești-acest-capitol" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#cum-să-folosești-acest-capitol"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Cum să Folosești Acest Capitol</span></h2> <ol data-svelte-h="svelte-z47sps"><li><strong>Citește Secvențial</strong>: Secțiunile se construiesc una pe alta, așa că este mai bine să le citești în ordine</li> <li><strong>Partajează Notițe</strong>: Scrie conceptele cheie și întrebările și discută-le cu comunitatea în <a href="https://discord.gg/F3vZujJH" rel="nofollow">Discord</a></li> <li><strong>Încearcă Codul</strong>: Când ajungem la exemplele practice, încearcă-le singur</li> <li><strong>Alătură-te Comunității</strong>: Folosește resursele pe care le oferim pentru a te conecta cu alți cursanți</li></ol> <p data-svelte-h="svelte-180ixbq">Să începem explorarea Open R1 și să descoperim cum poți fi parte din a face AI-ul mai accesibil pentru toată lumea! 🚀</p> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/rum/chapter12/1.mdx" target="_blank"><span data-svelte-h="svelte-1kd6by1"><</span> <span data-svelte-h="svelte-x0xyl0">></span> <span data-svelte-h="svelte-1dajgef"><span class="underline ml-1.5">Update</span> on GitHub</span></a> <p></p> | |
| <script> | |
| { | |
| __sveltekit_1ftlxhy = { | |
| assets: "/docs/course/pr_1069/rum", | |
| base: "/docs/course/pr_1069/rum", | |
| env: {} | |
| }; | |
| const element = document.currentScript.parentElement; | |
| const data = [null,null]; | |
| Promise.all([ | |
| import("/docs/course/pr_1069/rum/_app/immutable/entry/start.1de7c3d2.js"), | |
| import("/docs/course/pr_1069/rum/_app/immutable/entry/app.1f82014c.js") | |
| ]).then(([kit, app]) => { | |
| kit.start(app, element, { | |
| node_ids: [0, 27], | |
| data, | |
| form: null, | |
| error: null | |
| }); | |
| }); | |
| } | |
| </script> | |
Xet Storage Details
- Size:
- 26.2 kB
- Xet hash:
- 9bfec8a4e8049186f0ee99494ac4d251a2213d8f740bf27fc1c15e8117143f52
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.