Buckets:

rtrm's picture
download
raw
140 kB
import{s as aa,f as na,o as pa,n as ae}from"../chunks/scheduler.37c15a92.js";import{S as Ma,i as Ja,g as d,s as M,r as T,A as ra,h as j,f as e,c as J,j as mt,u as m,x as I,k as Xl,y as Ua,a,v as o,t as y,b as rs,d as U,w as u,e as la,p as Us}from"../chunks/index.2bf4358c.js";import{T as ys}from"../chunks/Tip.363c041f.js";import{Y as ot}from"../chunks/Youtube.1e50a667.js";import{C}from"../chunks/CodeBlock.4e987730.js";import{C as ta}from"../chunks/CourseFloatingBanner.9ff4c771.js";import{F as ya}from"../chunks/FrameworkSwitchCourse.8d4d4ab6.js";import{H as we,E as ca}from"../chunks/getInferenceSnippets.24b50994.js";function wa(h){let t,r;return t=new ta({props:{chapter:7,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter7/section6_tf.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter7/section6_tf.ipynb"}]}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function ia(h){let t,r;return t=new ta({props:{chapter:7,classNames:"absolute z-10 right-0 top-0",notebooks:[{label:"Google Colab",value:"https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter7/section6_pt.ipynb"},{label:"Aws Studio",value:"https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter7/section6_pt.ipynb"}]}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function Ta(h){let t,r="Предварительное обучение языковой модели займет некоторое время. Мы рекомендуем сначала запустить цикл обучения на выборке данных, раскомментировав две частичные строки выше, и убедиться, что обучение успешно завершено и модели сохранены. Нет ничего обиднее, чем неудачное обучение на последнем этапе из-за того, что вы забыли создать папку или из-за опечатки в конце цикла обучения!";return{c(){t=d("p"),t.textContent=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-ozo27j"&&(t.textContent=r)},m(n,c){a(n,t,c)},p:ae,d(n){n&&e(t)}}}function ma(h){let t,r="✏️ <strong>Попробуйте!</strong> Избавление от всех фрагментов, размер которых меньше размера контекста, не является большой проблемой, поскольку мы используем небольшие контекстные окна. При увеличении размера контекста (или если у вас корпус коротких документов) доля отбрасываемых фрагментов также будет расти. Более эффективный способ подготовки данных - объединить все токенизированные примеры в батч с маркером <code>eos_token_id</code> между ними, а затем выполнить фрагментацию на конкатенированных последовательностях. В качестве упражнения измените функцию <code>tokenize()</code>, чтобы использовать этот подход. Обратите внимание, что вам нужно установить <code>truncation=False</code> и удалить другие аргументы из токенизатора, чтобы получить полную последовательность идентификаторов токенов.";return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-14c894c"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},p:ae,d(n){n&&e(t)}}}function oa(h){let t,r,n,c="С этой конфигурацией мы можем загрузить новую модель. Обратите внимание, что впервые мы не используем функцию <code>from_pretrained()</code>, поскольку фактически инициализируем модель самостоятельно:",_,f,g,Z,k;return t=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMkMlMjBURkdQVDJMTUhlYWRNb2RlbCUyQyUyMEF1dG9Db25maWclMEElMEFjb25maWclMjAlM0QlMjBBdXRvQ29uZmlnLmZyb21fcHJldHJhaW5lZCglMEElMjAlMjAlMjAlMjAlMjJncHQyJTIyJTJDJTBBJTIwJTIwJTIwJTIwdm9jYWJfc2l6ZSUzRGxlbih0b2tlbml6ZXIpJTJDJTBBJTIwJTIwJTIwJTIwbl9jdHglM0Rjb250ZXh0X2xlbmd0aCUyQyUwQSUyMCUyMCUyMCUyMGJvc190b2tlbl9pZCUzRHRva2VuaXplci5ib3NfdG9rZW5faWQlMkMlMEElMjAlMjAlMjAlMjBlb3NfdG9rZW5faWQlM0R0b2tlbml6ZXIuZW9zX3Rva2VuX2lkJTJDJTBBKQ==",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer, TFGPT2LMHeadModel, AutoConfig
config = AutoConfig.from_pretrained(
<span class="hljs-string">&quot;gpt2&quot;</span>,
vocab_size=<span class="hljs-built_in">len</span>(tokenizer),
n_ctx=context_length,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
)`,wrap:!1}}),f=new C({props:{code:"bW9kZWwlMjAlM0QlMjBURkdQVDJMTUhlYWRNb2RlbChjb25maWcpJTBBbW9kZWwobW9kZWwuZHVtbXlfaW5wdXRzKSUyMCUyMCUyMyUyMCVEMCVBMSVEMCVCRSVEMCVCNyVEMCVCNCVEMCVCMCVEMCVCRCVEMCVCOCVEMCVCNSUyMCVEMCVCQyVEMCVCRSVEMCVCNCVEMCVCNSVEMCVCQiVEMCVCOCUwQW1vZGVsLnN1bW1hcnkoKQ==",highlighted:`model = TFGPT2LMHeadModel(config)
model(model.dummy_inputs) <span class="hljs-comment"># Создание модели</span>
model.summary()`,wrap:!1}}),Z=new C({props:{code:"X19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX18lMEFMYXllciUyMCh0eXBlKSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyME91dHB1dCUyMFNoYXBlJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwUGFyYW0lMjAlMjMlMjAlMjAlMjAlMEElM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlM0QlMEF0cmFuc2Zvcm1lciUyMChURkdQVDJNYWluTGF5ZXIlMjBtdWx0aXBsZSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMDEyNDI0MjQzMiUyMCUwQSUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUzRCUwQVRvdGFsJTIwcGFyYW1zJTNBJTIwMTI0JTJDMjQyJTJDNDMyJTBBVHJhaW5hYmxlJTIwcGFyYW1zJTNBJTIwMTI0JTJDMjQyJTJDNDMyJTBBTm9uLXRyYWluYWJsZSUyMHBhcmFtcyUzQSUyMDAlMEFfX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXw==",highlighted:`_________________________________________________________________
Layer (<span class="hljs-built_in">type</span>) Output Shape Param <span class="hljs-comment"># </span>
=================================================================
transformer (TFGPT2MainLayer multiple <span class="hljs-number">124242432</span>
=================================================================
Total params: <span class="hljs-number">124</span>,<span class="hljs-number">242</span>,<span class="hljs-number">432</span>
Trainable params: <span class="hljs-number">124</span>,<span class="hljs-number">242</span>,<span class="hljs-number">432</span>
Non-trainable params: <span class="hljs-number">0</span>
_________________________________________________________________`,wrap:!1}}),{c(){T(t.$$.fragment),r=M(),n=d("p"),n.innerHTML=c,_=M(),T(f.$$.fragment),g=M(),T(Z.$$.fragment)},l(i){m(t.$$.fragment,i),r=J(i),n=j(i,"P",{"data-svelte-h":!0}),I(n)!=="svelte-4fztpc"&&(n.innerHTML=c),_=J(i),m(f.$$.fragment,i),g=J(i),m(Z.$$.fragment,i)},m(i,b){o(t,i,b),a(i,r,b),a(i,n,b),a(i,_,b),o(f,i,b),a(i,g,b),o(Z,i,b),k=!0},i(i){k||(U(t.$$.fragment,i),U(f.$$.fragment,i),U(Z.$$.fragment,i),k=!0)},o(i){y(t.$$.fragment,i),y(f.$$.fragment,i),y(Z.$$.fragment,i),k=!1},d(i){i&&(e(r),e(n),e(_),e(g)),u(t,i),u(f,i),u(Z,i)}}}function ua(h){let t,r,n,c="С этой конфигурацией мы можем загрузить новую модель. Обратите внимание, что впервые мы не используем функцию <code>from_pretrained()</code>, поскольку фактически инициализируем модель самостоятельно:",_,f,g,Z,k;return t=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMkMlMjBHUFQyTE1IZWFkTW9kZWwlMkMlMjBBdXRvQ29uZmlnJTBBJTBBY29uZmlnJTIwJTNEJTIwQXV0b0NvbmZpZy5mcm9tX3ByZXRyYWluZWQoJTBBJTIwJTIwJTIwJTIwJTIyZ3B0MiUyMiUyQyUwQSUyMCUyMCUyMCUyMHZvY2FiX3NpemUlM0RsZW4odG9rZW5pemVyKSUyQyUwQSUyMCUyMCUyMCUyMG5fY3R4JTNEY29udGV4dF9sZW5ndGglMkMlMEElMjAlMjAlMjAlMjBib3NfdG9rZW5faWQlM0R0b2tlbml6ZXIuYm9zX3Rva2VuX2lkJTJDJTBBJTIwJTIwJTIwJTIwZW9zX3Rva2VuX2lkJTNEdG9rZW5pemVyLmVvc190b2tlbl9pZCUyQyUwQSk=",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer, GPT2LMHeadModel, AutoConfig
config = AutoConfig.from_pretrained(
<span class="hljs-string">&quot;gpt2&quot;</span>,
vocab_size=<span class="hljs-built_in">len</span>(tokenizer),
n_ctx=context_length,
bos_token_id=tokenizer.bos_token_id,
eos_token_id=tokenizer.eos_token_id,
)`,wrap:!1}}),f=new C({props:{code:"bW9kZWwlMjAlM0QlMjBHUFQyTE1IZWFkTW9kZWwoY29uZmlnKSUwQW1vZGVsX3NpemUlMjAlM0QlMjBzdW0odC5udW1lbCgpJTIwZm9yJTIwdCUyMGluJTIwbW9kZWwucGFyYW1ldGVycygpKSUwQXByaW50KGYlMjJHUFQtMiUyMHNpemUlM0ElMjAlN0Jtb2RlbF9zaXplJTJGMTAwMCoqMiUzQS4xZiU3RE0lMjBwYXJhbWV0ZXJzJTIyKQ==",highlighted:`model = GPT2LMHeadModel(config)
model_size = <span class="hljs-built_in">sum</span>(t.numel() <span class="hljs-keyword">for</span> t <span class="hljs-keyword">in</span> model.parameters())
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;GPT-2 size: <span class="hljs-subst">{model_size/<span class="hljs-number">1000</span>**<span class="hljs-number">2</span>:<span class="hljs-number">.1</span>f}</span>M parameters&quot;</span>)`,wrap:!1}}),Z=new C({props:{code:"R1BULTIlMjBzaXplJTNBJTIwMTI0LjJNJTIwcGFyYW1ldGVycw==",highlighted:'GPT-<span class="hljs-number">2</span> size: <span class="hljs-number">124.2</span>M parameters',wrap:!1}}),{c(){T(t.$$.fragment),r=M(),n=d("p"),n.innerHTML=c,_=M(),T(f.$$.fragment),g=M(),T(Z.$$.fragment)},l(i){m(t.$$.fragment,i),r=J(i),n=j(i,"P",{"data-svelte-h":!0}),I(n)!=="svelte-4fztpc"&&(n.innerHTML=c),_=J(i),m(f.$$.fragment,i),g=J(i),m(Z.$$.fragment,i)},m(i,b){o(t,i,b),a(i,r,b),a(i,n,b),a(i,_,b),o(f,i,b),a(i,g,b),o(Z,i,b),k=!0},i(i){k||(U(t.$$.fragment,i),U(f.$$.fragment,i),U(Z.$$.fragment,i),k=!0)},o(i){y(t.$$.fragment,i),y(f.$$.fragment,i),y(Z.$$.fragment,i),k=!1},d(i){i&&(e(r),e(n),e(_),e(g)),u(t,i),u(f,i),u(Z,i)}}}function da(h){let t,r;return t=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMERhdGFDb2xsYXRvckZvckxhbmd1YWdlTW9kZWxpbmclMEElMEF0b2tlbml6ZXIucGFkX3Rva2VuJTIwJTNEJTIwdG9rZW5pemVyLmVvc190b2tlbiUwQWRhdGFfY29sbGF0b3IlMjAlM0QlMjBEYXRhQ29sbGF0b3JGb3JMYW5ndWFnZU1vZGVsaW5nKHRva2VuaXplciUyQyUyMG1sbSUzREZhbHNlJTJDJTIwcmV0dXJuX3RlbnNvcnMlM0QlMjJ0ZiUyMik=",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> DataCollatorForLanguageModeling
tokenizer.pad_token = tokenizer.eos_token
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=<span class="hljs-literal">False</span>, return_tensors=<span class="hljs-string">&quot;tf&quot;</span>)`,wrap:!1}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function ja(h){let t,r;return t=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMERhdGFDb2xsYXRvckZvckxhbmd1YWdlTW9kZWxpbmclMEElMEF0b2tlbml6ZXIucGFkX3Rva2VuJTIwJTNEJTIwdG9rZW5pemVyLmVvc190b2tlbiUwQWRhdGFfY29sbGF0b3IlMjAlM0QlMjBEYXRhQ29sbGF0b3JGb3JMYW5ndWFnZU1vZGVsaW5nKHRva2VuaXplciUyQyUyMG1sbSUzREZhbHNlKQ==",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> DataCollatorForLanguageModeling
tokenizer.pad_token = tokenizer.eos_token
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=<span class="hljs-literal">False</span>)`,wrap:!1}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function Ia(h){let t,r;return t=new C({props:{code:"aW5wdXRfaWRzJTIwc2hhcGUlM0ElMjAoNSUyQyUyMDEyOCklMEFhdHRlbnRpb25fbWFzayUyMHNoYXBlJTNBJTIwKDUlMkMlMjAxMjgpJTBBbGFiZWxzJTIwc2hhcGUlM0ElMjAoNSUyQyUyMDEyOCk=",highlighted:`input_ids shape: (<span class="hljs-number">5</span>, <span class="hljs-number">128</span>)
attention_mask shape: (<span class="hljs-number">5</span>, <span class="hljs-number">128</span>)
labels shape: (<span class="hljs-number">5</span>, <span class="hljs-number">128</span>)`,wrap:!1}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function fa(h){let t,r;return t=new C({props:{code:"aW5wdXRfaWRzJTIwc2hhcGUlM0ElMjB0b3JjaC5TaXplKCU1QjUlMkMlMjAxMjglNUQpJTBBYXR0ZW50aW9uX21hc2slMjBzaGFwZSUzQSUyMHRvcmNoLlNpemUoJTVCNSUyQyUyMDEyOCU1RCklMEFsYWJlbHMlMjBzaGFwZSUzQSUyMHRvcmNoLlNpemUoJTVCNSUyQyUyMDEyOCU1RCk=",highlighted:`input_ids shape: torch.Size([<span class="hljs-number">5</span>, <span class="hljs-number">128</span>])
attention_mask shape: torch.Size([<span class="hljs-number">5</span>, <span class="hljs-number">128</span>])
labels shape: torch.Size([<span class="hljs-number">5</span>, <span class="hljs-number">128</span>])`,wrap:!1}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function sa(h){let t,r="Теперь мы можем использовать метод <code>prepare_tf_dataset()</code> для преобразования наших датасетов в датасеты TensorFlow с помощью коллатора данных, который мы создали выше:",n,c,_;return c=new C({props:{code:"dGZfdHJhaW5fZGF0YXNldCUyMCUzRCUyMG1vZGVsLnByZXBhcmVfdGZfZGF0YXNldCglMEElMjAlMjAlMjAlMjB0b2tlbml6ZWRfZGF0YXNldCU1QiUyMnRyYWluJTIyJTVEJTJDJTBBJTIwJTIwJTIwJTIwY29sbGF0ZV9mbiUzRGRhdGFfY29sbGF0b3IlMkMlMEElMjAlMjAlMjAlMjBzaHVmZmxlJTNEVHJ1ZSUyQyUwQSUyMCUyMCUyMCUyMGJhdGNoX3NpemUlM0QzMiUyQyUwQSklMEF0Zl9ldmFsX2RhdGFzZXQlMjAlM0QlMjBtb2RlbC5wcmVwYXJlX3RmX2RhdGFzZXQoJTBBJTIwJTIwJTIwJTIwdG9rZW5pemVkX2RhdGFzZXQlNUIlMjJ2YWxpZCUyMiU1RCUyQyUwQSUyMCUyMCUyMCUyMGNvbGxhdGVfZm4lM0RkYXRhX2NvbGxhdG9yJTJDJTBBJTIwJTIwJTIwJTIwc2h1ZmZsZSUzREZhbHNlJTJDJTBBJTIwJTIwJTIwJTIwYmF0Y2hfc2l6ZSUzRDMyJTJDJTBBKQ==",highlighted:`tf_train_dataset = model.prepare_tf_dataset(
tokenized_dataset[<span class="hljs-string">&quot;train&quot;</span>],
collate_fn=data_collator,
shuffle=<span class="hljs-literal">True</span>,
batch_size=<span class="hljs-number">32</span>,
)
tf_eval_dataset = model.prepare_tf_dataset(
tokenized_dataset[<span class="hljs-string">&quot;valid&quot;</span>],
collate_fn=data_collator,
shuffle=<span class="hljs-literal">False</span>,
batch_size=<span class="hljs-number">32</span>,
)`,wrap:!1}}),{c(){t=d("p"),t.innerHTML=r,n=M(),T(c.$$.fragment)},l(f){t=j(f,"P",{"data-svelte-h":!0}),I(t)!=="svelte-izpvki"&&(t.innerHTML=r),n=J(f),m(c.$$.fragment,f)},m(f,g){a(f,t,g),a(f,n,g),o(c,f,g),_=!0},i(f){_||(U(c.$$.fragment,f),_=!0)},o(f){y(c.$$.fragment,f),_=!1},d(f){f&&(e(t),e(n)),u(c,f)}}}function ba(h){let t,r="⚠️ Сдвиг входов и меток для их выравнивания происходит внутри модели, поэтому коллатор данных просто копирует входы для создания меток.";return{c(){t=d("p"),t.textContent=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-nge7u8"&&(t.textContent=r)},m(n,c){a(n,t,c)},p:ae,d(n){n&&e(t)}}}function Ca(h){let t,r="Осталось только настроить гиперпараметры обучения и вызвать <code>compile()</code> и <code>fit()</code>. Мы будем использовать график скорости обучения с некоторым разогревом, чтобы повысить стабильность обучения:",n,c,_,f,g="Теперь мы можем просто вызвать <code>model.fit()</code> и дождаться окончания обучения. В зависимости от того, запустите ли вы его на полном или на подмножестве обучающего набора, это займет 20 или 2 часа соответственно, так что захватите несколько чашек кофе и хорошую книгу для чтения! После завершения обучения мы можем отправить модель и токенизатор в Hub:",Z,k,i;return c=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMGNyZWF0ZV9vcHRpbWl6ZXIlMEFpbXBvcnQlMjB0ZW5zb3JmbG93JTIwYXMlMjB0ZiUwQSUwQW51bV90cmFpbl9zdGVwcyUyMCUzRCUyMGxlbih0Zl90cmFpbl9kYXRhc2V0KSUwQW9wdGltaXplciUyQyUyMHNjaGVkdWxlJTIwJTNEJTIwY3JlYXRlX29wdGltaXplciglMEElMjAlMjAlMjAlMjBpbml0X2xyJTNENWUtNSUyQyUwQSUyMCUyMCUyMCUyMG51bV93YXJtdXBfc3RlcHMlM0QxXzAwMCUyQyUwQSUyMCUyMCUyMCUyMG51bV90cmFpbl9zdGVwcyUzRG51bV90cmFpbl9zdGVwcyUyQyUwQSUyMCUyMCUyMCUyMHdlaWdodF9kZWNheV9yYXRlJTNEMC4wMSUyQyUwQSklMEFtb2RlbC5jb21waWxlKG9wdGltaXplciUzRG9wdGltaXplciklMEElMEElMjMlMjAlRDAlOUUlRDAlQjElRDElODMlRDElODclRDAlQjUlRDAlQkQlRDAlQjglRDAlQjUlMjAlRDElODElRDAlQkUlMjAlRDElODElRDAlQkMlRDAlQjUlRDElODglRDAlQjAlRDAlQkQlRDAlQkQlRDAlQkUlRDAlQjklMjAlRDElODIlRDAlQkUlRDElODclRDAlQkQlRDAlQkUlRDElODElRDElODIlRDElOEMlRDElOEUlMjBmbG9hdDE2JTBBdGYua2VyYXMubWl4ZWRfcHJlY2lzaW9uLnNldF9nbG9iYWxfcG9saWN5KCUyMm1peGVkX2Zsb2F0MTYlMjIp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> create_optimizer
<span class="hljs-keyword">import</span> tensorflow <span class="hljs-keyword">as</span> tf
num_train_steps = <span class="hljs-built_in">len</span>(tf_train_dataset)
optimizer, schedule = create_optimizer(
init_lr=<span class="hljs-number">5e-5</span>,
num_warmup_steps=<span class="hljs-number">1_000</span>,
num_train_steps=num_train_steps,
weight_decay_rate=<span class="hljs-number">0.01</span>,
)
model.<span class="hljs-built_in">compile</span>(optimizer=optimizer)
<span class="hljs-comment"># Обучение со смешанной точностью float16</span>
tf.keras.mixed_precision.set_global_policy(<span class="hljs-string">&quot;mixed_float16&quot;</span>)`,wrap:!1}}),k=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycy5rZXJhc19jYWxsYmFja3MlMjBpbXBvcnQlMjBQdXNoVG9IdWJDYWxsYmFjayUwQSUwQWNhbGxiYWNrJTIwJTNEJTIwUHVzaFRvSHViQ2FsbGJhY2sob3V0cHV0X2RpciUzRCUyMmNvZGVwYXJyb3QtZHMlMjIlMkMlMjB0b2tlbml6ZXIlM0R0b2tlbml6ZXIpJTBBJTBBbW9kZWwuZml0KHRmX3RyYWluX2RhdGFzZXQlMkMlMjB2YWxpZGF0aW9uX2RhdGElM0R0Zl9ldmFsX2RhdGFzZXQlMkMlMjBjYWxsYmFja3MlM0QlNUJjYWxsYmFjayU1RCk=",highlighted:`<span class="hljs-keyword">from</span> transformers.keras_callbacks <span class="hljs-keyword">import</span> PushToHubCallback
callback = PushToHubCallback(output_dir=<span class="hljs-string">&quot;codeparrot-ds&quot;</span>, tokenizer=tokenizer)
model.fit(tf_train_dataset, validation_data=tf_eval_dataset, callbacks=[callback])`,wrap:!1}}),{c(){t=d("p"),t.innerHTML=r,n=M(),T(c.$$.fragment),_=M(),f=d("p"),f.innerHTML=g,Z=M(),T(k.$$.fragment)},l(b){t=j(b,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1h7fen7"&&(t.innerHTML=r),n=J(b),m(c.$$.fragment,b),_=J(b),f=j(b,"P",{"data-svelte-h":!0}),I(f)!=="svelte-9e33lr"&&(f.innerHTML=g),Z=J(b),m(k.$$.fragment,b)},m(b,$){a(b,t,$),a(b,n,$),o(c,b,$),a(b,_,$),a(b,f,$),a(b,Z,$),o(k,b,$),i=!0},i(b){i||(U(c.$$.fragment,b),U(k.$$.fragment,b),i=!0)},o(b){y(c.$$.fragment,b),y(k.$$.fragment,b),i=!1},d(b){b&&(e(t),e(n),e(_),e(f),e(Z)),u(c,b),u(k,b)}}}function ha(h){let t,r="Осталось только настроить аргументы обучения и запустить <code>Trainer</code>. Мы будем использовать косинусный график скорости обучения с некоторым разогревом (warmup) и эффективным размером батча в 256 (<code>per_device_train_batch_size</code> * <code>gradient_accumulation_steps</code>). Аккумулирование градиента используется, когда один батч не помещается в память, и инкрементально накапливает градиент за несколько проходов вперед/назад. Мы увидим это в действии, когда создадим цикл обучения с использованием 🤗 Accelerate.",n,c,_,f,g="Теперь мы можем просто запустить <code>Trainer</code> и дождаться окончания обучения. В зависимости от того, запустите ли вы его на полном или на подмножестве обучающего набора, это займет 20 или 2 часа соответственно, так что захватите несколько чашек кофе и хорошую книгу для чтения!",Z,k,i,b,$="После завершения обучения мы можем отправить модель и токенизатор в Hub:",x,E,B;return c=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMFRyYWluZXIlMkMlMjBUcmFpbmluZ0FyZ3VtZW50cyUwQSUwQWFyZ3MlMjAlM0QlMjBUcmFpbmluZ0FyZ3VtZW50cyglMEElMjAlMjAlMjAlMjBvdXRwdXRfZGlyJTNEJTIyY29kZXBhcnJvdC1kcyUyMiUyQyUwQSUyMCUyMCUyMCUyMHBlcl9kZXZpY2VfdHJhaW5fYmF0Y2hfc2l6ZSUzRDMyJTJDJTBBJTIwJTIwJTIwJTIwcGVyX2RldmljZV9ldmFsX2JhdGNoX3NpemUlM0QzMiUyQyUwQSUyMCUyMCUyMCUyMGV2YWx1YXRpb25fc3RyYXRlZ3klM0QlMjJzdGVwcyUyMiUyQyUwQSUyMCUyMCUyMCUyMGV2YWxfc3RlcHMlM0Q1XzAwMCUyQyUwQSUyMCUyMCUyMCUyMGxvZ2dpbmdfc3RlcHMlM0Q1XzAwMCUyQyUwQSUyMCUyMCUyMCUyMGdyYWRpZW50X2FjY3VtdWxhdGlvbl9zdGVwcyUzRDglMkMlMEElMjAlMjAlMjAlMjBudW1fdHJhaW5fZXBvY2hzJTNEMSUyQyUwQSUyMCUyMCUyMCUyMHdlaWdodF9kZWNheSUzRDAuMSUyQyUwQSUyMCUyMCUyMCUyMHdhcm11cF9zdGVwcyUzRDFfMDAwJTJDJTBBJTIwJTIwJTIwJTIwbHJfc2NoZWR1bGVyX3R5cGUlM0QlMjJjb3NpbmUlMjIlMkMlMEElMjAlMjAlMjAlMjBsZWFybmluZ19yYXRlJTNENWUtNCUyQyUwQSUyMCUyMCUyMCUyMHNhdmVfc3RlcHMlM0Q1XzAwMCUyQyUwQSUyMCUyMCUyMCUyMGZwMTYlM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwcHVzaF90b19odWIlM0RUcnVlJTJDJTBBKSUwQSUwQXRyYWluZXIlMjAlM0QlMjBUcmFpbmVyKCUwQSUyMCUyMCUyMCUyMG1vZGVsJTNEbW9kZWwlMkMlMEElMjAlMjAlMjAlMjB0b2tlbml6ZXIlM0R0b2tlbml6ZXIlMkMlMEElMjAlMjAlMjAlMjBhcmdzJTNEYXJncyUyQyUwQSUyMCUyMCUyMCUyMGRhdGFfY29sbGF0b3IlM0RkYXRhX2NvbGxhdG9yJTJDJTBBJTIwJTIwJTIwJTIwdHJhaW5fZGF0YXNldCUzRHRva2VuaXplZF9kYXRhc2V0cyU1QiUyMnRyYWluJTIyJTVEJTJDJTBBJTIwJTIwJTIwJTIwZXZhbF9kYXRhc2V0JTNEdG9rZW5pemVkX2RhdGFzZXRzJTVCJTIydmFsaWQlMjIlNUQlMkMlMEEp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> Trainer, TrainingArguments
args = TrainingArguments(
output_dir=<span class="hljs-string">&quot;codeparrot-ds&quot;</span>,
per_device_train_batch_size=<span class="hljs-number">32</span>,
per_device_eval_batch_size=<span class="hljs-number">32</span>,
evaluation_strategy=<span class="hljs-string">&quot;steps&quot;</span>,
eval_steps=<span class="hljs-number">5_000</span>,
logging_steps=<span class="hljs-number">5_000</span>,
gradient_accumulation_steps=<span class="hljs-number">8</span>,
num_train_epochs=<span class="hljs-number">1</span>,
weight_decay=<span class="hljs-number">0.1</span>,
warmup_steps=<span class="hljs-number">1_000</span>,
lr_scheduler_type=<span class="hljs-string">&quot;cosine&quot;</span>,
learning_rate=<span class="hljs-number">5e-4</span>,
save_steps=<span class="hljs-number">5_000</span>,
fp16=<span class="hljs-literal">True</span>,
push_to_hub=<span class="hljs-literal">True</span>,
)
trainer = Trainer(
model=model,
tokenizer=tokenizer,
args=args,
data_collator=data_collator,
train_dataset=tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>],
eval_dataset=tokenized_datasets[<span class="hljs-string">&quot;valid&quot;</span>],
)`,wrap:!1}}),k=new C({props:{code:"dHJhaW5lci50cmFpbigp",highlighted:"trainer.train()",wrap:!1}}),E=new C({props:{code:"dHJhaW5lci5wdXNoX3RvX2h1Yigp",highlighted:"trainer.push_to_hub()",wrap:!1}}),{c(){t=d("p"),t.innerHTML=r,n=M(),T(c.$$.fragment),_=M(),f=d("p"),f.innerHTML=g,Z=M(),T(k.$$.fragment),i=M(),b=d("p"),b.textContent=$,x=M(),T(E.$$.fragment)},l(Q){t=j(Q,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1nf3s2k"&&(t.innerHTML=r),n=J(Q),m(c.$$.fragment,Q),_=J(Q),f=j(Q,"P",{"data-svelte-h":!0}),I(f)!=="svelte-1a0cqk1"&&(f.innerHTML=g),Z=J(Q),m(k.$$.fragment,Q),i=J(Q),b=j(Q,"P",{"data-svelte-h":!0}),I(b)!=="svelte-bhzk8w"&&(b.textContent=$),x=J(Q),m(E.$$.fragment,Q)},m(Q,G){a(Q,t,G),a(Q,n,G),o(c,Q,G),a(Q,_,G),a(Q,f,G),a(Q,Z,G),o(k,Q,G),a(Q,i,G),a(Q,b,G),a(Q,x,G),o(E,Q,G),B=!0},i(Q){B||(U(c.$$.fragment,Q),U(k.$$.fragment,Q),U(E.$$.fragment,Q),B=!0)},o(Q){y(c.$$.fragment,Q),y(k.$$.fragment,Q),y(E.$$.fragment,Q),B=!1},d(Q){Q&&(e(t),e(n),e(_),e(f),e(Z),e(i),e(b),e(x)),u(c,Q),u(k,Q),u(E,Q)}}}function _a(h){let t,r="✏️ <strong>Попробуйте!</strong> Всего около 30 строк кода в дополнение к <code>TrainingArguments</code> понадобилось нам, чтобы перейти от сырых текстов к обучению GPT-2. Попробуйте это на своем датасете и посмотрите, сможете ли вы получить хорошие результаты!";return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1dw9rou"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},p:ae,d(n){n&&e(t)}}}function Qa(h){let t,r='💡 Если у вас есть доступ к компьютеру с несколькими GPU, вы можете попробовать использовать контекст <code>MirroredStrategy</code> для существенного ускорения обучения. Вам нужно будет создать объект <code>tf.distribute.MirroredStrategy</code> и убедиться, что все методы <code>to_tf_dataset()</code> или <code>prepare_tf_dataset()</code>, а также создание модели и вызов <code>fit()</code> выполняются в его контексте <code>scope()</code>. Документацию на эту тему можно посмотреть <a href="https://www.tensorflow.org/guide/distributed_training#use_tfdistributestrategy_with_keras_modelfit" rel="nofollow">здесь</a>.';return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1kqm4nz"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},d(n){n&&e(t)}}}function ka(h){let t,r="💡 Если у вас есть доступ к компьютеру с несколькими GPU, попробуйте запустить код на нем. <code>Trainer</code> автоматически управляет несколькими компьютерами, и это может значительно ускорить обучение.";return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1q5fhtd"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},d(n){n&&e(t)}}}function Za(h){let t;function r(_,f){return _[0]==="pt"?ka:Qa}let n=r(h),c=n(h);return{c(){c.c(),t=la()},l(_){c.l(_),t=la()},m(_,f){c.m(_,f),a(_,t,f)},p(_,f){n!==(n=r(_))&&(c.d(1),c=n(_),c&&(c.c(),c.m(t.parentNode,t)))},d(_){_&&e(t),c.d(_)}}}function ga(h){let t,r;return t=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMHBpcGVsaW5lJTBBJTBBY291cnNlX21vZGVsJTIwJTNEJTIwVEZHUFQyTE1IZWFkTW9kZWwuZnJvbV9wcmV0cmFpbmVkKCUyMmh1Z2dpbmdmYWNlLWNvdXJzZSUyRmNvZGVwYXJyb3QtZHMlMjIpJTBBY291cnNlX3Rva2VuaXplciUyMCUzRCUyMEF1dG9Ub2tlbml6ZXIuZnJvbV9wcmV0cmFpbmVkKCUyMmh1Z2dpbmdmYWNlLWNvdXJzZSUyRmNvZGVwYXJyb3QtZHMlMjIpJTBBcGlwZSUyMCUzRCUyMHBpcGVsaW5lKCUwQSUyMCUyMCUyMCUyMCUyMnRleHQtZ2VuZXJhdGlvbiUyMiUyQyUyMG1vZGVsJTNEY291cnNlX21vZGVsJTJDJTIwdG9rZW5pemVyJTNEY291cnNlX3Rva2VuaXplciUyQyUyMGRldmljZSUzRDAlMEEp",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> pipeline
course_model = TFGPT2LMHeadModel.from_pretrained(<span class="hljs-string">&quot;huggingface-course/codeparrot-ds&quot;</span>)
course_tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">&quot;huggingface-course/codeparrot-ds&quot;</span>)
pipe = pipeline(
<span class="hljs-string">&quot;text-generation&quot;</span>, model=course_model, tokenizer=course_tokenizer, device=<span class="hljs-number">0</span>
)`,wrap:!1}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function $a(h){let t,r;return t=new C({props:{code:"aW1wb3J0JTIwdG9yY2glMEFmcm9tJTIwdHJhbnNmb3JtZXJzJTIwaW1wb3J0JTIwcGlwZWxpbmUlMEElMEFkZXZpY2UlMjAlM0QlMjB0b3JjaC5kZXZpY2UoJTIyY3VkYSUyMiklMjBpZiUyMHRvcmNoLmN1ZGEuaXNfYXZhaWxhYmxlKCklMjBlbHNlJTIwdG9yY2guZGV2aWNlKCUyMmNwdSUyMiklMEFwaXBlJTIwJTNEJTIwcGlwZWxpbmUoJTBBJTIwJTIwJTIwJTIwJTIydGV4dC1nZW5lcmF0aW9uJTIyJTJDJTIwbW9kZWwlM0QlMjJodWdnaW5nZmFjZS1jb3Vyc2UlMkZjb2RlcGFycm90LWRzJTIyJTJDJTIwZGV2aWNlJTNEZGV2aWNlJTBBKQ==",highlighted:`<span class="hljs-keyword">import</span> torch
<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> pipeline
device = torch.device(<span class="hljs-string">&quot;cuda&quot;</span>) <span class="hljs-keyword">if</span> torch.cuda.is_available() <span class="hljs-keyword">else</span> torch.device(<span class="hljs-string">&quot;cpu&quot;</span>)
pipe = pipeline(
<span class="hljs-string">&quot;text-generation&quot;</span>, model=<span class="hljs-string">&quot;huggingface-course/codeparrot-ds&quot;</span>, device=device
)`,wrap:!1}}),{c(){T(t.$$.fragment)},l(n){m(t.$$.fragment,n)},m(n,c){o(t,n,c),r=!0},i(n){r||(U(t.$$.fragment,n),r=!0)},o(n){y(t.$$.fragment,n),r=!1},d(n){u(t,n)}}}function Ga(h){let t,r="Глядя на эти несколько примеров, кажется, что модель усвоила часть синтаксиса стека Python Data Science (конечно, нам нужно будет оценить это более тщательно, прежде чем разворачивать модель в реальном мире). Однако иногда требуется более тщательная настройка обучения модели, чтобы добиться необходимого качества работы для конкретного случая использования. Например, если мы хотим динамически обновлять размер батча или иметь условный цикл обучения, который пропускает плохие примеры на лету? Одним из вариантов может быть подкласс <code>Trainer</code> и добавление необходимых изменений, но иногда проще написать цикл обучения с нуля. Вот тут-то и приходит на помощь 🤗 Accelerate.";return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-2r59bq"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},d(n){n&&e(t)}}}function Ra(h){let t,r="Глядя на эти несколько примеров, кажется, что модель усвоила часть синтаксиса стека Python Data Science. Конечно, нам нужно будет более тщательно оценить модель, прежде чем внедрять ее в реальный мир, но все же это впечатляющий прототип.";return{c(){t=d("p"),t.textContent=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1nt9web"&&(t.textContent=r)},m(n,c){a(n,t,c)},d(n){n&&e(t)}}}function ea(h){let t,r,n,c="Мы уже видели, как обучать модель с помощью <code>Trainer</code>, который позволяет сделать некоторые настройки. Однако иногда нам нужен полный контроль над циклом обучения, или мы хотим внести некоторые экзотические изменения. В этом случае 🤗 Accelerate - отличный выбор, и в этом разделе мы рассмотрим шаги по его использованию для обучения нашей модели. Чтобы сделать все более интересным, мы также добавим изюминку в цикл обучения.",_,f,g,Z,k="Поскольку нас в основном интересует разумное автодополнение для библиотек data science, имеет смысл придать больший вес обучающим примерам, в которых чаще используются эти библиотеки. Мы можем легко определить эти примеры по использованию таких ключевых слов, как <code>plt</code>, <code>pd</code>, <code>sk</code>, <code>fit</code> и <code>predict</code>, которые являются наиболее частыми именами для импорта <code>matplotlib.pyplot</code>, <code>pandas</code> и <code>sklearn</code>, а также шаблонам fit/predict для последней. Если каждый из них представлен в виде одного токена, мы можем легко проверить, встречаются ли они во входной последовательности. Токены могут иметь пробельный префикс, поэтому мы также проверим наличие таких версий в словаре токенизатора. Чтобы убедиться, что все работает, мы добавим один тестовый токен, который должен быть разбит на несколько токенов:",i,b,$,x,E,B,Q="Отлично, похоже, это прекрасно работает! Теперь мы можем написать пользовательскую функцию потерь, которая принимает входную последовательность, логиты и ключевые токены, которые мы только что выбрали в качестве входных данных. Сначала нам нужно выровнять логиты и входные данные: входная последовательность, сдвинутая на единицу вправо, формирует метки, поскольку следующий токен является меткой для текущего токена. Мы можем добиться этого, начиная метки со второго токена входной последовательности, поскольку модель все равно не делает предсказания для первого токена. Затем мы отсекаем последний логит, поскольку у нас нет метки для токена, который следует за всей входной последовательностью. Таким образом, мы можем вычислить потери для каждого примера и подсчитать количество вхождений всех ключевых слов в каждом примере. Наконец, мы вычисляем средневзвешенное значение по всем примерам, используя вхождения в качестве весов. Поскольку мы не хотим отбрасывать все выборки, в которых нет ключевых слов, мы добавляем 1 к весам:",G,N,Vl,A,ie="Прежде чем приступить к обучению с этой потрясающей новой функцией потерь, нам нужно подготовить несколько вещей:",El,R,Te="<li>Нам нужны загрузчики данных, чтобы загружать данные батчами.</li> <li>Нам нужно настроить параметры затухания веса (weight decay).</li> <li>Время от времени мы хотим проводить оценку, поэтому имеет смысл обернуть код оценки в функцию.</li>",Wl,v,me="Давайте начнем с загрузчиков данных. Нам нужно только задать для датасета формат <code>&quot;torch&quot;</code>, а затем мы можем передать его в PyTorch <code>DataLoader</code> с соответствующим размером батча:",zl,F,xl,Y,oe="Далее мы группируем параметры, чтобы оптимизатор знал, какие из них получат дополнительное затухание веса. Обычно все смещения (bias) и весовые коэффициенты LayerNorm (LayerNorm weights) исключаются из этого правила; вот как мы можем это реализовать:",Nl,H,cs,Ml,Zl="Поскольку мы хотим регулярно оценивать модель на валидационном множестве во время обучения, давайте напишем функцию и для этого. Она просто запускается через загрузчик оценочных данных и собирает все потери:",Al,S,ws,Jl,gl='С помощью функции <code>evaluate()</code> мы можем сообщать о потерях и <a href="../chapter7/3">перплексии</a> через регулярные промежутки времени. Далее мы переопределим нашу модель, чтобы убедиться, что мы снова обучаемся с нуля:',vl,D,Fl,q,ue="Затем мы можем определить наш оптимизатор, используя предыдущую функцию для части параметров для затухания веса:",Yl,L,Hl,K,de="Теперь давайте подготовим модель, оптимизатор и загрузчики данных, чтобы начать обучение:",Sl,P,Dl,O,ql,ll,je="Теперь, когда мы отправили наш <code>train_dataloader</code> в <code>accelerator.prepare()</code>, мы можем использовать его длину для вычисления количества шагов обучения. Помните, что это всегда нужно делать после подготовки загрузчика данных, так как этот метод изменит его длину. Мы используем классический линейный график скорости обучения до 0:",Ll,sl,is,rl,$l="Наконец, чтобы отправить нашу модель в Hub, нам нужно создать объект <code>Repository</code> в рабочей папке. Сначала войдите в Hub Hugging Face, если вы еще не вошли в него. Мы определим имя розитория по идентификатору модели, который мы хотим присвоить нашей модели (не стесняйтесь заменить <code>repo_name</code> на свой собственный вариант; он просто должен содержать ваше имя пользователя, что и делает функция <code>get_full_repo_name()</code>):",Kl,el,Pl,W,Ol,tl,Ie="Затем мы можем клонировать этот розиторий в локальную папку. Если она уже существует, эта локальная папка должна быть существующим клоном розитория, с которым мы работаем:",ls,al,ss,nl,Ts="Теперь мы можем загрузить все, что сохранили в <code>output_dir</code>, вызвав метод <code>repo.push_to_hub()</code>. Это поможет нам загружать промежуточные модели в конце каждой эпохи.",Ul,Gl,ms="Перед обучением давайте проведем быстрый тест, чтобы проверить, правильно ли работает функция оценки:",yl,cl,wl,il,Tl,Rl,os="Это очень высокие значения для потерь и перплексии, но это неудивительно, ведь мы еще не обучили модель. Итак, у нас все готово для написания основной части скрипта обучения: цикла обучения. В цикле обучения мы выполняем итерации по загрузчику данных и передаем батчи в модель. С помощью логитов мы можем оценить нашу пользовательскую функцию потерь. Мы масштабируем потери по количеству шагов накопления градиента, чтобы не создавать больших потерь при агрегировании большего количества шагов. Перед оптимизацией мы также обрезаем градиенты для лучшей сходимости. Наконец, каждые несколько шагов мы оцениваем модель на оценочном наборе с помощью нашей новой функции <code>evaluate()</code>:",ml,Bl,es,z,fe="Вот и все — теперь у вас есть свой собственный цикл обучения для каузальных языковых моделей, таких как GPT-2, который вы можете дополнительно настроить под свои нужды.",ts,pl,us,ol,ul;return t=new we({props:{title:"Обучение с 🤗 Accelerate",local:"training-with-accelerate",headingTag:"h2"}}),f=new ot({props:{id:"Hm8_PgVTFuc"}}),b=new C({props:{code:"a2V5dG9rZW5faWRzJTIwJTNEJTIwJTVCJTVEJTBBZm9yJTIwa2V5d29yZCUyMGluJTIwJTVCJTBBJTIwJTIwJTIwJTIwJTIycGx0JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIycGQlMjIlMkMlMEElMjAlMjAlMjAlMjAlMjJzayUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMmZpdCUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMnByZWRpY3QlMjIlMkMlMEElMjAlMjAlMjAlMjAlMjIlMjBwbHQlMjIlMkMlMEElMjAlMjAlMjAlMjAlMjIlMjBwZCUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMiUyMHNrJTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIyJTIwZml0JTIyJTJDJTBBJTIwJTIwJTIwJTIwJTIyJTIwcHJlZGljdCUyMiUyQyUwQSUyMCUyMCUyMCUyMCUyMnRlc3R0ZXN0JTIyJTJDJTBBJTVEJTNBJTBBJTIwJTIwJTIwJTIwaWRzJTIwJTNEJTIwdG9rZW5pemVyKCU1QmtleXdvcmQlNUQpLmlucHV0X2lkcyU1QjAlNUQlMEElMjAlMjAlMjAlMjBpZiUyMGxlbihpZHMpJTIwJTNEJTNEJTIwMSUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGtleXRva2VuX2lkcy5hcHBlbmQoaWRzJTVCMCU1RCklMEElMjAlMjAlMjAlMjBlbHNlJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwcHJpbnQoZiUyMktleXdvcmQlMjBoYXMlMjBub3QlMjBzaW5nbGUlMjB0b2tlbiUzQSUyMCU3QmtleXdvcmQlN0QlMjIp",highlighted:`keytoken_ids = []
<span class="hljs-keyword">for</span> keyword <span class="hljs-keyword">in</span> [
<span class="hljs-string">&quot;plt&quot;</span>,
<span class="hljs-string">&quot;pd&quot;</span>,
<span class="hljs-string">&quot;sk&quot;</span>,
<span class="hljs-string">&quot;fit&quot;</span>,
<span class="hljs-string">&quot;predict&quot;</span>,
<span class="hljs-string">&quot; plt&quot;</span>,
<span class="hljs-string">&quot; pd&quot;</span>,
<span class="hljs-string">&quot; sk&quot;</span>,
<span class="hljs-string">&quot; fit&quot;</span>,
<span class="hljs-string">&quot; predict&quot;</span>,
<span class="hljs-string">&quot;testtest&quot;</span>,
]:
ids = tokenizer([keyword]).input_ids[<span class="hljs-number">0</span>]
<span class="hljs-keyword">if</span> <span class="hljs-built_in">len</span>(ids) == <span class="hljs-number">1</span>:
keytoken_ids.append(ids[<span class="hljs-number">0</span>])
<span class="hljs-keyword">else</span>:
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;Keyword has not single token: <span class="hljs-subst">{keyword}</span>&quot;</span>)`,wrap:!1}}),x=new C({props:{code:"J0tleXdvcmQlMjBoYXMlMjBub3QlMjBzaW5nbGUlMjB0b2tlbiUzQSUyMHRlc3R0ZXN0Jw==",highlighted:'<span class="hljs-string">&#x27;Keyword has not single token: testtest&#x27;</span>',wrap:!1}}),N=new C({props:{code:"ZnJvbSUyMHRvcmNoLm5uJTIwaW1wb3J0JTIwQ3Jvc3NFbnRyb3B5TG9zcyUwQWltcG9ydCUyMHRvcmNoJTBBJTBBJTBBZGVmJTIwa2V5dG9rZW5fd2VpZ2h0ZWRfbG9zcyhpbnB1dHMlMkMlMjBsb2dpdHMlMkMlMjBrZXl0b2tlbl9pZHMlMkMlMjBhbHBoYSUzRDEuMCklM0ElMEElMjAlMjAlMjAlMjAlMjMlMjAlRDAlQTElRDAlQjQlRDAlQjIlRDAlQjglRDAlQjMlRDAlQjAlRDAlQjUlRDAlQkMlMjAlRDElODIlRDAlQjAlRDAlQkElMkMlMjAlRDElODclRDElODIlRDAlQkUlRDAlQjElRDElOEIlMjAlRDElODIlRDAlQkUlRDAlQkElRDAlQjUlRDAlQkQlRDElOEIlMjAlM0MlMjBuJTIwJUQwJUJGJUQxJTgwJUQwJUI1JUQwJUI0JUQxJTgxJUQwJUJBJUQwJUIwJUQwJUI3JUQxJThCJUQwJUIyJUQwJUIwJUQwJUJCJUQwJUI4JTIwbiUwQSUyMCUyMCUyMCUyMHNoaWZ0X2xhYmVscyUyMCUzRCUyMGlucHV0cyU1Qi4uLiUyQyUyMDElM0ElNUQuY29udGlndW91cygpJTBBJTIwJTIwJTIwJTIwc2hpZnRfbG9naXRzJTIwJTNEJTIwbG9naXRzJTVCLi4uJTJDJTIwJTNBLTElMkMlMjAlM0ElNUQuY29udGlndW91cygpJTBBJTIwJTIwJTIwJTIwJTIzJTIwJUQwJTkyJUQxJThCJUQxJTg3JUQwJUI4JUQxJTgxJUQwJUJCJUQxJThGJUQwJUI1JUQwJUJDJTIwJUQwJUJGJUQwJUJFJUQxJTgyJUQwJUI1JUQxJTgwJUQwJUI4JTIwJUQwJUJEJUQwJUIwJTIwJUQwJUJBJUQwJUIwJUQwJUI2JUQwJUI0JUQxJThCJUQwJUI5JTIwJUQxJTgyJUQwJUJFJUQwJUJBJUQwJUI1JUQwJUJEJTBBJTIwJTIwJTIwJTIwbG9zc19mY3QlMjAlM0QlMjBDcm9zc0VudHJvcHlMb3NzKHJlZHVjZSUzREZhbHNlKSUwQSUyMCUyMCUyMCUyMGxvc3MlMjAlM0QlMjBsb3NzX2ZjdChzaGlmdF9sb2dpdHMudmlldygtMSUyQyUyMHNoaWZ0X2xvZ2l0cy5zaXplKC0xKSklMkMlMjBzaGlmdF9sYWJlbHMudmlldygtMSkpJTBBJTIwJTIwJTIwJTIwJTIzJTIwJUQwJTk4JUQwJUI3JUQwJUJDJUQwJUI1JUQwJUJEJUQwJUI1JUQwJUJEJUQwJUI4JUQwJUI1JTIwJUQxJTgwJUQwJUIwJUQwJUI3JUQwJUJDJUQwJUI1JUQxJTgwJUQwJUIwJTIwJUQwJUI4JTIwJUQxJTgxJUQxJTgwJUQwJUI1JUQwJUI0JUQwJUJEJUQwJUI4JUQwJUI1JTIwJUQwJUJGJUQwJUJFJUQxJTgyJUQwJUI1JUQxJTgwJUQwJUI4JTIwJUQwJUJEJUQwJUIwJTIwJUQwJUJBJUQwJUIwJUQwJUI2JUQwJUI0JUQxJThCJUQwJUI5JTIwJUQwJUJGJUQxJTgwJUQwJUI4JUQwJUJDJUQwJUI1JUQxJTgwJTBBJTIwJTIwJTIwJTIwbG9zc19wZXJfc2FtcGxlJTIwJTNEJTIwbG9zcy52aWV3KHNoaWZ0X2xvZ2l0cy5zaXplKDApJTJDJTIwc2hpZnRfbG9naXRzLnNpemUoMSkpLm1lYW4oYXhpcyUzRDEpJTBBJTIwJTIwJTIwJTIwJTIzJTIwJUQwJUEwJUQwJUIwJUQxJTgxJUQxJTg3JUQwJUI1JUQxJTgyJTIwJUQwJUI4JTIwJUQwJUJDJUQwJUIwJUQxJTgxJUQxJTg4JUQxJTgyJUQwJUIwJUQwJUIxJUQwJUI4JUQxJTgwJUQwJUJFJUQwJUIyJUQwJUIwJUQwJUJEJUQwJUI4JUQwJUI1JTIwJUQwJUIyJUQwJUI1JUQxJTgxJUQwJUJFJUQwJUIyJTBBJTIwJTIwJTIwJTIwd2VpZ2h0cyUyMCUzRCUyMHRvcmNoLnN0YWNrKCU1QihpbnB1dHMlMjAlM0QlM0QlMjBrdCkuZmxvYXQoKSUyMGZvciUyMGt0JTIwaW4lMjBrZXl0b2tlbl9pZHMlNUQpLnN1bSglMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBheGlzJTNEJTVCMCUyQyUyMDIlNUQlMEElMjAlMjAlMjAlMjApJTBBJTIwJTIwJTIwJTIwd2VpZ2h0cyUyMCUzRCUyMGFscGhhJTIwKiUyMCgxLjAlMjAlMkIlMjB3ZWlnaHRzKSUwQSUyMCUyMCUyMCUyMCUyMyUyMCVEMCVBMCVEMCVCMCVEMSU4MSVEMSU4NyVEMCVCNSVEMSU4MiUyMCVEMCVCMiVEMCVCNyVEMCVCMiVEMCVCNSVEMSU4OCVEMCVCNSVEMCVCRCVEMCVCRCVEMCVCRSVEMCVCMyVEMCVCRSUyMCVEMSU4MSVEMSU4MCVEMCVCNSVEMCVCNCVEMCVCRCVEMCVCNSVEMCVCMyVEMCVCRSUwQSUyMCUyMCUyMCUyMHdlaWdodGVkX2xvc3MlMjAlM0QlMjAobG9zc19wZXJfc2FtcGxlJTIwKiUyMHdlaWdodHMpLm1lYW4oKSUwQSUyMCUyMCUyMCUyMHJldHVybiUyMHdlaWdodGVkX2xvc3M=",highlighted:`<span class="hljs-keyword">from</span> torch.nn <span class="hljs-keyword">import</span> CrossEntropyLoss
<span class="hljs-keyword">import</span> torch
<span class="hljs-keyword">def</span> <span class="hljs-title function_">keytoken_weighted_loss</span>(<span class="hljs-params">inputs, logits, keytoken_ids, alpha=<span class="hljs-number">1.0</span></span>):
<span class="hljs-comment"># Сдвигаем так, чтобы токены &lt; n предсказывали n</span>
shift_labels = inputs[..., <span class="hljs-number">1</span>:].contiguous()
shift_logits = logits[..., :-<span class="hljs-number">1</span>, :].contiguous()
<span class="hljs-comment"># Вычисляем потери на каждый токен</span>
loss_fct = CrossEntropyLoss(reduce=<span class="hljs-literal">False</span>)
loss = loss_fct(shift_logits.view(-<span class="hljs-number">1</span>, shift_logits.size(-<span class="hljs-number">1</span>)), shift_labels.view(-<span class="hljs-number">1</span>))
<span class="hljs-comment"># Изменение размера и средние потери на каждый пример</span>
loss_per_sample = loss.view(shift_logits.size(<span class="hljs-number">0</span>), shift_logits.size(<span class="hljs-number">1</span>)).mean(axis=<span class="hljs-number">1</span>)
<span class="hljs-comment"># Расчет и масштабирование весов</span>
weights = torch.stack([(inputs == kt).<span class="hljs-built_in">float</span>() <span class="hljs-keyword">for</span> kt <span class="hljs-keyword">in</span> keytoken_ids]).<span class="hljs-built_in">sum</span>(
axis=[<span class="hljs-number">0</span>, <span class="hljs-number">2</span>]
)
weights = alpha * (<span class="hljs-number">1.0</span> + weights)
<span class="hljs-comment"># Расчет взвешенного среднего</span>
weighted_loss = (loss_per_sample * weights).mean()
<span class="hljs-keyword">return</span> weighted_loss`,wrap:!1}}),F=new C({props:{code:"ZnJvbSUyMHRvcmNoLnV0aWxzLmRhdGEuZGF0YWxvYWRlciUyMGltcG9ydCUyMERhdGFMb2FkZXIlMEElMEF0b2tlbml6ZWRfZGF0YXNldC5zZXRfZm9ybWF0KCUyMnRvcmNoJTIyKSUwQXRyYWluX2RhdGFsb2FkZXIlMjAlM0QlMjBEYXRhTG9hZGVyKHRva2VuaXplZF9kYXRhc2V0JTVCJTIydHJhaW4lMjIlNUQlMkMlMjBiYXRjaF9zaXplJTNEMzIlMkMlMjBzaHVmZmxlJTNEVHJ1ZSklMEFldmFsX2RhdGFsb2FkZXIlMjAlM0QlMjBEYXRhTG9hZGVyKHRva2VuaXplZF9kYXRhc2V0JTVCJTIydmFsaWQlMjIlNUQlMkMlMjBiYXRjaF9zaXplJTNEMzIp",highlighted:`<span class="hljs-keyword">from</span> torch.utils.data.dataloader <span class="hljs-keyword">import</span> DataLoader
tokenized_dataset.set_format(<span class="hljs-string">&quot;torch&quot;</span>)
train_dataloader = DataLoader(tokenized_dataset[<span class="hljs-string">&quot;train&quot;</span>], batch_size=<span class="hljs-number">32</span>, shuffle=<span class="hljs-literal">True</span>)
eval_dataloader = DataLoader(tokenized_dataset[<span class="hljs-string">&quot;valid&quot;</span>], batch_size=<span class="hljs-number">32</span>)`,wrap:!1}}),H=new C({props:{code:"d2VpZ2h0X2RlY2F5JTIwJTNEJTIwMC4xJTBBJTBBJTBBZGVmJTIwZ2V0X2dyb3VwZWRfcGFyYW1zKG1vZGVsJTJDJTIwbm9fZGVjYXklM0QlNUIlMjJiaWFzJTIyJTJDJTIwJTIyTGF5ZXJOb3JtLndlaWdodCUyMiU1RCklM0ElMEElMjAlMjAlMjAlMjBwYXJhbXNfd2l0aF93ZCUyQyUyMHBhcmFtc193aXRob3V0X3dkJTIwJTNEJTIwJTVCJTVEJTJDJTIwJTVCJTVEJTBBJTIwJTIwJTIwJTIwZm9yJTIwbiUyQyUyMHAlMjBpbiUyMG1vZGVsLm5hbWVkX3BhcmFtZXRlcnMoKSUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGlmJTIwYW55KG5kJTIwaW4lMjBuJTIwZm9yJTIwbmQlMjBpbiUyMG5vX2RlY2F5KSUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHBhcmFtc193aXRob3V0X3dkLmFwcGVuZChwKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGVsc2UlM0ElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBwYXJhbXNfd2l0aF93ZC5hcHBlbmQocCklMEElMjAlMjAlMjAlMjByZXR1cm4lMjAlNUIlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlN0IlMjJwYXJhbXMlMjIlM0ElMjBwYXJhbXNfd2l0aF93ZCUyQyUyMCUyMndlaWdodF9kZWNheSUyMiUzQSUyMHdlaWdodF9kZWNheSU3RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCU3QiUyMnBhcmFtcyUyMiUzQSUyMHBhcmFtc193aXRob3V0X3dkJTJDJTIwJTIyd2VpZ2h0X2RlY2F5JTIyJTNBJTIwMC4wJTdEJTJDJTBBJTIwJTIwJTIwJTIwJTVE",highlighted:`weight_decay = <span class="hljs-number">0.1</span>
<span class="hljs-keyword">def</span> <span class="hljs-title function_">get_grouped_params</span>(<span class="hljs-params">model, no_decay=[<span class="hljs-string">&quot;bias&quot;</span>, <span class="hljs-string">&quot;LayerNorm.weight&quot;</span>]</span>):
params_with_wd, params_without_wd = [], []
<span class="hljs-keyword">for</span> n, p <span class="hljs-keyword">in</span> model.named_parameters():
<span class="hljs-keyword">if</span> <span class="hljs-built_in">any</span>(nd <span class="hljs-keyword">in</span> n <span class="hljs-keyword">for</span> nd <span class="hljs-keyword">in</span> no_decay):
params_without_wd.append(p)
<span class="hljs-keyword">else</span>:
params_with_wd.append(p)
<span class="hljs-keyword">return</span> [
{<span class="hljs-string">&quot;params&quot;</span>: params_with_wd, <span class="hljs-string">&quot;weight_decay&quot;</span>: weight_decay},
{<span class="hljs-string">&quot;params&quot;</span>: params_without_wd, <span class="hljs-string">&quot;weight_decay&quot;</span>: <span class="hljs-number">0.0</span>},
]`,wrap:!1}}),S=new C({props:{code:"ZGVmJTIwZXZhbHVhdGUoKSUzQSUwQSUyMCUyMCUyMCUyMG1vZGVsLmV2YWwoKSUwQSUyMCUyMCUyMCUyMGxvc3NlcyUyMCUzRCUyMCU1QiU1RCUwQSUyMCUyMCUyMCUyMGZvciUyMHN0ZXAlMkMlMjBiYXRjaCUyMGluJTIwZW51bWVyYXRlKGV2YWxfZGF0YWxvYWRlciklM0ElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjB3aXRoJTIwdG9yY2gubm9fZ3JhZCgpJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwb3V0cHV0cyUyMCUzRCUyMG1vZGVsKGJhdGNoJTVCJTIyaW5wdXRfaWRzJTIyJTVEJTJDJTIwbGFiZWxzJTNEYmF0Y2glNUIlMjJpbnB1dF9pZHMlMjIlNUQpJTBBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbG9zc2VzLmFwcGVuZChhY2NlbGVyYXRvci5nYXRoZXIob3V0cHV0cy5sb3NzKSklMEElMjAlMjAlMjAlMjBsb3NzJTIwJTNEJTIwdG9yY2gubWVhbih0b3JjaC5jYXQobG9zc2VzKSklMEElMjAlMjAlMjAlMjB0cnklM0ElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBwZXJwbGV4aXR5JTIwJTNEJTIwdG9yY2guZXhwKGxvc3MpJTBBJTIwJTIwJTIwJTIwZXhjZXB0JTIwT3ZlcmZsb3dFcnJvciUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHBlcnBsZXhpdHklMjAlM0QlMjBmbG9hdCglMjJpbmYlMjIpJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwbG9zcy5pdGVtKCklMkMlMjBwZXJwbGV4aXR5Lml0ZW0oKQ==",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">evaluate</span>():
model.<span class="hljs-built_in">eval</span>()
losses = []
<span class="hljs-keyword">for</span> step, batch <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(eval_dataloader):
<span class="hljs-keyword">with</span> torch.no_grad():
outputs = model(batch[<span class="hljs-string">&quot;input_ids&quot;</span>], labels=batch[<span class="hljs-string">&quot;input_ids&quot;</span>])
losses.append(accelerator.gather(outputs.loss))
loss = torch.mean(torch.cat(losses))
<span class="hljs-keyword">try</span>:
perplexity = torch.exp(loss)
<span class="hljs-keyword">except</span> OverflowError:
perplexity = <span class="hljs-built_in">float</span>(<span class="hljs-string">&quot;inf&quot;</span>)
<span class="hljs-keyword">return</span> loss.item(), perplexity.item()`,wrap:!1}}),D=new C({props:{code:"bW9kZWwlMjAlM0QlMjBHUFQyTE1IZWFkTW9kZWwoY29uZmlnKQ==",highlighted:"model = GPT2LMHeadModel(config)",wrap:!1}}),L=new C({props:{code:"ZnJvbSUyMHRvcmNoLm9wdGltJTIwaW1wb3J0JTIwQWRhbVclMEElMEFvcHRpbWl6ZXIlMjAlM0QlMjBBZGFtVyhnZXRfZ3JvdXBlZF9wYXJhbXMobW9kZWwpJTJDJTIwbHIlM0Q1ZS00KQ==",highlighted:`<span class="hljs-keyword">from</span> torch.optim <span class="hljs-keyword">import</span> AdamW
optimizer = AdamW(get_grouped_params(model), lr=<span class="hljs-number">5e-4</span>)`,wrap:!1}}),P=new C({props:{code:"ZnJvbSUyMGFjY2VsZXJhdGUlMjBpbXBvcnQlMjBBY2NlbGVyYXRvciUwQSUwQWFjY2VsZXJhdG9yJTIwJTNEJTIwQWNjZWxlcmF0b3IoZnAxNiUzRFRydWUpJTBBJTBBbW9kZWwlMkMlMjBvcHRpbWl6ZXIlMkMlMjB0cmFpbl9kYXRhbG9hZGVyJTJDJTIwZXZhbF9kYXRhbG9hZGVyJTIwJTNEJTIwYWNjZWxlcmF0b3IucHJlcGFyZSglMEElMjAlMjAlMjAlMjBtb2RlbCUyQyUyMG9wdGltaXplciUyQyUyMHRyYWluX2RhdGFsb2FkZXIlMkMlMjBldmFsX2RhdGFsb2FkZXIlMEEp",highlighted:`<span class="hljs-keyword">from</span> accelerate <span class="hljs-keyword">import</span> Accelerator
accelerator = Accelerator(fp16=<span class="hljs-literal">True</span>)
model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare(
model, optimizer, train_dataloader, eval_dataloader
)`,wrap:!1}}),O=new ys({props:{$$slots:{default:[Ba]},$$scope:{ctx:h}}}),sl=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMGdldF9zY2hlZHVsZXIlMEElMEFudW1fdHJhaW5fZXBvY2hzJTIwJTNEJTIwMSUwQW51bV91cGRhdGVfc3RlcHNfcGVyX2Vwb2NoJTIwJTNEJTIwbGVuKHRyYWluX2RhdGFsb2FkZXIpJTBBbnVtX3RyYWluaW5nX3N0ZXBzJTIwJTNEJTIwbnVtX3RyYWluX2Vwb2NocyUyMColMjBudW1fdXBkYXRlX3N0ZXBzX3Blcl9lcG9jaCUwQSUwQWxyX3NjaGVkdWxlciUyMCUzRCUyMGdldF9zY2hlZHVsZXIoJTBBJTIwJTIwJTIwJTIwbmFtZSUzRCUyMmxpbmVhciUyMiUyQyUwQSUyMCUyMCUyMCUyMG9wdGltaXplciUzRG9wdGltaXplciUyQyUwQSUyMCUyMCUyMCUyMG51bV93YXJtdXBfc3RlcHMlM0QxXzAwMCUyQyUwQSUyMCUyMCUyMCUyMG51bV90cmFpbmluZ19zdGVwcyUzRG51bV90cmFpbmluZ19zdGVwcyUyQyUwQSk=",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> get_scheduler
num_train_epochs = <span class="hljs-number">1</span>
num_update_steps_per_epoch = <span class="hljs-built_in">len</span>(train_dataloader)
num_training_steps = num_train_epochs * num_update_steps_per_epoch
lr_scheduler = get_scheduler(
name=<span class="hljs-string">&quot;linear&quot;</span>,
optimizer=optimizer,
num_warmup_steps=<span class="hljs-number">1_000</span>,
num_training_steps=num_training_steps,
)`,wrap:!1}}),el=new C({props:{code:"ZnJvbSUyMGh1Z2dpbmdmYWNlX2h1YiUyMGltcG9ydCUyMFJlcG9zaXRvcnklMkMlMjBnZXRfZnVsbF9yZXBvX25hbWUlMEElMEFtb2RlbF9uYW1lJTIwJTNEJTIwJTIyY29kZXBhcnJvdC1kcy1hY2NlbGVyYXRlJTIyJTBBcmVwb19uYW1lJTIwJTNEJTIwZ2V0X2Z1bGxfcmVwb19uYW1lKG1vZGVsX25hbWUpJTBBcmVwb19uYW1l",highlighted:`<span class="hljs-keyword">from</span> huggingface_hub <span class="hljs-keyword">import</span> Repository, get_full_repo_name
model_name = <span class="hljs-string">&quot;codeparrot-ds-accelerate&quot;</span>
repo_name = get_full_repo_name(model_name)
repo_name`,wrap:!1}}),W=new C({props:{code:"J3NndWdnZXIlMkZjb2RlcGFycm90LWRzLWFjY2VsZXJhdGUn",highlighted:'<span class="hljs-string">&#x27;sgugger/codeparrot-ds-accelerate&#x27;</span>',wrap:!1}}),al=new C({props:{code:"b3V0cHV0X2RpciUyMCUzRCUyMCUyMmNvZGVwYXJyb3QtZHMtYWNjZWxlcmF0ZSUyMiUwQXJlcG8lMjAlM0QlMjBSZXBvc2l0b3J5KG91dHB1dF9kaXIlMkMlMjBjbG9uZV9mcm9tJTNEcmVwb19uYW1lKQ==",highlighted:`output_dir = <span class="hljs-string">&quot;codeparrot-ds-accelerate&quot;</span>
repo = Repository(output_dir, clone_from=repo_name)`,wrap:!1}}),cl=new C({props:{code:"ZXZhbHVhdGUoKQ==",highlighted:"evaluate()",wrap:!1}}),il=new C({props:{code:"KDEwLjkzNDEyNjg1Mzk0Mjg3MSUyQyUyMDU2MDU3LjE0NDUzMTI1KQ==",highlighted:'(<span class="hljs-number">10.934126853942871</span>, <span class="hljs-number">56057.14453125</span>)',wrap:!1}}),Bl=new C({props:{code:"ZnJvbSUyMHRxZG0ubm90ZWJvb2slMjBpbXBvcnQlMjB0cWRtJTBBJTBBZ3JhZGllbnRfYWNjdW11bGF0aW9uX3N0ZXBzJTIwJTNEJTIwOCUwQWV2YWxfc3RlcHMlMjAlM0QlMjA1XzAwMCUwQSUwQW1vZGVsLnRyYWluKCklMEFjb21wbGV0ZWRfc3RlcHMlMjAlM0QlMjAwJTBBZm9yJTIwZXBvY2glMjBpbiUyMHJhbmdlKG51bV90cmFpbl9lcG9jaHMpJTNBJTBBJTIwJTIwJTIwJTIwZm9yJTIwc3RlcCUyQyUyMGJhdGNoJTIwaW4lMjB0cWRtKCUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGVudW1lcmF0ZSh0cmFpbl9kYXRhbG9hZGVyJTJDJTIwc3RhcnQlM0QxKSUyQyUyMHRvdGFsJTNEbnVtX3RyYWluaW5nX3N0ZXBzJTBBJTIwJTIwJTIwJTIwKSUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGxvZ2l0cyUyMCUzRCUyMG1vZGVsKGJhdGNoJTVCJTIyaW5wdXRfaWRzJTIyJTVEKS5sb2dpdHMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBsb3NzJTIwJTNEJTIwa2V5dG9rZW5fd2VpZ2h0ZWRfbG9zcyhiYXRjaCU1QiUyMmlucHV0X2lkcyUyMiU1RCUyQyUyMGxvZ2l0cyUyQyUyMGtleXRva2VuX2lkcyklMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBpZiUyMHN0ZXAlMjAlMjUlMjAxMDAlMjAlM0QlM0QlMjAwJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwYWNjZWxlcmF0b3IucHJpbnQoJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdCJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIyc2FtcGxlcyUyMiUzQSUyMHN0ZXAlMjAqJTIwc2FtcGxlc19wZXJfc3RlcCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnN0ZXBzJTIyJTNBJTIwY29tcGxldGVkX3N0ZXBzJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIybG9zcyUyRnRyYWluJTIyJTNBJTIwbG9zcy5pdGVtKCklMjAqJTIwZ3JhZGllbnRfYWNjdW11bGF0aW9uX3N0ZXBzJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTdEJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGxvc3MlMjAlM0QlMjBsb3NzJTIwJTJGJTIwZ3JhZGllbnRfYWNjdW11bGF0aW9uX3N0ZXBzJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwYWNjZWxlcmF0b3IuYmFja3dhcmQobG9zcyklMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBpZiUyMHN0ZXAlMjAlMjUlMjBncmFkaWVudF9hY2N1bXVsYXRpb25fc3RlcHMlMjAlM0QlM0QlMjAwJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwYWNjZWxlcmF0b3IuY2xpcF9ncmFkX25vcm1fKG1vZGVsLnBhcmFtZXRlcnMoKSUyQyUyMDEuMCklMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBvcHRpbWl6ZXIuc3RlcCgpJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbHJfc2NoZWR1bGVyLnN0ZXAoKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG9wdGltaXplci56ZXJvX2dyYWQoKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGNvbXBsZXRlZF9zdGVwcyUyMCUyQiUzRCUyMDElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBpZiUyMChzdGVwJTIwJTI1JTIwKGV2YWxfc3RlcHMlMjAqJTIwZ3JhZGllbnRfYWNjdW11bGF0aW9uX3N0ZXBzKSklMjAlM0QlM0QlMjAwJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwZXZhbF9sb3NzJTJDJTIwcGVycGxleGl0eSUyMCUzRCUyMGV2YWx1YXRlKCklMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBhY2NlbGVyYXRvci5wcmludCglN0IlMjJsb3NzJTJGZXZhbCUyMiUzQSUyMGV2YWxfbG9zcyUyQyUyMCUyMnBlcnBsZXhpdHklMjIlM0ElMjBwZXJwbGV4aXR5JTdEKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG1vZGVsLnRyYWluKCklMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBhY2NlbGVyYXRvci53YWl0X2Zvcl9ldmVyeW9uZSgpJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwdW53cmFwcGVkX21vZGVsJTIwJTNEJTIwYWNjZWxlcmF0b3IudW53cmFwX21vZGVsKG1vZGVsKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHVud3JhcHBlZF9tb2RlbC5zYXZlX3ByZXRyYWluZWQob3V0cHV0X2RpciUyQyUyMHNhdmVfZnVuY3Rpb24lM0RhY2NlbGVyYXRvci5zYXZlKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGlmJTIwYWNjZWxlcmF0b3IuaXNfbWFpbl9wcm9jZXNzJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwdG9rZW5pemVyLnNhdmVfcHJldHJhaW5lZChvdXRwdXRfZGlyKSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHJlcG8ucHVzaF90b19odWIoJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwY29tbWl0X21lc3NhZ2UlM0RmJTIyVHJhaW5pbmclMjBpbiUyMHByb2dyZXNzJTIwc3RlcCUyMCU3QnN0ZXAlN0QlMjIlMkMlMjBibG9ja2luZyUzREZhbHNlJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwKQ==",highlighted:`<span class="hljs-keyword">from</span> tqdm.notebook <span class="hljs-keyword">import</span> tqdm
gradient_accumulation_steps = <span class="hljs-number">8</span>
eval_steps = <span class="hljs-number">5_000</span>
model.train()
completed_steps = <span class="hljs-number">0</span>
<span class="hljs-keyword">for</span> epoch <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(num_train_epochs):
<span class="hljs-keyword">for</span> step, batch <span class="hljs-keyword">in</span> tqdm(
<span class="hljs-built_in">enumerate</span>(train_dataloader, start=<span class="hljs-number">1</span>), total=num_training_steps
):
logits = model(batch[<span class="hljs-string">&quot;input_ids&quot;</span>]).logits
loss = keytoken_weighted_loss(batch[<span class="hljs-string">&quot;input_ids&quot;</span>], logits, keytoken_ids)
<span class="hljs-keyword">if</span> step % <span class="hljs-number">100</span> == <span class="hljs-number">0</span>:
accelerator.<span class="hljs-built_in">print</span>(
{
<span class="hljs-string">&quot;samples&quot;</span>: step * samples_per_step,
<span class="hljs-string">&quot;steps&quot;</span>: completed_steps,
<span class="hljs-string">&quot;loss/train&quot;</span>: loss.item() * gradient_accumulation_steps,
}
)
loss = loss / gradient_accumulation_steps
accelerator.backward(loss)
<span class="hljs-keyword">if</span> step % gradient_accumulation_steps == <span class="hljs-number">0</span>:
accelerator.clip_grad_norm_(model.parameters(), <span class="hljs-number">1.0</span>)
optimizer.step()
lr_scheduler.step()
optimizer.zero_grad()
completed_steps += <span class="hljs-number">1</span>
<span class="hljs-keyword">if</span> (step % (eval_steps * gradient_accumulation_steps)) == <span class="hljs-number">0</span>:
eval_loss, perplexity = evaluate()
accelerator.<span class="hljs-built_in">print</span>({<span class="hljs-string">&quot;loss/eval&quot;</span>: eval_loss, <span class="hljs-string">&quot;perplexity&quot;</span>: perplexity})
model.train()
accelerator.wait_for_everyone()
unwrapped_model = accelerator.unwrap_model(model)
unwrapped_model.save_pretrained(output_dir, save_function=accelerator.save)
<span class="hljs-keyword">if</span> accelerator.is_main_process:
tokenizer.save_pretrained(output_dir)
repo.push_to_hub(
commit_message=<span class="hljs-string">f&quot;Training in progress step <span class="hljs-subst">{step}</span>&quot;</span>, blocking=<span class="hljs-literal">False</span>
)`,wrap:!1}}),pl=new ys({props:{$$slots:{default:[Xa]},$$scope:{ctx:h}}}),ol=new ys({props:{$$slots:{default:[Va]},$$scope:{ctx:h}}}),{c(){T(t.$$.fragment),r=M(),n=d("p"),n.innerHTML=c,_=M(),T(f.$$.fragment),g=M(),Z=d("p"),Z.innerHTML=k,i=M(),T(b.$$.fragment),$=M(),T(x.$$.fragment),E=M(),B=d("p"),B.textContent=Q,G=M(),T(N.$$.fragment),Vl=M(),A=d("p"),A.textContent=ie,El=M(),R=d("ul"),R.innerHTML=Te,Wl=M(),v=d("p"),v.innerHTML=me,zl=M(),T(F.$$.fragment),xl=M(),Y=d("p"),Y.textContent=oe,Nl=M(),T(H.$$.fragment),cs=M(),Ml=d("p"),Ml.textContent=Zl,Al=M(),T(S.$$.fragment),ws=M(),Jl=d("p"),Jl.innerHTML=gl,vl=M(),T(D.$$.fragment),Fl=M(),q=d("p"),q.textContent=ue,Yl=M(),T(L.$$.fragment),Hl=M(),K=d("p"),K.textContent=de,Sl=M(),T(P.$$.fragment),Dl=M(),T(O.$$.fragment),ql=M(),ll=d("p"),ll.innerHTML=je,Ll=M(),T(sl.$$.fragment),is=M(),rl=d("p"),rl.innerHTML=$l,Kl=M(),T(el.$$.fragment),Pl=M(),T(W.$$.fragment),Ol=M(),tl=d("p"),tl.textContent=Ie,ls=M(),T(al.$$.fragment),ss=M(),nl=d("p"),nl.innerHTML=Ts,Ul=M(),Gl=d("p"),Gl.textContent=ms,yl=M(),T(cl.$$.fragment),wl=M(),T(il.$$.fragment),Tl=M(),Rl=d("p"),Rl.innerHTML=os,ml=M(),T(Bl.$$.fragment),es=M(),z=d("p"),z.textContent=fe,ts=M(),T(pl.$$.fragment),us=M(),T(ol.$$.fragment)},l(s){m(t.$$.fragment,s),r=J(s),n=j(s,"P",{"data-svelte-h":!0}),I(n)!=="svelte-1hh02u2"&&(n.innerHTML=c),_=J(s),m(f.$$.fragment,s),g=J(s),Z=j(s,"P",{"data-svelte-h":!0}),I(Z)!=="svelte-j2o5gr"&&(Z.innerHTML=k),i=J(s),m(b.$$.fragment,s),$=J(s),m(x.$$.fragment,s),E=J(s),B=j(s,"P",{"data-svelte-h":!0}),I(B)!=="svelte-y7kcip"&&(B.textContent=Q),G=J(s),m(N.$$.fragment,s),Vl=J(s),A=j(s,"P",{"data-svelte-h":!0}),I(A)!=="svelte-4er7mj"&&(A.textContent=ie),El=J(s),R=j(s,"UL",{"data-svelte-h":!0}),I(R)!=="svelte-m33afo"&&(R.innerHTML=Te),Wl=J(s),v=j(s,"P",{"data-svelte-h":!0}),I(v)!=="svelte-1l6ms9b"&&(v.innerHTML=me),zl=J(s),m(F.$$.fragment,s),xl=J(s),Y=j(s,"P",{"data-svelte-h":!0}),I(Y)!=="svelte-c5rme"&&(Y.textContent=oe),Nl=J(s),m(H.$$.fragment,s),cs=J(s),Ml=j(s,"P",{"data-svelte-h":!0}),I(Ml)!=="svelte-7alvq7"&&(Ml.textContent=Zl),Al=J(s),m(S.$$.fragment,s),ws=J(s),Jl=j(s,"P",{"data-svelte-h":!0}),I(Jl)!=="svelte-1yi78ft"&&(Jl.innerHTML=gl),vl=J(s),m(D.$$.fragment,s),Fl=J(s),q=j(s,"P",{"data-svelte-h":!0}),I(q)!=="svelte-1rggiuk"&&(q.textContent=ue),Yl=J(s),m(L.$$.fragment,s),Hl=J(s),K=j(s,"P",{"data-svelte-h":!0}),I(K)!=="svelte-azvcff"&&(K.textContent=de),Sl=J(s),m(P.$$.fragment,s),Dl=J(s),m(O.$$.fragment,s),ql=J(s),ll=j(s,"P",{"data-svelte-h":!0}),I(ll)!=="svelte-1vyyk38"&&(ll.innerHTML=je),Ll=J(s),m(sl.$$.fragment,s),is=J(s),rl=j(s,"P",{"data-svelte-h":!0}),I(rl)!=="svelte-uv83b7"&&(rl.innerHTML=$l),Kl=J(s),m(el.$$.fragment,s),Pl=J(s),m(W.$$.fragment,s),Ol=J(s),tl=j(s,"P",{"data-svelte-h":!0}),I(tl)!=="svelte-1v5dp30"&&(tl.textContent=Ie),ls=J(s),m(al.$$.fragment,s),ss=J(s),nl=j(s,"P",{"data-svelte-h":!0}),I(nl)!=="svelte-2q65e7"&&(nl.innerHTML=Ts),Ul=J(s),Gl=j(s,"P",{"data-svelte-h":!0}),I(Gl)!=="svelte-1e6bywf"&&(Gl.textContent=ms),yl=J(s),m(cl.$$.fragment,s),wl=J(s),m(il.$$.fragment,s),Tl=J(s),Rl=j(s,"P",{"data-svelte-h":!0}),I(Rl)!=="svelte-p89lie"&&(Rl.innerHTML=os),ml=J(s),m(Bl.$$.fragment,s),es=J(s),z=j(s,"P",{"data-svelte-h":!0}),I(z)!=="svelte-nvpmd6"&&(z.textContent=fe),ts=J(s),m(pl.$$.fragment,s),us=J(s),m(ol.$$.fragment,s)},m(s,w){o(t,s,w),a(s,r,w),a(s,n,w),a(s,_,w),o(f,s,w),a(s,g,w),a(s,Z,w),a(s,i,w),o(b,s,w),a(s,$,w),o(x,s,w),a(s,E,w),a(s,B,w),a(s,G,w),o(N,s,w),a(s,Vl,w),a(s,A,w),a(s,El,w),a(s,R,w),a(s,Wl,w),a(s,v,w),a(s,zl,w),o(F,s,w),a(s,xl,w),a(s,Y,w),a(s,Nl,w),o(H,s,w),a(s,cs,w),a(s,Ml,w),a(s,Al,w),o(S,s,w),a(s,ws,w),a(s,Jl,w),a(s,vl,w),o(D,s,w),a(s,Fl,w),a(s,q,w),a(s,Yl,w),o(L,s,w),a(s,Hl,w),a(s,K,w),a(s,Sl,w),o(P,s,w),a(s,Dl,w),o(O,s,w),a(s,ql,w),a(s,ll,w),a(s,Ll,w),o(sl,s,w),a(s,is,w),a(s,rl,w),a(s,Kl,w),o(el,s,w),a(s,Pl,w),o(W,s,w),a(s,Ol,w),a(s,tl,w),a(s,ls,w),o(al,s,w),a(s,ss,w),a(s,nl,w),a(s,Ul,w),a(s,Gl,w),a(s,yl,w),o(cl,s,w),a(s,wl,w),o(il,s,w),a(s,Tl,w),a(s,Rl,w),a(s,ml,w),o(Bl,s,w),a(s,es,w),a(s,z,w),a(s,ts,w),o(pl,s,w),a(s,us,w),o(ol,s,w),ul=!0},i(s){ul||(U(t.$$.fragment,s),U(f.$$.fragment,s),U(b.$$.fragment,s),U(x.$$.fragment,s),U(N.$$.fragment,s),U(F.$$.fragment,s),U(H.$$.fragment,s),U(S.$$.fragment,s),U(D.$$.fragment,s),U(L.$$.fragment,s),U(P.$$.fragment,s),U(O.$$.fragment,s),U(sl.$$.fragment,s),U(el.$$.fragment,s),U(W.$$.fragment,s),U(al.$$.fragment,s),U(cl.$$.fragment,s),U(il.$$.fragment,s),U(Bl.$$.fragment,s),U(pl.$$.fragment,s),U(ol.$$.fragment,s),ul=!0)},o(s){y(t.$$.fragment,s),y(f.$$.fragment,s),y(b.$$.fragment,s),y(x.$$.fragment,s),y(N.$$.fragment,s),y(F.$$.fragment,s),y(H.$$.fragment,s),y(S.$$.fragment,s),y(D.$$.fragment,s),y(L.$$.fragment,s),y(P.$$.fragment,s),y(O.$$.fragment,s),y(sl.$$.fragment,s),y(el.$$.fragment,s),y(W.$$.fragment,s),y(al.$$.fragment,s),y(cl.$$.fragment,s),y(il.$$.fragment,s),y(Bl.$$.fragment,s),y(pl.$$.fragment,s),y(ol.$$.fragment,s),ul=!1},d(s){s&&(e(r),e(n),e(_),e(g),e(Z),e(i),e($),e(E),e(B),e(G),e(Vl),e(A),e(El),e(R),e(Wl),e(v),e(zl),e(xl),e(Y),e(Nl),e(cs),e(Ml),e(Al),e(ws),e(Jl),e(vl),e(Fl),e(q),e(Yl),e(Hl),e(K),e(Sl),e(Dl),e(ql),e(ll),e(Ll),e(is),e(rl),e(Kl),e(Pl),e(Ol),e(tl),e(ls),e(ss),e(nl),e(Ul),e(Gl),e(yl),e(wl),e(Tl),e(Rl),e(ml),e(es),e(z),e(ts),e(us)),u(t,s),u(f,s),u(b,s),u(x,s),u(N,s),u(F,s),u(H,s),u(S,s),u(D,s),u(L,s),u(P,s),u(O,s),u(sl,s),u(el,s),u(W,s),u(al,s),u(cl,s),u(il,s),u(Bl,s),u(pl,s),u(ol,s)}}}function Ba(h){let t,r='🚨 Если вы проводите обучение на TPU, вам нужно будет перенести весь код, начиная с ячейки выше, в выделенную функцию обучения. Подробнее смотрите <a href="../chapter3/1">Главу 3</a>.';return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1cmpybo"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},p:ae,d(n){n&&e(t)}}}function Xa(h){let t,r="✏️ <strong>Попробуйте!</strong> Либо создайте свою собственную функцию потерь, подходящую для вашего случая, либо добавьте еще один пользовательский шаг в цикл обучения.";return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1veg44b"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},p:ae,d(n){n&&e(t)}}}function Va(h){let t,r="✏️ <strong>Попробуйте!</strong> При проведении длительных экспериментов по обучению полезно регистрировать важные метрики с помощью таких инструментов, как TensorBoard или Weights &amp; Biases. Добавьте соответствующее логирование в цикл обучения, чтобы вы всегда могли проверить, как проходит обучение.";return{c(){t=d("p"),t.innerHTML=r},l(n){t=j(n,"P",{"data-svelte-h":!0}),I(t)!=="svelte-1sk98yf"&&(t.innerHTML=r)},m(n,c){a(n,t,c)},p:ae,d(n){n&&e(t)}}}function Ea(h){let t,r,n,c,_,f,g,Z,k,i,b,$,x='До сих пор мы в основном использовали предварительно обученные модели и осуществляли их дообучение для новых случаев использования, повторно используя веса, полученные в ходе предварительного обучения. Как мы видели в <a href="../chapter1/1">Главе 1</a>, это принято называть <em>трансферным обучением</em>, и это очень успешная стратегия применения моделей Transformer для большинства реальных случаев использования, когда размеченных данных недостаточно. В этой главе мы применим другой подход и обучим совершенно новую модель с нуля. Это хороший подход, если у вас много данных, и они сильно отличаются от данных предварительного обучения, используемых для имеющихся моделей. Однако предварительное обучение языковой модели требует значительно больше вычислительных ресурсов, чем дообучение существующей. Примеры, когда имеет смысл обучать новую модель, включают датасеты, состоящие из музыкальных нот, молекулярных последовательностей, таких как ДНК, или языков программирования. Последние в недавнее время получили широкое распространение благодаря таким инструментам, как TabNine и GitHub’s Copilot, работающим на основе модели Codex от OpenAI, которые могут генерировать длинные последовательности кода. Для решения этой задачи генерации текста лучше всего подходят авторегрессионные или каузальные языковые модели, такие как GPT-2.',E,B,Q="В этом разделе мы построим уменьшенную версию модели генерации кода: мы сосредоточимся на однострочных завершениях вместо полных функций или классов, используя подмножество кода Python. Работая с данными на Python, вы часто сталкиваетесь со стеком Data Science на Python, состоящем из библиотек <code>matplotlib</code>, <code>seaborn</code>, <code>pandas</code> и <code>scikit-learn</code>. При использовании этих фреймворков часто возникает необходимость поиска определенных команд, поэтому было бы неплохо, если бы мы могли использовать модель выполненяющую эти вызововы за нас.",G,N,Vl,A,ie='В <a href="../chapter6/1">Главе 6</a> мы создали эффективный токенизатор для обработки исходного кода Python, но нам все еще нужен крупный датасет для предварительного обучения модели. Здесь мы применим наш токенизатор к корпусу кода Python, полученному из розиториев GitHub. Затем мы воспользуемся API <code>Trainer</code> и 🤗 Accelerate для обучения модели. Приступим!',El,R,Te,Wl,v,me='На самом деле это демонстрация модели, которая была обучена и загружена в Hub с помощью кода, приведенного в этом разделе. Вы можете найти ее <a href="https://huggingface.co/huggingface-course/codeparrot-ds?text=plt.imshow%28" rel="nofollow">здесь</a>. Обратите внимание, что поскольку при генерации текста происходит некоторая рандомизация, вы, вероятно, получите немного другой результат.',zl,F,xl,Y,oe='Код на Python в изобилии доступен в таких репозиториях кода, как GitHub, и мы можем использовать его для создания датасета путем поиска каждого розитория Python. Именно такой подход был использован в книге <a href="https://learning.oreilly.com/library/view/natural-language-processing/9781098136789/" rel="nofollow">Transformers textbook</a> для предварительного обучения большой модели GPT-2. Используя дамп GitHub объемом около 180 ГБ, содержащий примерно 20 миллионов файлов Python под названием <code>codeparrot</code>, авторы создали датасет, которым затем поделились на <a href="https://huggingface.co/datasets/transformersbook/codeparrot" rel="nofollow">Hugging Face Hub</a>.',Nl,H,cs="Однако обучение на полном корпусе требует много времени и вычислений, а нам нужно только подмножество датасетов, связанных со стеком data science на Python. Итак, давайте начнем с фильтрации датасета <code>codeparrot</code> по всем файлам, включающим любую из библиотек из этого стека. Из-за большого размера датасета мы хотим избежать его загрузки; вместо этого мы будем использовать функцию потоковой передачи (streaming), чтобы фильтровать его на лету. Чтобы помочь нам отфильтровать примеры кода с использованием библиотек, о которых мы говорили ранее, мы воспользуемся следующей функцией:",Ml,Zl,Al,S,ws="Давайте протестируем ее на двух примерах:",Jl,gl,vl,D,Fl,q,ue="Мы можем использовать ее для создания функции, которая будет передавать датасет и отфильтровывать нужные нам элементы:",Yl,L,Hl,K,de="Затем мы можем просто применить эту функцию к потоковому датасету:",Sl,P,Dl,O,ql,ll,je="Таким образом, у нас остается около 3% от исходного датасета, что все равно довольно много - результирующий датасет занимает 6 ГБ и состоит из 600 000 Python-скриптов!",Ll,sl,is="Фильтрация полного датасета может занять 2-3 часа в зависимости от вашей машины и пропускной способности сети. Если вы не хотите выполнять этот длительный процесс самостоятельно, мы предоставляем отфильтрованный датасет на Hub для загрузки:",rl,$l,Kl,el,Pl,W,Ol,tl,Ie="Давайте рассмотрим пример из датасета. Мы покажем только первые 200 символов каждого поля:",ls,al,ss,nl,Ts,Ul,Gl="Мы видим, что поле <code>content</code> содержит код, на котором мы хотим обучить нашу модель. Теперь, когда у нас есть датасет, нам нужно подготовить тексты, чтобы они были в формате, подходящем для предварительного обучения.",ms,yl,cl,wl,il,Tl,Rl="Первым шагом будет токенизация данных, чтобы мы могли использовать их для обучения. Поскольку наша цель - автозаполнение коротких вызовов функций, мы можем оставить размер контекста относительно небольшим. Благодаря этому мы сможем обучать модель гораздо быстрее, и она будет занимать значительно меньше памяти. Если для вашего приложения важно, чтобы контекст был больше (например, если вы хотите, чтобы модель писала юнит-тесты на основе файла с определением функции), обязательно увеличьте это число, но не забывайте, что это приведет к увеличению объема памяти GPU. Пока что давайте зафиксируем размер контекста на 128 токенов, в отличие от 1 024 или 2 048, используемых в GPT-2 или GPT-3 соответственно.",os,ml,Bl='Большинство документов содержит гораздо больше 128 токенов, поэтому простое обрезание входных данных до максимальной длины приведет к тому, что большая часть нашего датасета будет удалена. Вместо этого мы используем параметр <code>return_overflowing_tokens</code> для токенизации всего ввода и разбиения его на части, как мы делали в <a href="../chapter6/4">Главе 6</a>. Мы также будем использовать параметр <code>return_length</code>, чтобы автоматически возвращать длину каждого созданного фрагмента. Часто последний фрагмент будет меньше размера контекста, и мы избавимся от этих фрагментов, чтобы избежать проблем с дополнением; на самом деле они нам не нужны, поскольку у нас и так много данных.',es,z,fe='<img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter7/chunking_texts.svg" alt="Chunking a large texts in several pieces."/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter7/chunking_texts-dark.svg" alt="Chunking a large texts in several pieces."/>',ts,pl,us="Давайте посмотрим, как это работает, на первых двух примерах:",ol,ul,s,w,Ce,ds,ut="Из этих двух примеров видно, что в общей сложности мы получили 34 сегмента. Взглянув на длину фрагментов, мы видим, что фрагменты в конце обоих документов содержат менее 128 токенов (117 и 41, соответственно). Это лишь малая часть всех имеющихся у нас фрагментов, поэтому мы можем смело отбросить их. С помощью поля <code>overflow_to_sample_mapping</code> мы также можем восстановить, какие фрагменты принадлежали каким входным примерам.",he,js,dt='В этой операции мы используем удобную особенность функции <code>Dataset.map()</code> из 🤗 Datasets, которая заключается в том, что она не требует отображения один к одному; как мы видели в <a href="../chapter7/3">разделе 3</a>, мы можем создавать батч с большим или меньшим количеством элементов, чем входной батч. Это полезно при выполнении таких операций, как аугментация или фильтрация данных, которые изменяют количество элементов. В нашем случае при токенизации каждого элемента на фрагменты заданного размера контекста мы создаем много примеров из каждого документа. Нам просто нужно убедиться, что мы удалили существующие столбцы, поскольку они имеют противоречивый размер. Если бы мы хотели их сохранить, то могли бы повторить их соответствующим образом и вернуть в рамках вызова <code>Dataset.map()</code>:',_e,Is,Qe,fs,ke,bs,jt="Теперь у нас есть 16,7 миллиона примеров со 128 токенами в каждом, что соответствует примерно 2,1 миллиарда токенов в общей сложности. Для сравнения, модели OpenAI GPT-3 и Codex обучены на 300 и 100 миллиардах токенов соответственно, причем модели Codex инициализируются из контрольных точек GPT-3. Наша цель в этом разделе - не конкурировать с этими моделями, которые могут генерировать длинные, связные тексты, а создать уменьшенную версию, обеспечивающую быструю функцию автозаполнения для специалистов по обработке данных.",Ze,Cs,It="Теперь, когда у нас есть готовый датасет, давайте создадим модель!",ge,ns,$e,hs,Ge,_s,ft="Наш первый шаг - инициализация свежей модели GPT-2. Мы будем использовать ту же конфигурацию для нашей модели, что и для маленькой модели GPT-2, поэтому загрузим предварительно обученную конфигурацию, убедимся, что размер токенизатора соответствует размеру словарного запаса модели, и передадим идентификаторы токенов <code>bos</code> и <code>eos</code> (начало и конец последовательности):",Re,dl,jl,ne,Qs,bt="Наша модель имеет 124 миллиона параметров, которые нам предстоит дообучить. Прежде чем начать обучение, нам нужно настроить коллатор данных, который займется созданием батчей. Мы можем использовать коллатор <code>DataCollatorForLanguageModeling</code>, который разработан специально для языкового моделирования (о чем недвусмысленно говорит его название). Помимо стекирования и дополнения батчей, он также заботится о создании меток языковой модели - в каузальном языковом моделировании входы тоже служат метками (просто сдвинутыми на один элемент), и этот коллатор данных создает их на лету во время обучения, так что нам не нужно дублировать <code>input_ids</code>.",Be,ks,Ct="Обратите внимание, что <code>DataCollatorForLanguageModeling</code> поддерживает как маскированное языковое моделирование (masked language modeling - MLM), так и каузальное языковое моделирование (causal language modeling - CLM). По умолчанию он подготавливает данные для MLM, но мы можем переключиться на CLM, задав аргумент <code>mlm=False</code>:",Xe,Il,fl,pe,Zs,ht="Давайте посмотрим на пример:",Ve,gs,Ee,bl,Cl,Me,$s,_t="Мы видим, что примеры были стекированы, и все тензоры имеют одинаковую форму.",We,Je,ps,ze,Gs,Qt="Теперь у нас есть все необходимое для обучения нашей модели - в конце концов, это было не так уж и сложно! Прежде чем приступить к обучению, мы должны войти в Hugging Face. Если вы работаете в блокноте, вы можете сделать это с помощью следующей служебной функции:",xe,Rs,Ne,Bs,kt="Появится виджет, в котором вы можете ввести свои учетные данные для входа в Hugging Face.",Ae,Xs,Zt="Если вы работаете не в блокноте, просто введите следующую строку в терминале:",ve,Vs,Fe,hl,_l,re,Ms,Ye,Js,He,Es,Se,Ws,gt="Настал момент истины: давайте посмотрим, насколько хорошо работает обученная модель! В логах мы видим, что потери постоянно снижаются, но чтобы проверить модель на практике, давайте посмотрим, насколько хорошо она работает на некоторых подсказках. Для этого мы обернем модель в <code>pipeline</code> для генерации текста и поместим ее на GPU для быстрой генерации, если таковой доступен:",De,Ql,kl,Ue,zs,$t="Давайте начнем с простой задачи - создания диаграммы рассеивания (scatter plot):",qe,xs,Le,Ns,Ke,As,Gt="Результат выглядит корректно. Работает ли это также для <code>pandas</code> операции? Давайте посмотрим, сможем ли мы создать <code>DataFrame</code> из двух массивов:",Pe,vs,Oe,Fs,lt,Ys,Rt="Отлично, это правильный ответ — хотя затем он снова вставляет столбец <code>x</code>. Поскольку количество генерируемых токенов ограничено, следующий цикл <code>for</code> обрывается. Давайте посмотрим, сможем ли мы сделать что-то более сложное, и чтобы модель помогла нам использовать операцию <code>groupby</code>:",st,Hs,et,Ss,tt,Ds,Bt="Неплохо; это правильный способ сделать это. Наконец, давайте посмотрим, сможем ли мы также использовать его для <code>scikit-learn</code> и создать модель Random Forest:",at,qs,nt,Ls,pt,ye,ce,Ks,Mt,be,Jt;_=new ya({props:{fw:h[0]}}),g=new we({props:{title:"Обучение каузальной языковой модели с нуля",local:"training-a-causal-language-model-from-scratch",headingTag:"h1"}});const Xt=[ia,wa],Ps=[];function Vt(l,p){return l[0]==="pt"?0:1}k=Vt(h),i=Ps[k]=Xt[k](h),N=new ot({props:{id:"Vpjb1lu0MDk"}}),F=new we({props:{title:"Сбор данных",local:"gathering-the-data",headingTag:"h2"}}),Zl=new C({props:{code:"ZGVmJTIwYW55X2tleXdvcmRfaW5fc3RyaW5nKHN0cmluZyUyQyUyMGtleXdvcmRzKSUzQSUwQSUyMCUyMCUyMCUyMGZvciUyMGtleXdvcmQlMjBpbiUyMGtleXdvcmRzJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwaWYlMjBrZXl3b3JkJTIwaW4lMjBzdHJpbmclM0ElMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjByZXR1cm4lMjBUcnVlJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwRmFsc2U=",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">any_keyword_in_string</span>(<span class="hljs-params">string, keywords</span>):
<span class="hljs-keyword">for</span> keyword <span class="hljs-keyword">in</span> keywords:
<span class="hljs-keyword">if</span> keyword <span class="hljs-keyword">in</span> string:
<span class="hljs-keyword">return</span> <span class="hljs-literal">True</span>
<span class="hljs-keyword">return</span> <span class="hljs-literal">False</span>`,wrap:!1}}),gl=new C({props:{code:"ZmlsdGVycyUyMCUzRCUyMCU1QiUyMnBhbmRhcyUyMiUyQyUyMCUyMnNrbGVhcm4lMjIlMkMlMjAlMjJtYXRwbG90bGliJTIyJTJDJTIwJTIyc2VhYm9ybiUyMiU1RCUwQWV4YW1wbGVfMSUyMCUzRCUyMCUyMmltcG9ydCUyMG51bXB5JTIwYXMlMjBucCUyMiUwQWV4YW1wbGVfMiUyMCUzRCUyMCUyMmltcG9ydCUyMHBhbmRhcyUyMGFzJTIwcGQlMjIlMEElMEFwcmludCglMEElMjAlMjAlMjAlMjBhbnlfa2V5d29yZF9pbl9zdHJpbmcoZXhhbXBsZV8xJTJDJTIwZmlsdGVycyklMkMlMjBhbnlfa2V5d29yZF9pbl9zdHJpbmcoZXhhbXBsZV8yJTJDJTIwZmlsdGVycyklMEEp",highlighted:`filters = [<span class="hljs-string">&quot;pandas&quot;</span>, <span class="hljs-string">&quot;sklearn&quot;</span>, <span class="hljs-string">&quot;matplotlib&quot;</span>, <span class="hljs-string">&quot;seaborn&quot;</span>]
example_1 = <span class="hljs-string">&quot;import numpy as np&quot;</span>
example_2 = <span class="hljs-string">&quot;import pandas as pd&quot;</span>
<span class="hljs-built_in">print</span>(
any_keyword_in_string(example_1, filters), any_keyword_in_string(example_2, filters)
)`,wrap:!1}}),D=new C({props:{code:"RmFsc2UlMjBUcnVl",highlighted:'<span class="hljs-literal">False</span> <span class="hljs-literal">True</span>',wrap:!1}}),L=new C({props:{code:"ZnJvbSUyMGNvbGxlY3Rpb25zJTIwaW1wb3J0JTIwZGVmYXVsdGRpY3QlMEFmcm9tJTIwdHFkbSUyMGltcG9ydCUyMHRxZG0lMEFmcm9tJTIwZGF0YXNldHMlMjBpbXBvcnQlMjBEYXRhc2V0JTBBJTBBJTBBZGVmJTIwZmlsdGVyX3N0cmVhbWluZ19kYXRhc2V0KGRhdGFzZXQlMkMlMjBmaWx0ZXJzKSUzQSUwQSUyMCUyMCUyMCUyMGZpbHRlcmVkX2RpY3QlMjAlM0QlMjBkZWZhdWx0ZGljdChsaXN0KSUwQSUyMCUyMCUyMCUyMHRvdGFsJTIwJTNEJTIwMCUwQSUyMCUyMCUyMCUyMGZvciUyMHNhbXBsZSUyMGluJTIwdHFkbShpdGVyKGRhdGFzZXQpKSUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHRvdGFsJTIwJTJCJTNEJTIwMSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGlmJTIwYW55X2tleXdvcmRfaW5fc3RyaW5nKHNhbXBsZSU1QiUyMmNvbnRlbnQlMjIlNUQlMkMlMjBmaWx0ZXJzKSUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZvciUyMGslMkMlMjB2JTIwaW4lMjBzYW1wbGUuaXRlbXMoKSUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZpbHRlcmVkX2RpY3QlNUJrJTVELmFwcGVuZCh2KSUwQSUyMCUyMCUyMCUyMHByaW50KGYlMjIlN0JsZW4oZmlsdGVyZWRfZGljdCU1Qidjb250ZW50JyU1RCklMkZ0b3RhbCUzQS4yJTI1JTdEJTIwb2YlMjBkYXRhJTIwYWZ0ZXIlMjBmaWx0ZXJpbmcuJTIyKSUwQSUyMCUyMCUyMCUyMHJldHVybiUyMERhdGFzZXQuZnJvbV9kaWN0KGZpbHRlcmVkX2RpY3Qp",highlighted:`<span class="hljs-keyword">from</span> collections <span class="hljs-keyword">import</span> defaultdict
<span class="hljs-keyword">from</span> tqdm <span class="hljs-keyword">import</span> tqdm
<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> Dataset
<span class="hljs-keyword">def</span> <span class="hljs-title function_">filter_streaming_dataset</span>(<span class="hljs-params">dataset, filters</span>):
filtered_dict = defaultdict(<span class="hljs-built_in">list</span>)
total = <span class="hljs-number">0</span>
<span class="hljs-keyword">for</span> sample <span class="hljs-keyword">in</span> tqdm(<span class="hljs-built_in">iter</span>(dataset)):
total += <span class="hljs-number">1</span>
<span class="hljs-keyword">if</span> any_keyword_in_string(sample[<span class="hljs-string">&quot;content&quot;</span>], filters):
<span class="hljs-keyword">for</span> k, v <span class="hljs-keyword">in</span> sample.items():
filtered_dict[k].append(v)
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;<span class="hljs-subst">{<span class="hljs-built_in">len</span>(filtered_dict[<span class="hljs-string">&#x27;content&#x27;</span>])/total:<span class="hljs-number">.2</span>%}</span> of data after filtering.&quot;</span>)
<span class="hljs-keyword">return</span> Dataset.from_dict(filtered_dict)`,wrap:!1}}),P=new C({props:{code:"JTIzJTIwJUQwJTkyJUQxJThCJUQwJUJGJUQwJUJFJUQwJUJCJUQwJUJEJUQwJUI1JUQwJUJEJUQwJUI4JUQwJUI1JTIwJUQxJThEJUQxJTgyJUQwJUJFJUQwJUI5JTIwJUQxJThGJUQxJTg3JUQwJUI1JUQwJUI5JUQwJUJBJUQwJUI4JTIwJUQwJUI3JUQwJUIwJUQwJUI5JUQwJUJDJUQwJUI1JUQxJTgyJTIwJUQwJUJFJUQxJTg3JUQwJUI1JUQwJUJEJUQxJThDJTIwJUQwJUJDJUQwJUJEJUQwJUJFJUQwJUIzJUQwJUJFJTIwJUQwJUIyJUQxJTgwJUQwJUI1JUQwJUJDJUQwJUI1JUQwJUJEJUQwJUI4JTJDJTIwJUQwJUJGJUQwJUJFJUQxJThEJUQxJTgyJUQwJUJFJUQwJUJDJUQxJTgzJTIwJUQwJUI1JUQwJUI1JTIwJUQxJTgxJUQwJUJCJUQwJUI1JUQwJUI0JUQxJTgzJUQwJUI1JUQxJTgyJTIwJUQwJUJGJUQxJTgwJUQwJUJFJUQwJUJGJUQxJTgzJUQxJTgxJUQxJTgyJUQwJUI4JUQxJTgyJUQxJThDJTIwJUQwJUI4JTIwJUQwJUJGJUQwJUI1JUQxJTgwJUQwJUI1JUQwJUI5JUQxJTgyJUQwJUI4JTIwJUQwJUJBJTBBJTIzJTIwJUQxJTgxJUQwJUJCJUQwJUI1JUQwJUI0JUQxJTgzJUQxJThFJUQxJTg5JUQwJUI1JUQwJUI5ISUwQWZyb20lMjBkYXRhc2V0cyUyMGltcG9ydCUyMGxvYWRfZGF0YXNldCUwQSUwQXNwbGl0JTIwJTNEJTIwJTIydHJhaW4lMjIlMjAlMjAlMjMlMjAlMjJ2YWxpZCUyMiUwQWZpbHRlcnMlMjAlM0QlMjAlNUIlMjJwYW5kYXMlMjIlMkMlMjAlMjJza2xlYXJuJTIyJTJDJTIwJTIybWF0cGxvdGxpYiUyMiUyQyUyMCUyMnNlYWJvcm4lMjIlNUQlMEElMEFkYXRhJTIwJTNEJTIwbG9hZF9kYXRhc2V0KGYlMjJ0cmFuc2Zvcm1lcnNib29rJTJGY29kZXBhcnJvdC0lN0JzcGxpdCU3RCUyMiUyQyUyMHNwbGl0JTNEc3BsaXQlMkMlMjBzdHJlYW1pbmclM0RUcnVlKSUwQWZpbHRlcmVkX2RhdGElMjAlM0QlMjBmaWx0ZXJfc3RyZWFtaW5nX2RhdGFzZXQoZGF0YSUyQyUyMGZpbHRlcnMp",highlighted:`<span class="hljs-comment"># Выполнение этой ячейки займет очень много времени, поэтому ее следует пропустить и перейти к</span>
<span class="hljs-comment"># следующей!</span>
<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
split = <span class="hljs-string">&quot;train&quot;</span> <span class="hljs-comment"># &quot;valid&quot;</span>
filters = [<span class="hljs-string">&quot;pandas&quot;</span>, <span class="hljs-string">&quot;sklearn&quot;</span>, <span class="hljs-string">&quot;matplotlib&quot;</span>, <span class="hljs-string">&quot;seaborn&quot;</span>]
data = load_dataset(<span class="hljs-string">f&quot;transformersbook/codeparrot-<span class="hljs-subst">{split}</span>&quot;</span>, split=split, streaming=<span class="hljs-literal">True</span>)
filtered_data = filter_streaming_dataset(data, filters)`,wrap:!1}}),O=new C({props:{code:"My4yNiUyNSUyMG9mJTIwZGF0YSUyMGFmdGVyJTIwZmlsdGVyaW5nLg==",highlighted:'<span class="hljs-number">3.26</span>% of data after filtering.',wrap:!1}}),$l=new C({props:{code:"ZnJvbSUyMGRhdGFzZXRzJTIwaW1wb3J0JTIwbG9hZF9kYXRhc2V0JTJDJTIwRGF0YXNldERpY3QlMEElMEFkc190cmFpbiUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJodWdnaW5nZmFjZS1jb3Vyc2UlMkZjb2RlcGFycm90LWRzLXRyYWluJTIyJTJDJTIwc3BsaXQlM0QlMjJ0cmFpbiUyMiklMEFkc192YWxpZCUyMCUzRCUyMGxvYWRfZGF0YXNldCglMjJodWdnaW5nZmFjZS1jb3Vyc2UlMkZjb2RlcGFycm90LWRzLXZhbGlkJTIyJTJDJTIwc3BsaXQlM0QlMjJ2YWxpZGF0aW9uJTIyKSUwQSUwQXJhd19kYXRhc2V0cyUyMCUzRCUyMERhdGFzZXREaWN0KCUwQSUyMCUyMCUyMCUyMCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMnRyYWluJTIyJTNBJTIwZHNfdHJhaW4lMkMlMjAlMjAlMjMlMjAuc2h1ZmZsZSgpLnNlbGVjdChyYW5nZSg1MDAwMCkpJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIydmFsaWQlMjIlM0ElMjBkc192YWxpZCUyQyUyMCUyMCUyMyUyMC5zaHVmZmxlKCkuc2VsZWN0KHJhbmdlKDUwMCkpJTBBJTIwJTIwJTIwJTIwJTdEJTBBKSUwQSUwQXJhd19kYXRhc2V0cw==",highlighted:`<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset, DatasetDict
ds_train = load_dataset(<span class="hljs-string">&quot;huggingface-course/codeparrot-ds-train&quot;</span>, split=<span class="hljs-string">&quot;train&quot;</span>)
ds_valid = load_dataset(<span class="hljs-string">&quot;huggingface-course/codeparrot-ds-valid&quot;</span>, split=<span class="hljs-string">&quot;validation&quot;</span>)
raw_datasets = DatasetDict(
{
<span class="hljs-string">&quot;train&quot;</span>: ds_train, <span class="hljs-comment"># .shuffle().select(range(50000)),</span>
<span class="hljs-string">&quot;valid&quot;</span>: ds_valid, <span class="hljs-comment"># .shuffle().select(range(500))</span>
}
)
raw_datasets`,wrap:!1}}),el=new C({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ3JlcG9fbmFtZSclMkMlMjAncGF0aCclMkMlMjAnY29waWVzJyUyQyUyMCdzaXplJyUyQyUyMCdjb250ZW50JyUyQyUyMCdsaWNlbnNlJyU1RCUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMG51bV9yb3dzJTNBJTIwNjA2NzIwJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHZhbGlkJTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidyZXBvX25hbWUnJTJDJTIwJ3BhdGgnJTJDJTIwJ2NvcGllcyclMkMlMjAnc2l6ZSclMkMlMjAnY29udGVudCclMkMlMjAnbGljZW5zZSclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDMzMjIlMEElMjAlMjAlMjAlMjAlN0QpJTBBJTdEKQ==",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;repo_name&#x27;</span>, <span class="hljs-string">&#x27;path&#x27;</span>, <span class="hljs-string">&#x27;copies&#x27;</span>, <span class="hljs-string">&#x27;size&#x27;</span>, <span class="hljs-string">&#x27;content&#x27;</span>, <span class="hljs-string">&#x27;license&#x27;</span>],
num_rows: <span class="hljs-number">606720</span>
})
valid: Dataset({
features: [<span class="hljs-string">&#x27;repo_name&#x27;</span>, <span class="hljs-string">&#x27;path&#x27;</span>, <span class="hljs-string">&#x27;copies&#x27;</span>, <span class="hljs-string">&#x27;size&#x27;</span>, <span class="hljs-string">&#x27;content&#x27;</span>, <span class="hljs-string">&#x27;license&#x27;</span>],
num_rows: <span class="hljs-number">3322</span>
})
})`,wrap:!1}}),W=new ys({props:{$$slots:{default:[Ta]},$$scope:{ctx:h}}}),al=new C({props:{code:"Zm9yJTIwa2V5JTIwaW4lMjByYXdfZGF0YXNldHMlNUIlMjJ0cmFpbiUyMiU1RCU1QjAlNUQlM0ElMEElMjAlMjAlMjAlMjBwcmludChmJTIyJTdCa2V5LnVwcGVyKCklN0QlM0ElMjAlN0JyYXdfZGF0YXNldHMlNUIndHJhaW4nJTVEJTVCMCU1RCU1QmtleSU1RCU1QiUzQTIwMCU1RCU3RCUyMik=",highlighted:`<span class="hljs-keyword">for</span> key <span class="hljs-keyword">in</span> raw_datasets[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">0</span>]:
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;<span class="hljs-subst">{key.upper()}</span>: <span class="hljs-subst">{raw_datasets[<span class="hljs-string">&#x27;train&#x27;</span>][<span class="hljs-number">0</span>][key][:<span class="hljs-number">200</span>]}</span>&quot;</span>)`,wrap:!1}}),nl=new C({props:{code:"J1JFUE9fTkFNRSUzQSUyMGttaWtlJTJGc2Npa2l0LWxlYXJuJyUwQSdQQVRIJTNBJTIwc2tsZWFybiUyRnV0aWxzJTJGX19pbml0X18ucHknJTBBJ0NPUElFUyUzQSUyMDMnJTBBJ1NJWkUlM0ElMjAxMDA5NCclMEEnJydDT05URU5UJTNBJTIwJTIyJTIyJTIyJTBBVGhlJTIwJTNBbW9kJTNBJTYwc2tsZWFybi51dGlscyU2MCUyMG1vZHVsZSUyMGluY2x1ZGVzJTIwdmFyaW91cyUyMHV0aWxpdGVzLiUwQSUyMiUyMiUyMiUwQSUwQWZyb20lMjBjb2xsZWN0aW9ucyUyMGltcG9ydCUyMFNlcXVlbmNlJTBBJTBBaW1wb3J0JTIwbnVtcHklMjBhcyUyMG5wJTBBZnJvbSUyMHNjaXB5LnNwYXJzZSUyMGltcG9ydCUyMGlzc3BhcnNlJTBBaW1wb3J0JTIwd2FybmluZ3MlMEElMEFmcm9tJTIwLm11cm11cmhhc2glMjBpbXBvcnQlMjBtdXJtJTBBTElDRU5TRSUzQSUyMGJzZC0zLWNsYXVzZScnJw==",highlighted:`<span class="hljs-string">&#x27;REPO_NAME: kmike/scikit-learn&#x27;</span>
<span class="hljs-string">&#x27;PATH: sklearn/utils/__init__.py&#x27;</span>
<span class="hljs-string">&#x27;COPIES: 3&#x27;</span>
<span class="hljs-string">&#x27;SIZE: 10094&#x27;</span>
<span class="hljs-string">&#x27;&#x27;&#x27;CONTENT: &quot;&quot;&quot;
The :mod:\`sklearn.utils\` module includes various utilites.
&quot;&quot;&quot;
from collections import Sequence
import numpy as np
from scipy.sparse import issparse
import warnings
from .murmurhash import murm
LICENSE: bsd-3-clause&#x27;&#x27;&#x27;</span>`,wrap:!1}}),yl=new we({props:{title:"Подготовка датасета",local:"preparing-the-dataset",headingTag:"h2"}}),wl=new ot({props:{id:"ma1TrR7gE7I"}}),ul=new C({props:{code:"ZnJvbSUyMHRyYW5zZm9ybWVycyUyMGltcG9ydCUyMEF1dG9Ub2tlbml6ZXIlMEElMEFjb250ZXh0X2xlbmd0aCUyMCUzRCUyMDEyOCUwQXRva2VuaXplciUyMCUzRCUyMEF1dG9Ub2tlbml6ZXIuZnJvbV9wcmV0cmFpbmVkKCUyMmh1Z2dpbmdmYWNlLWNvdXJzZSUyRmNvZGUtc2VhcmNoLW5ldC10b2tlbml6ZXIlMjIpJTBBJTBBb3V0cHV0cyUyMCUzRCUyMHRva2VuaXplciglMEElMjAlMjAlMjAlMjByYXdfZGF0YXNldHMlNUIlMjJ0cmFpbiUyMiU1RCU1QiUzQTIlNUQlNUIlMjJjb250ZW50JTIyJTVEJTJDJTBBJTIwJTIwJTIwJTIwdHJ1bmNhdGlvbiUzRFRydWUlMkMlMEElMjAlMjAlMjAlMjBtYXhfbGVuZ3RoJTNEY29udGV4dF9sZW5ndGglMkMlMEElMjAlMjAlMjAlMjByZXR1cm5fb3ZlcmZsb3dpbmdfdG9rZW5zJTNEVHJ1ZSUyQyUwQSUyMCUyMCUyMCUyMHJldHVybl9sZW5ndGglM0RUcnVlJTJDJTBBKSUwQSUwQXByaW50KGYlMjJJbnB1dCUyMElEcyUyMGxlbmd0aCUzQSUyMCU3QmxlbihvdXRwdXRzJTVCJ2lucHV0X2lkcyclNUQpJTdEJTIyKSUwQXByaW50KGYlMjJJbnB1dCUyMGNodW5rJTIwbGVuZ3RocyUzQSUyMCU3QihvdXRwdXRzJTVCJ2xlbmd0aCclNUQpJTdEJTIyKSUwQXByaW50KGYlMjJDaHVuayUyMG1hcHBpbmclM0ElMjAlN0JvdXRwdXRzJTVCJ292ZXJmbG93X3RvX3NhbXBsZV9tYXBwaW5nJyU1RCU3RCUyMik=",highlighted:`<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer
context_length = <span class="hljs-number">128</span>
tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">&quot;huggingface-course/code-search-net-tokenizer&quot;</span>)
outputs = tokenizer(
raw_datasets[<span class="hljs-string">&quot;train&quot;</span>][:<span class="hljs-number">2</span>][<span class="hljs-string">&quot;content&quot;</span>],
truncation=<span class="hljs-literal">True</span>,
max_length=context_length,
return_overflowing_tokens=<span class="hljs-literal">True</span>,
return_length=<span class="hljs-literal">True</span>,
)
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;Input IDs length: <span class="hljs-subst">{<span class="hljs-built_in">len</span>(outputs[<span class="hljs-string">&#x27;input_ids&#x27;</span>])}</span>&quot;</span>)
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;Input chunk lengths: <span class="hljs-subst">{(outputs[<span class="hljs-string">&#x27;length&#x27;</span>])}</span>&quot;</span>)
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;Chunk mapping: <span class="hljs-subst">{outputs[<span class="hljs-string">&#x27;overflow_to_sample_mapping&#x27;</span>]}</span>&quot;</span>)`,wrap:!1}}),w=new C({props:{code:"SW5wdXQlMjBJRHMlMjBsZW5ndGglM0ElMjAzNCUwQUlucHV0JTIwY2h1bmslMjBsZW5ndGhzJTNBJTIwJTVCMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTE3JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwMTI4JTJDJTIwNDElNUQlMEFDaHVuayUyMG1hcHBpbmclM0ElMjAlNUIwJTJDJTIwMCUyQyUyMDAlMkMlMjAwJTJDJTIwMCUyQyUyMDAlMkMlMjAwJTJDJTIwMCUyQyUyMDAlMkMlMjAwJTJDJTIwMCUyQyUyMDAlMkMlMjAwJTJDJTIwMCUyQyUyMDAlMkMlMjAwJTJDJTIwMCUyQyUyMDAlMkMlMjAwJTJDJTIwMCUyQyUyMDElMkMlMjAxJTJDJTIwMSUyQyUyMDElMkMlMjAxJTJDJTIwMSUyQyUyMDElMkMlMjAxJTJDJTIwMSUyQyUyMDElMkMlMjAxJTJDJTIwMSUyQyUyMDElMkMlMjAxJTVE",highlighted:`Input IDs length: <span class="hljs-number">34</span>
Input chunk lengths: [<span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">117</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">128</span>, <span class="hljs-number">41</span>]
Chunk mapping: [<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>]`,wrap:!1}}),Is=new C({props:{code:"ZGVmJTIwdG9rZW5pemUoZWxlbWVudCklM0ElMEElMjAlMjAlMjAlMjBvdXRwdXRzJTIwJTNEJTIwdG9rZW5pemVyKCUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGVsZW1lbnQlNUIlMjJjb250ZW50JTIyJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwdHJ1bmNhdGlvbiUzRFRydWUlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBtYXhfbGVuZ3RoJTNEY29udGV4dF9sZW5ndGglMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjByZXR1cm5fb3ZlcmZsb3dpbmdfdG9rZW5zJTNEVHJ1ZSUyQyUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMHJldHVybl9sZW5ndGglM0RUcnVlJTJDJTBBJTIwJTIwJTIwJTIwKSUwQSUyMCUyMCUyMCUyMGlucHV0X2JhdGNoJTIwJTNEJTIwJTVCJTVEJTBBJTIwJTIwJTIwJTIwZm9yJTIwbGVuZ3RoJTJDJTIwaW5wdXRfaWRzJTIwaW4lMjB6aXAob3V0cHV0cyU1QiUyMmxlbmd0aCUyMiU1RCUyQyUyMG91dHB1dHMlNUIlMjJpbnB1dF9pZHMlMjIlNUQpJTNBJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwaWYlMjBsZW5ndGglMjAlM0QlM0QlMjBjb250ZXh0X2xlbmd0aCUzQSUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGlucHV0X2JhdGNoLmFwcGVuZChpbnB1dF9pZHMpJTBBJTIwJTIwJTIwJTIwcmV0dXJuJTIwJTdCJTIyaW5wdXRfaWRzJTIyJTNBJTIwaW5wdXRfYmF0Y2glN0QlMEElMEElMEF0b2tlbml6ZWRfZGF0YXNldHMlMjAlM0QlMjByYXdfZGF0YXNldHMubWFwKCUwQSUyMCUyMCUyMCUyMHRva2VuaXplJTJDJTIwYmF0Y2hlZCUzRFRydWUlMkMlMjByZW1vdmVfY29sdW1ucyUzRHJhd19kYXRhc2V0cyU1QiUyMnRyYWluJTIyJTVELmNvbHVtbl9uYW1lcyUwQSklMEF0b2tlbml6ZWRfZGF0YXNldHM=",highlighted:`<span class="hljs-keyword">def</span> <span class="hljs-title function_">tokenize</span>(<span class="hljs-params">element</span>):
outputs = tokenizer(
element[<span class="hljs-string">&quot;content&quot;</span>],
truncation=<span class="hljs-literal">True</span>,
max_length=context_length,
return_overflowing_tokens=<span class="hljs-literal">True</span>,
return_length=<span class="hljs-literal">True</span>,
)
input_batch = []
<span class="hljs-keyword">for</span> length, input_ids <span class="hljs-keyword">in</span> <span class="hljs-built_in">zip</span>(outputs[<span class="hljs-string">&quot;length&quot;</span>], outputs[<span class="hljs-string">&quot;input_ids&quot;</span>]):
<span class="hljs-keyword">if</span> length == context_length:
input_batch.append(input_ids)
<span class="hljs-keyword">return</span> {<span class="hljs-string">&quot;input_ids&quot;</span>: input_batch}
tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(
tokenize, batched=<span class="hljs-literal">True</span>, remove_columns=raw_datasets[<span class="hljs-string">&quot;train&quot;</span>].column_names
)
tokenized_datasets`,wrap:!1}}),fs=new C({props:{code:"RGF0YXNldERpY3QoJTdCJTBBJTIwJTIwJTIwJTIwdHJhaW4lM0ElMjBEYXRhc2V0KCU3QiUwQSUyMCUyMCUyMCUyMCUyMCUyMCUyMCUyMGZlYXR1cmVzJTNBJTIwJTVCJ2lucHV0X2lkcyclNUQlMkMlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBudW1fcm93cyUzQSUyMDE2NzAyMDYxJTBBJTIwJTIwJTIwJTIwJTdEKSUwQSUyMCUyMCUyMCUyMHZhbGlkJTNBJTIwRGF0YXNldCglN0IlMEElMjAlMjAlMjAlMjAlMjAlMjAlMjAlMjBmZWF0dXJlcyUzQSUyMCU1QidpbnB1dF9pZHMnJTVEJTJDJTBBJTIwJTIwJTIwJTIwJTIwJTIwJTIwJTIwbnVtX3Jvd3MlM0ElMjA5MzE2NCUwQSUyMCUyMCUyMCUyMCU3RCklMEElN0Qp",highlighted:`DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;input_ids&#x27;</span>],
num_rows: <span class="hljs-number">16702061</span>
})
valid: Dataset({
features: [<span class="hljs-string">&#x27;input_ids&#x27;</span>],
num_rows: <span class="hljs-number">93164</span>
})
})`,wrap:!1}}),ns=new ys({props:{$$slots:{default:[ma]},$$scope:{ctx:h}}}),hs=new we({props:{title:"Инициализация новой модели",local:"initializing-a-new-model",headingTag:"h2"}});const Et=[ua,oa],Os=[];function Wt(l,p){return l[0]==="pt"?0:1}dl=Wt(h),jl=Os[dl]=Et[dl](h);const zt=[ja,da],le=[];function xt(l,p){return l[0]==="pt"?0:1}Il=xt(h),fl=le[Il]=zt[Il](h),gs=new C({props:{code:"b3V0JTIwJTNEJTIwZGF0YV9jb2xsYXRvciglNUJ0b2tlbml6ZWRfZGF0YXNldHMlNUIlMjJ0cmFpbiUyMiU1RCU1QmklNUQlMjBmb3IlMjBpJTIwaW4lMjByYW5nZSg1KSU1RCklMEFmb3IlMjBrZXklMjBpbiUyMG91dCUzQSUwQSUyMCUyMCUyMCUyMHByaW50KGYlMjIlN0JrZXklN0QlMjBzaGFwZSUzQSUyMCU3Qm91dCU1QmtleSU1RC5zaGFwZSU3RCUyMik=",highlighted:`out = data_collator([tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>][i] <span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">5</span>)])
<span class="hljs-keyword">for</span> key <span class="hljs-keyword">in</span> out:
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;<span class="hljs-subst">{key}</span> shape: <span class="hljs-subst">{out[key].shape}</span>&quot;</span>)`,wrap:!1}});const Nt=[fa,Ia],se=[];function At(l,p){return l[0]==="pt"?0:1}bl=At(h),Cl=se[bl]=Nt[bl](h);let X=h[0]==="tf"&&sa();ps=new ys({props:{warning:!0,$$slots:{default:[ba]},$$scope:{ctx:h}}}),Rs=new C({props:{code:"ZnJvbSUyMGh1Z2dpbmdmYWNlX2h1YiUyMGltcG9ydCUyMG5vdGVib29rX2xvZ2luJTBBJTBBbm90ZWJvb2tfbG9naW4oKQ==",highlighted:`<span class="hljs-keyword">from</span> huggingface_hub <span class="hljs-keyword">import</span> notebook_login
notebook_login()`,wrap:!1}}),Vs=new C({props:{code:"aHVnZ2luZ2ZhY2UtY2xpJTIwbG9naW4=",highlighted:"huggingface-cli login",wrap:!1}});const vt=[ha,Ca],ee=[];function Ft(l,p){return l[0]==="pt"?0:1}hl=Ft(h),_l=ee[hl]=vt[hl](h),Ms=new ys({props:{$$slots:{default:[_a]},$$scope:{ctx:h}}}),Js=new ys({props:{$$slots:{default:[Za]},$$scope:{ctx:h}}}),Es=new we({props:{title:"Генерация кода с помощью конвейера",local:"code-generation-with-a-pipeline",headingTag:"h2"}});const Yt=[$a,ga],te=[];function Ht(l,p){return l[0]==="pt"?0:1}Ql=Ht(h),kl=te[Ql]=Yt[Ql](h),xs=new C({props:{code:"dHh0JTIwJTNEJTIwJTIyJTIyJTIyJTVDJTBBJTIzJTIwY3JlYXRlJTIwc29tZSUyMGRhdGElMEF4JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEF5JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEElMEElMjMlMjBjcmVhdGUlMjBzY2F0dGVyJTIwcGxvdCUyMHdpdGglMjB4JTJDJTIweSUwQSUyMiUyMiUyMiUwQXByaW50KHBpcGUodHh0JTJDJTIwbnVtX3JldHVybl9zZXF1ZW5jZXMlM0QxKSU1QjAlNUQlNUIlMjJnZW5lcmF0ZWRfdGV4dCUyMiU1RCk=",highlighted:`txt = <span class="hljs-string">&quot;&quot;&quot;\\
# create some data
x = np.random.randn(100)
y = np.random.randn(100)
# create scatter plot with x, y
&quot;&quot;&quot;</span>
<span class="hljs-built_in">print</span>(pipe(txt, num_return_sequences=<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;generated_text&quot;</span>])`,wrap:!1}}),Ns=new C({props:{code:"JTIzJTIwY3JlYXRlJTIwc29tZSUyMGRhdGElMEF4JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEF5JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEElMEElMjMlMjBjcmVhdGUlMjBzY2F0dGVyJTIwcGxvdCUyMHdpdGglMjB4JTJDJTIweSUwQXBsdC5zY2F0dGVyKHglMkMlMjB5KSUwQSUwQSUyMyUyMGNyZWF0ZSUyMHNjYXR0ZXI=",highlighted:`<span class="hljs-comment"># create some data</span>
x = np.random.randn(<span class="hljs-number">100</span>)
y = np.random.randn(<span class="hljs-number">100</span>)
<span class="hljs-comment"># create scatter plot with x, y</span>
plt.scatter(x, y)
<span class="hljs-comment"># create scatter</span>`,wrap:!1}}),vs=new C({props:{code:"dHh0JTIwJTNEJTIwJTIyJTIyJTIyJTVDJTBBJTIzJTIwY3JlYXRlJTIwc29tZSUyMGRhdGElMEF4JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEF5JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEElMEElMjMlMjBjcmVhdGUlMjBkYXRhZnJhbWUlMjBmcm9tJTIweCUyMGFuZCUyMHklMEElMjIlMjIlMjIlMEFwcmludChwaXBlKHR4dCUyQyUyMG51bV9yZXR1cm5fc2VxdWVuY2VzJTNEMSklNUIwJTVEJTVCJTIyZ2VuZXJhdGVkX3RleHQlMjIlNUQp",highlighted:`txt = <span class="hljs-string">&quot;&quot;&quot;\\
# create some data
x = np.random.randn(100)
y = np.random.randn(100)
# create dataframe from x and y
&quot;&quot;&quot;</span>
<span class="hljs-built_in">print</span>(pipe(txt, num_return_sequences=<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;generated_text&quot;</span>])`,wrap:!1}}),Fs=new C({props:{code:"JTIzJTIwY3JlYXRlJTIwc29tZSUyMGRhdGElMEF4JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEF5JTIwJTNEJTIwbnAucmFuZG9tLnJhbmRuKDEwMCklMEElMEElMjMlMjBjcmVhdGUlMjBkYXRhZnJhbWUlMjBmcm9tJTIweCUyMGFuZCUyMHklMEFkZiUyMCUzRCUyMHBkLkRhdGFGcmFtZSglN0IneCclM0ElMjB4JTJDJTIwJ3knJTNBJTIweSU3RCklMEFkZi5pbnNlcnQoMCUyQyd4JyUyQyUyMHgpJTBBZm9y",highlighted:`<span class="hljs-comment"># create some data</span>
x = np.random.randn(<span class="hljs-number">100</span>)
y = np.random.randn(<span class="hljs-number">100</span>)
<span class="hljs-comment"># create dataframe from x and y</span>
df = pd.DataFrame({<span class="hljs-string">&#x27;x&#x27;</span>: x, <span class="hljs-string">&#x27;y&#x27;</span>: y})
df.insert(<span class="hljs-number">0</span>,<span class="hljs-string">&#x27;x&#x27;</span>, x)
<span class="hljs-keyword">for</span>`,wrap:!1}}),Hs=new C({props:{code:"dHh0JTIwJTNEJTIwJTIyJTIyJTIyJTVDJTBBJTIzJTIwZGF0YWZyYW1lJTIwd2l0aCUyMHByb2Zlc3Npb24lMkMlMjBpbmNvbWUlMjBhbmQlMjBuYW1lJTBBZGYlMjAlM0QlMjBwZC5EYXRhRnJhbWUoJTdCJ3Byb2Zlc3Npb24nJTNBJTIweCUyQyUyMCdpbmNvbWUnJTNBeSUyQyUyMCduYW1lJyUzQSUyMHolN0QpJTBBJTBBJTIzJTIwY2FsY3VsYXRlJTIwdGhlJTIwbWVhbiUyMGluY29tZSUyMHBlciUyMHByb2Zlc3Npb24lMEElMjIlMjIlMjIlMEFwcmludChwaXBlKHR4dCUyQyUyMG51bV9yZXR1cm5fc2VxdWVuY2VzJTNEMSklNUIwJTVEJTVCJTIyZ2VuZXJhdGVkX3RleHQlMjIlNUQp",highlighted:`txt = <span class="hljs-string">&quot;&quot;&quot;\\
# dataframe with profession, income and name
df = pd.DataFrame({&#x27;profession&#x27;: x, &#x27;income&#x27;:y, &#x27;name&#x27;: z})
# calculate the mean income per profession
&quot;&quot;&quot;</span>
<span class="hljs-built_in">print</span>(pipe(txt, num_return_sequences=<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;generated_text&quot;</span>])`,wrap:!1}}),Ss=new C({props:{code:"JTIzJTIwZGF0YWZyYW1lJTIwd2l0aCUyMHByb2Zlc3Npb24lMkMlMjBpbmNvbWUlMjBhbmQlMjBuYW1lJTBBZGYlMjAlM0QlMjBwZC5EYXRhRnJhbWUoJTdCJ3Byb2Zlc3Npb24nJTNBJTIweCUyQyUyMCdpbmNvbWUnJTNBeSUyQyUyMCduYW1lJyUzQSUyMHolN0QpJTBBJTBBJTIzJTIwY2FsY3VsYXRlJTIwdGhlJTIwbWVhbiUyMGluY29tZSUyMHBlciUyMHByb2Zlc3Npb24lMEFwcm9mZXNzaW9uJTIwJTNEJTIwZGYuZ3JvdXBieSglNUIncHJvZmVzc2lvbiclNUQpLm1lYW4oKSUwQSUwQSUyMyUyMGNvbXB1dGUlMjB0aGU=",highlighted:`<span class="hljs-comment"># dataframe with profession, income and name</span>
df = pd.DataFrame({<span class="hljs-string">&#x27;profession&#x27;</span>: x, <span class="hljs-string">&#x27;income&#x27;</span>:y, <span class="hljs-string">&#x27;name&#x27;</span>: z})
<span class="hljs-comment"># calculate the mean income per profession</span>
profession = df.groupby([<span class="hljs-string">&#x27;profession&#x27;</span>]).mean()
<span class="hljs-comment"># compute the</span>`,wrap:!1}}),qs=new C({props:{code:"dHh0JTIwJTNEJTIwJTIyJTIyJTIyJTBBJTIzJTIwaW1wb3J0JTIwcmFuZG9tJTIwZm9yZXN0JTIwcmVncmVzc29yJTIwZnJvbSUyMHNjaWtpdC1sZWFybiUwQWZyb20lMjBza2xlYXJuLmVuc2VtYmxlJTIwaW1wb3J0JTIwUmFuZG9tRm9yZXN0UmVncmVzc29yJTBBJTBBJTIzJTIwZml0JTIwcmFuZG9tJTIwZm9yZXN0JTIwbW9kZWwlMjB3aXRoJTIwMzAwJTIwZXN0aW1hdG9ycyUyMG9uJTIwWCUyQyUyMHklM0ElMEElMjIlMjIlMjIlMEFwcmludChwaXBlKHR4dCUyQyUyMG51bV9yZXR1cm5fc2VxdWVuY2VzJTNEMSklNUIwJTVEJTVCJTIyZ2VuZXJhdGVkX3RleHQlMjIlNUQp",highlighted:`txt = <span class="hljs-string">&quot;&quot;&quot;
# import random forest regressor from scikit-learn
from sklearn.ensemble import RandomForestRegressor
# fit random forest model with 300 estimators on X, y:
&quot;&quot;&quot;</span>
<span class="hljs-built_in">print</span>(pipe(txt, num_return_sequences=<span class="hljs-number">1</span>)[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;generated_text&quot;</span>])`,wrap:!1}}),Ls=new C({props:{code:"JTIzJTIwaW1wb3J0JTIwcmFuZG9tJTIwZm9yZXN0JTIwcmVncmVzc29yJTIwZnJvbSUyMHNjaWtpdC1sZWFybiUwQWZyb20lMjBza2xlYXJuLmVuc2VtYmxlJTIwaW1wb3J0JTIwUmFuZG9tRm9yZXN0UmVncmVzc29yJTBBJTBBJTIzJTIwZml0JTIwcmFuZG9tJTIwZm9yZXN0JTIwbW9kZWwlMjB3aXRoJTIwMzAwJTIwZXN0aW1hdG9ycyUyMG9uJTIwWCUyQyUyMHklM0ElMEFyZiUyMCUzRCUyMFJhbmRvbUZvcmVzdFJlZ3Jlc3NvcihuX2VzdGltYXRvcnMlM0QzMDAlMkMlMjByYW5kb21fc3RhdGUlM0RyYW5kb21fc3RhdGUlMkMlMjBtYXhfZGVwdGglM0QzKSUwQXJmLmZpdChYJTJDJTIweSklMEFyZg==",highlighted:`<span class="hljs-comment"># import random forest regressor from scikit-learn</span>
<span class="hljs-keyword">from</span> sklearn.ensemble <span class="hljs-keyword">import</span> RandomForestRegressor
<span class="hljs-comment"># fit random forest model with 300 estimators on X, y:</span>
rf = RandomForestRegressor(n_estimators=<span class="hljs-number">300</span>, random_state=random_state, max_depth=<span class="hljs-number">3</span>)
rf.fit(X, y)
rf`,wrap:!1}});function St(l,p){return l[0]==="tf"?Ra:Ga}let rt=St(h),as=rt(h),V=h[0]==="pt"&&ea(h);return Ks=new ca({props:{source:"https://github.com/huggingface/course/blob/main/chapters/ru/chapter7/6.mdx"}}),{c(){t=d("meta"),r=M(),n=d("p"),c=M(),T(_.$$.fragment),f=M(),T(g.$$.fragment),Z=M(),i.c(),b=M(),$=d("p"),$.innerHTML=x,E=M(),B=d("p"),B.innerHTML=Q,G=M(),T(N.$$.fragment),Vl=M(),A=d("p"),A.innerHTML=ie,El=M(),R=d("iframe"),Wl=M(),v=d("p"),v.innerHTML=me,zl=M(),T(F.$$.fragment),xl=M(),Y=d("p"),Y.innerHTML=oe,Nl=M(),H=d("p"),H.innerHTML=cs,Ml=M(),T(Zl.$$.fragment),Al=M(),S=d("p"),S.textContent=ws,Jl=M(),T(gl.$$.fragment),vl=M(),T(D.$$.fragment),Fl=M(),q=d("p"),q.textContent=ue,Yl=M(),T(L.$$.fragment),Hl=M(),K=d("p"),K.textContent=de,Sl=M(),T(P.$$.fragment),Dl=M(),T(O.$$.fragment),ql=M(),ll=d("p"),ll.textContent=je,Ll=M(),sl=d("p"),sl.textContent=is,rl=M(),T($l.$$.fragment),Kl=M(),T(el.$$.fragment),Pl=M(),T(W.$$.fragment),Ol=M(),tl=d("p"),tl.textContent=Ie,ls=M(),T(al.$$.fragment),ss=M(),T(nl.$$.fragment),Ts=M(),Ul=d("p"),Ul.innerHTML=Gl,ms=M(),T(yl.$$.fragment),cl=M(),T(wl.$$.fragment),il=M(),Tl=d("p"),Tl.textContent=Rl,os=M(),ml=d("p"),ml.innerHTML=Bl,es=M(),z=d("div"),z.innerHTML=fe,ts=M(),pl=d("p"),pl.textContent=us,ol=M(),T(ul.$$.fragment),s=M(),T(w.$$.fragment),Ce=M(),ds=d("p"),ds.innerHTML=ut,he=M(),js=d("p"),js.innerHTML=dt,_e=M(),T(Is.$$.fragment),Qe=M(),T(fs.$$.fragment),ke=M(),bs=d("p"),bs.textContent=jt,Ze=M(),Cs=d("p"),Cs.textContent=It,ge=M(),T(ns.$$.fragment),$e=M(),T(hs.$$.fragment),Ge=M(),_s=d("p"),_s.innerHTML=ft,Re=M(),jl.c(),ne=M(),Qs=d("p"),Qs.innerHTML=bt,Be=M(),ks=d("p"),ks.innerHTML=Ct,Xe=M(),fl.c(),pe=M(),Zs=d("p"),Zs.textContent=ht,Ve=M(),T(gs.$$.fragment),Ee=M(),Cl.c(),Me=M(),$s=d("p"),$s.textContent=_t,We=M(),X&&X.c(),Je=M(),T(ps.$$.fragment),ze=M(),Gs=d("p"),Gs.textContent=Qt,xe=M(),T(Rs.$$.fragment),Ne=M(),Bs=d("p"),Bs.textContent=kt,Ae=M(),Xs=d("p"),Xs.textContent=Zt,ve=M(),T(Vs.$$.fragment),Fe=M(),_l.c(),re=M(),T(Ms.$$.fragment),Ye=M(),T(Js.$$.fragment),He=M(),T(Es.$$.fragment),Se=M(),Ws=d("p"),Ws.innerHTML=gt,De=M(),kl.c(),Ue=M(),zs=d("p"),zs.textContent=$t,qe=M(),T(xs.$$.fragment),Le=M(),T(Ns.$$.fragment),Ke=M(),As=d("p"),As.innerHTML=Gt,Pe=M(),T(vs.$$.fragment),Oe=M(),T(Fs.$$.fragment),lt=M(),Ys=d("p"),Ys.innerHTML=Rt,st=M(),T(Hs.$$.fragment),et=M(),T(Ss.$$.fragment),tt=M(),Ds=d("p"),Ds.innerHTML=Bt,at=M(),T(qs.$$.fragment),nt=M(),T(Ls.$$.fragment),pt=M(),as.c(),ye=M(),V&&V.c(),ce=M(),T(Ks.$$.fragment),Mt=M(),be=d("p"),this.h()},l(l){const p=ra("svelte-u9bgzb",document.head);t=j(p,"META",{name:!0,content:!0}),p.forEach(e),r=J(l),n=j(l,"P",{}),mt(n).forEach(e),c=J(l),m(_.$$.fragment,l),f=J(l),m(g.$$.fragment,l),Z=J(l),i.l(l),b=J(l),$=j(l,"P",{"data-svelte-h":!0}),I($)!=="svelte-1uelaml"&&($.innerHTML=x),E=J(l),B=j(l,"P",{"data-svelte-h":!0}),I(B)!=="svelte-cflxrq"&&(B.innerHTML=Q),G=J(l),m(N.$$.fragment,l),Vl=J(l),A=j(l,"P",{"data-svelte-h":!0}),I(A)!=="svelte-4psxaz"&&(A.innerHTML=ie),El=J(l),R=j(l,"IFRAME",{src:!0,frameborder:!0,height:!0,title:!0,class:!0,allow:!0,sandbox:!0}),mt(R).forEach(e),Wl=J(l),v=j(l,"P",{"data-svelte-h":!0}),I(v)!=="svelte-1c4p2fd"&&(v.innerHTML=me),zl=J(l),m(F.$$.fragment,l),xl=J(l),Y=j(l,"P",{"data-svelte-h":!0}),I(Y)!=="svelte-gpod5f"&&(Y.innerHTML=oe),Nl=J(l),H=j(l,"P",{"data-svelte-h":!0}),I(H)!=="svelte-18hyv4k"&&(H.innerHTML=cs),Ml=J(l),m(Zl.$$.fragment,l),Al=J(l),S=j(l,"P",{"data-svelte-h":!0}),I(S)!=="svelte-109igmr"&&(S.textContent=ws),Jl=J(l),m(gl.$$.fragment,l),vl=J(l),m(D.$$.fragment,l),Fl=J(l),q=j(l,"P",{"data-svelte-h":!0}),I(q)!=="svelte-1uofrb3"&&(q.textContent=ue),Yl=J(l),m(L.$$.fragment,l),Hl=J(l),K=j(l,"P",{"data-svelte-h":!0}),I(K)!=="svelte-227v8"&&(K.textContent=de),Sl=J(l),m(P.$$.fragment,l),Dl=J(l),m(O.$$.fragment,l),ql=J(l),ll=j(l,"P",{"data-svelte-h":!0}),I(ll)!=="svelte-1osjl3a"&&(ll.textContent=je),Ll=J(l),sl=j(l,"P",{"data-svelte-h":!0}),I(sl)!=="svelte-c5gf8x"&&(sl.textContent=is),rl=J(l),m($l.$$.fragment,l),Kl=J(l),m(el.$$.fragment,l),Pl=J(l),m(W.$$.fragment,l),Ol=J(l),tl=j(l,"P",{"data-svelte-h":!0}),I(tl)!=="svelte-d3tag1"&&(tl.textContent=Ie),ls=J(l),m(al.$$.fragment,l),ss=J(l),m(nl.$$.fragment,l),Ts=J(l),Ul=j(l,"P",{"data-svelte-h":!0}),I(Ul)!=="svelte-1j5tv7q"&&(Ul.innerHTML=Gl),ms=J(l),m(yl.$$.fragment,l),cl=J(l),m(wl.$$.fragment,l),il=J(l),Tl=j(l,"P",{"data-svelte-h":!0}),I(Tl)!=="svelte-1to6yuc"&&(Tl.textContent=Rl),os=J(l),ml=j(l,"P",{"data-svelte-h":!0}),I(ml)!=="svelte-1e7bwaz"&&(ml.innerHTML=Bl),es=J(l),z=j(l,"DIV",{class:!0,"data-svelte-h":!0}),I(z)!=="svelte-1mf8pz"&&(z.innerHTML=fe),ts=J(l),pl=j(l,"P",{"data-svelte-h":!0}),I(pl)!=="svelte-xk48ej"&&(pl.textContent=us),ol=J(l),m(ul.$$.fragment,l),s=J(l),m(w.$$.fragment,l),Ce=J(l),ds=j(l,"P",{"data-svelte-h":!0}),I(ds)!=="svelte-wsek5w"&&(ds.innerHTML=ut),he=J(l),js=j(l,"P",{"data-svelte-h":!0}),I(js)!=="svelte-k7bti0"&&(js.innerHTML=dt),_e=J(l),m(Is.$$.fragment,l),Qe=J(l),m(fs.$$.fragment,l),ke=J(l),bs=j(l,"P",{"data-svelte-h":!0}),I(bs)!=="svelte-qsnago"&&(bs.textContent=jt),Ze=J(l),Cs=j(l,"P",{"data-svelte-h":!0}),I(Cs)!=="svelte-30xktt"&&(Cs.textContent=It),ge=J(l),m(ns.$$.fragment,l),$e=J(l),m(hs.$$.fragment,l),Ge=J(l),_s=j(l,"P",{"data-svelte-h":!0}),I(_s)!=="svelte-1ygt6px"&&(_s.innerHTML=ft),Re=J(l),jl.l(l),ne=J(l),Qs=j(l,"P",{"data-svelte-h":!0}),I(Qs)!=="svelte-wv1fb9"&&(Qs.innerHTML=bt),Be=J(l),ks=j(l,"P",{"data-svelte-h":!0}),I(ks)!=="svelte-lbodi4"&&(ks.innerHTML=Ct),Xe=J(l),fl.l(l),pe=J(l),Zs=j(l,"P",{"data-svelte-h":!0}),I(Zs)!=="svelte-77upt7"&&(Zs.textContent=ht),Ve=J(l),m(gs.$$.fragment,l),Ee=J(l),Cl.l(l),Me=J(l),$s=j(l,"P",{"data-svelte-h":!0}),I($s)!=="svelte-18sx3mk"&&($s.textContent=_t),We=J(l),X&&X.l(l),Je=J(l),m(ps.$$.fragment,l),ze=J(l),Gs=j(l,"P",{"data-svelte-h":!0}),I(Gs)!=="svelte-1y2ahhd"&&(Gs.textContent=Qt),xe=J(l),m(Rs.$$.fragment,l),Ne=J(l),Bs=j(l,"P",{"data-svelte-h":!0}),I(Bs)!=="svelte-22u5y6"&&(Bs.textContent=kt),Ae=J(l),Xs=j(l,"P",{"data-svelte-h":!0}),I(Xs)!=="svelte-4jtag1"&&(Xs.textContent=Zt),ve=J(l),m(Vs.$$.fragment,l),Fe=J(l),_l.l(l),re=J(l),m(Ms.$$.fragment,l),Ye=J(l),m(Js.$$.fragment,l),He=J(l),m(Es.$$.fragment,l),Se=J(l),Ws=j(l,"P",{"data-svelte-h":!0}),I(Ws)!=="svelte-1xq48jy"&&(Ws.innerHTML=gt),De=J(l),kl.l(l),Ue=J(l),zs=j(l,"P",{"data-svelte-h":!0}),I(zs)!=="svelte-140jves"&&(zs.textContent=$t),qe=J(l),m(xs.$$.fragment,l),Le=J(l),m(Ns.$$.fragment,l),Ke=J(l),As=j(l,"P",{"data-svelte-h":!0}),I(As)!=="svelte-1i6otkh"&&(As.innerHTML=Gt),Pe=J(l),m(vs.$$.fragment,l),Oe=J(l),m(Fs.$$.fragment,l),lt=J(l),Ys=j(l,"P",{"data-svelte-h":!0}),I(Ys)!=="svelte-1q925zu"&&(Ys.innerHTML=Rt),st=J(l),m(Hs.$$.fragment,l),et=J(l),m(Ss.$$.fragment,l),tt=J(l),Ds=j(l,"P",{"data-svelte-h":!0}),I(Ds)!=="svelte-1qzs7qz"&&(Ds.innerHTML=Bt),at=J(l),m(qs.$$.fragment,l),nt=J(l),m(Ls.$$.fragment,l),pt=J(l),as.l(l),ye=J(l),V&&V.l(l),ce=J(l),m(Ks.$$.fragment,l),Mt=J(l),be=j(l,"P",{}),mt(be).forEach(e),this.h()},h(){Xl(t,"name","hf:doc:metadata"),Xl(t,"content",Wa),na(R.src,Te="https://course-demos-codeparrot-ds.hf.space")||Xl(R,"src",Te),Xl(R,"frameborder","0"),Xl(R,"height","300"),Xl(R,"title","Gradio app"),Xl(R,"class","block dark:hidden container p-0 flex-grow space-iframe"),Xl(R,"allow","accelerometer; ambient-light-sensor; autoplay; battery; camera; document-domain; encrypted-media; fullscreen; geolocation; gyroscope; layout-animations; legacy-image-formats; magnetometer; microphone; midi; oversized-images; payment; picture-in-picture; publickey-credentials-get; sync-xhr; usb; vr ; wake-lock; xr-spatial-tracking"),Xl(R,"sandbox","allow-forms allow-modals allow-popups allow-popups-to-escape-sandbox allow-same-origin allow-scripts allow-downloads"),Xl(z,"class","flex justify-center")},m(l,p){Ua(document.head,t),a(l,r,p),a(l,n,p),a(l,c,p),o(_,l,p),a(l,f,p),o(g,l,p),a(l,Z,p),Ps[k].m(l,p),a(l,b,p),a(l,$,p),a(l,E,p),a(l,B,p),a(l,G,p),o(N,l,p),a(l,Vl,p),a(l,A,p),a(l,El,p),a(l,R,p),a(l,Wl,p),a(l,v,p),a(l,zl,p),o(F,l,p),a(l,xl,p),a(l,Y,p),a(l,Nl,p),a(l,H,p),a(l,Ml,p),o(Zl,l,p),a(l,Al,p),a(l,S,p),a(l,Jl,p),o(gl,l,p),a(l,vl,p),o(D,l,p),a(l,Fl,p),a(l,q,p),a(l,Yl,p),o(L,l,p),a(l,Hl,p),a(l,K,p),a(l,Sl,p),o(P,l,p),a(l,Dl,p),o(O,l,p),a(l,ql,p),a(l,ll,p),a(l,Ll,p),a(l,sl,p),a(l,rl,p),o($l,l,p),a(l,Kl,p),o(el,l,p),a(l,Pl,p),o(W,l,p),a(l,Ol,p),a(l,tl,p),a(l,ls,p),o(al,l,p),a(l,ss,p),o(nl,l,p),a(l,Ts,p),a(l,Ul,p),a(l,ms,p),o(yl,l,p),a(l,cl,p),o(wl,l,p),a(l,il,p),a(l,Tl,p),a(l,os,p),a(l,ml,p),a(l,es,p),a(l,z,p),a(l,ts,p),a(l,pl,p),a(l,ol,p),o(ul,l,p),a(l,s,p),o(w,l,p),a(l,Ce,p),a(l,ds,p),a(l,he,p),a(l,js,p),a(l,_e,p),o(Is,l,p),a(l,Qe,p),o(fs,l,p),a(l,ke,p),a(l,bs,p),a(l,Ze,p),a(l,Cs,p),a(l,ge,p),o(ns,l,p),a(l,$e,p),o(hs,l,p),a(l,Ge,p),a(l,_s,p),a(l,Re,p),Os[dl].m(l,p),a(l,ne,p),a(l,Qs,p),a(l,Be,p),a(l,ks,p),a(l,Xe,p),le[Il].m(l,p),a(l,pe,p),a(l,Zs,p),a(l,Ve,p),o(gs,l,p),a(l,Ee,p),se[bl].m(l,p),a(l,Me,p),a(l,$s,p),a(l,We,p),X&&X.m(l,p),a(l,Je,p),o(ps,l,p),a(l,ze,p),a(l,Gs,p),a(l,xe,p),o(Rs,l,p),a(l,Ne,p),a(l,Bs,p),a(l,Ae,p),a(l,Xs,p),a(l,ve,p),o(Vs,l,p),a(l,Fe,p),ee[hl].m(l,p),a(l,re,p),o(Ms,l,p),a(l,Ye,p),o(Js,l,p),a(l,He,p),o(Es,l,p),a(l,Se,p),a(l,Ws,p),a(l,De,p),te[Ql].m(l,p),a(l,Ue,p),a(l,zs,p),a(l,qe,p),o(xs,l,p),a(l,Le,p),o(Ns,l,p),a(l,Ke,p),a(l,As,p),a(l,Pe,p),o(vs,l,p),a(l,Oe,p),o(Fs,l,p),a(l,lt,p),a(l,Ys,p),a(l,st,p),o(Hs,l,p),a(l,et,p),o(Ss,l,p),a(l,tt,p),a(l,Ds,p),a(l,at,p),o(qs,l,p),a(l,nt,p),o(Ls,l,p),a(l,pt,p),as.m(l,p),a(l,ye,p),V&&V.m(l,p),a(l,ce,p),o(Ks,l,p),a(l,Mt,p),a(l,be,p),Jt=!0},p(l,[p]){const Dt={};p&1&&(Dt.fw=l[0]),_.$set(Dt);let Ut=k;k=Vt(l),k!==Ut&&(Us(),y(Ps[Ut],1,1,()=>{Ps[Ut]=null}),rs(),i=Ps[k],i||(i=Ps[k]=Xt[k](l),i.c()),U(i,1),i.m(b.parentNode,b));const qt={};p&2&&(qt.$$scope={dirty:p,ctx:l}),W.$set(qt);const Lt={};p&2&&(Lt.$$scope={dirty:p,ctx:l}),ns.$set(Lt);let yt=dl;dl=Wt(l),dl!==yt&&(Us(),y(Os[yt],1,1,()=>{Os[yt]=null}),rs(),jl=Os[dl],jl||(jl=Os[dl]=Et[dl](l),jl.c()),U(jl,1),jl.m(ne.parentNode,ne));let ct=Il;Il=xt(l),Il!==ct&&(Us(),y(le[ct],1,1,()=>{le[ct]=null}),rs(),fl=le[Il],fl||(fl=le[Il]=zt[Il](l),fl.c()),U(fl,1),fl.m(pe.parentNode,pe));let wt=bl;bl=At(l),bl!==wt&&(Us(),y(se[wt],1,1,()=>{se[wt]=null}),rs(),Cl=se[bl],Cl||(Cl=se[bl]=Nt[bl](l),Cl.c()),U(Cl,1),Cl.m(Me.parentNode,Me)),l[0]==="tf"?X?p&1&&U(X,1):(X=sa(),X.c(),U(X,1),X.m(Je.parentNode,Je)):X&&(Us(),y(X,1,1,()=>{X=null}),rs());const Kt={};p&2&&(Kt.$$scope={dirty:p,ctx:l}),ps.$set(Kt);let it=hl;hl=Ft(l),hl!==it&&(Us(),y(ee[it],1,1,()=>{ee[it]=null}),rs(),_l=ee[hl],_l||(_l=ee[hl]=vt[hl](l),_l.c()),U(_l,1),_l.m(re.parentNode,re));const Pt={};p&2&&(Pt.$$scope={dirty:p,ctx:l}),Ms.$set(Pt);const Ot={};p&3&&(Ot.$$scope={dirty:p,ctx:l}),Js.$set(Ot);let Tt=Ql;Ql=Ht(l),Ql!==Tt&&(Us(),y(te[Tt],1,1,()=>{te[Tt]=null}),rs(),kl=te[Ql],kl||(kl=te[Ql]=Yt[Ql](l),kl.c()),U(kl,1),kl.m(Ue.parentNode,Ue)),rt!==(rt=St(l))&&(as.d(1),as=rt(l),as&&(as.c(),as.m(ye.parentNode,ye))),l[0]==="pt"?V?p&1&&U(V,1):(V=ea(l),V.c(),U(V,1),V.m(ce.parentNode,ce)):V&&(Us(),y(V,1,1,()=>{V=null}),rs())},i(l){Jt||(U(_.$$.fragment,l),U(g.$$.fragment,l),U(i),U(N.$$.fragment,l),U(F.$$.fragment,l),U(Zl.$$.fragment,l),U(gl.$$.fragment,l),U(D.$$.fragment,l),U(L.$$.fragment,l),U(P.$$.fragment,l),U(O.$$.fragment,l),U($l.$$.fragment,l),U(el.$$.fragment,l),U(W.$$.fragment,l),U(al.$$.fragment,l),U(nl.$$.fragment,l),U(yl.$$.fragment,l),U(wl.$$.fragment,l),U(ul.$$.fragment,l),U(w.$$.fragment,l),U(Is.$$.fragment,l),U(fs.$$.fragment,l),U(ns.$$.fragment,l),U(hs.$$.fragment,l),U(jl),U(fl),U(gs.$$.fragment,l),U(Cl),U(X),U(ps.$$.fragment,l),U(Rs.$$.fragment,l),U(Vs.$$.fragment,l),U(_l),U(Ms.$$.fragment,l),U(Js.$$.fragment,l),U(Es.$$.fragment,l),U(kl),U(xs.$$.fragment,l),U(Ns.$$.fragment,l),U(vs.$$.fragment,l),U(Fs.$$.fragment,l),U(Hs.$$.fragment,l),U(Ss.$$.fragment,l),U(qs.$$.fragment,l),U(Ls.$$.fragment,l),U(V),U(Ks.$$.fragment,l),Jt=!0)},o(l){y(_.$$.fragment,l),y(g.$$.fragment,l),y(i),y(N.$$.fragment,l),y(F.$$.fragment,l),y(Zl.$$.fragment,l),y(gl.$$.fragment,l),y(D.$$.fragment,l),y(L.$$.fragment,l),y(P.$$.fragment,l),y(O.$$.fragment,l),y($l.$$.fragment,l),y(el.$$.fragment,l),y(W.$$.fragment,l),y(al.$$.fragment,l),y(nl.$$.fragment,l),y(yl.$$.fragment,l),y(wl.$$.fragment,l),y(ul.$$.fragment,l),y(w.$$.fragment,l),y(Is.$$.fragment,l),y(fs.$$.fragment,l),y(ns.$$.fragment,l),y(hs.$$.fragment,l),y(jl),y(fl),y(gs.$$.fragment,l),y(Cl),y(X),y(ps.$$.fragment,l),y(Rs.$$.fragment,l),y(Vs.$$.fragment,l),y(_l),y(Ms.$$.fragment,l),y(Js.$$.fragment,l),y(Es.$$.fragment,l),y(kl),y(xs.$$.fragment,l),y(Ns.$$.fragment,l),y(vs.$$.fragment,l),y(Fs.$$.fragment,l),y(Hs.$$.fragment,l),y(Ss.$$.fragment,l),y(qs.$$.fragment,l),y(Ls.$$.fragment,l),y(V),y(Ks.$$.fragment,l),Jt=!1},d(l){l&&(e(r),e(n),e(c),e(f),e(Z),e(b),e($),e(E),e(B),e(G),e(Vl),e(A),e(El),e(R),e(Wl),e(v),e(zl),e(xl),e(Y),e(Nl),e(H),e(Ml),e(Al),e(S),e(Jl),e(vl),e(Fl),e(q),e(Yl),e(Hl),e(K),e(Sl),e(Dl),e(ql),e(ll),e(Ll),e(sl),e(rl),e(Kl),e(Pl),e(Ol),e(tl),e(ls),e(ss),e(Ts),e(Ul),e(ms),e(cl),e(il),e(Tl),e(os),e(ml),e(es),e(z),e(ts),e(pl),e(ol),e(s),e(Ce),e(ds),e(he),e(js),e(_e),e(Qe),e(ke),e(bs),e(Ze),e(Cs),e(ge),e($e),e(Ge),e(_s),e(Re),e(ne),e(Qs),e(Be),e(ks),e(Xe),e(pe),e(Zs),e(Ve),e(Ee),e(Me),e($s),e(We),e(Je),e(ze),e(Gs),e(xe),e(Ne),e(Bs),e(Ae),e(Xs),e(ve),e(Fe),e(re),e(Ye),e(He),e(Se),e(Ws),e(De),e(Ue),e(zs),e(qe),e(Le),e(Ke),e(As),e(Pe),e(Oe),e(lt),e(Ys),e(st),e(et),e(tt),e(Ds),e(at),e(nt),e(pt),e(ye),e(ce),e(Mt),e(be)),e(t),u(_,l),u(g,l),Ps[k].d(l),u(N,l),u(F,l),u(Zl,l),u(gl,l),u(D,l),u(L,l),u(P,l),u(O,l),u($l,l),u(el,l),u(W,l),u(al,l),u(nl,l),u(yl,l),u(wl,l),u(ul,l),u(w,l),u(Is,l),u(fs,l),u(ns,l),u(hs,l),Os[dl].d(l),le[Il].d(l),u(gs,l),se[bl].d(l),X&&X.d(l),u(ps,l),u(Rs,l),u(Vs,l),ee[hl].d(l),u(Ms,l),u(Js,l),u(Es,l),te[Ql].d(l),u(xs,l),u(Ns,l),u(vs,l),u(Fs,l),u(Hs,l),u(Ss,l),u(qs,l),u(Ls,l),as.d(l),V&&V.d(l),u(Ks,l)}}}const Wa='{"title":"Обучение каузальной языковой модели с нуля","local":"training-a-causal-language-model-from-scratch","sections":[{"title":"Сбор данных","local":"gathering-the-data","sections":[],"depth":2},{"title":"Подготовка датасета","local":"preparing-the-dataset","sections":[],"depth":2},{"title":"Инициализация новой модели","local":"initializing-a-new-model","sections":[],"depth":2},{"title":"Генерация кода с помощью конвейера","local":"code-generation-with-a-pipeline","sections":[],"depth":2},{"title":"Обучение с 🤗 Accelerate","local":"training-with-accelerate","sections":[],"depth":2}],"depth":1}';function za(h,t,r){let n="pt";return pa(()=>{const c=new URLSearchParams(window.location.search);r(0,n=c.get("fw")||"pt")}),[n]}class Da extends Ma{constructor(t){super(),Ja(this,t,za,Ea,aa,{})}}export{Da as component};

Xet Storage Details

Size:
140 kB
·
Xet hash:
44df24e1ccc3f45a3a8e82e789994b367a687ac77de9b803da50d7c5c6668057

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.