Buckets:

rtrm's picture
download
raw
234 kB
<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;ဘာသာပြန်ခြင်း&quot;,&quot;local&quot;:&quot;translation&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;ဒေတာများကို ပြင်ဆင်ခြင်း&quot;,&quot;local&quot;:&quot;preparing-the-data&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;KDE4 Dataset&quot;,&quot;local&quot;:&quot;the-kde4-dataset&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;ဒေတာများကို စီမံဆောင်ရွက်ခြင်း&quot;,&quot;local&quot;:&quot;processing-the-data&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Trainer API ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;fine-tuning-the-model-with-the-trainer-api&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Keras ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;fine-tuning-the-model-with-keras&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Data Collation&quot;,&quot;local&quot;:&quot;data-collation&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Metrics&quot;,&quot;local&quot;:&quot;metrics&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို Fine-tuning လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;fine-tuning-the-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Custom Training Loop တစ်ခု&quot;,&quot;local&quot;:&quot;a-custom-training-loop&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Training အတွက် အားလုံးကို ပြင်ဆင်ခြင်း&quot;,&quot;local&quot;:&quot;preparing-everything-for-training&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Training Loop&quot;,&quot;local&quot;:&quot;training-loop&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Fine-tuned Model ကို အသုံးပြုခြင်း&quot;,&quot;local&quot;:&quot;using-the-fine-tuned-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2},{&quot;title&quot;:&quot;ဝေါဟာရ ရှင်းလင်းချက် (Glossary)&quot;,&quot;local&quot;:&quot;ဝဟရ-ရငလငခက-glossary&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}">
<link href="/docs/course/pr_1095/my/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/scheduler.893fe8c9.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/singletons.ba455c5c.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.bce52c8a.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/paths.9a7be869.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/preload-helper.b5ee8f74.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.b1df2166.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/0.77c840e7.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/each.e59479a4.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/80.29cd0553.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/Tip.385bb05f.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.e6d31e72.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/Youtube.ec5d7916.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CodeBlock.abb4f40e.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CourseFloatingBanner.c1c08878.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/FrameworkSwitchCourse.4480e339.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;ဘာသာပြန်ခြင်း&quot;,&quot;local&quot;:&quot;translation&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;ဒေတာများကို ပြင်ဆင်ခြင်း&quot;,&quot;local&quot;:&quot;preparing-the-data&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;KDE4 Dataset&quot;,&quot;local&quot;:&quot;the-kde4-dataset&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;ဒေတာများကို စီမံဆောင်ရွက်ခြင်း&quot;,&quot;local&quot;:&quot;processing-the-data&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Trainer API ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;fine-tuning-the-model-with-the-trainer-api&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Keras ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;fine-tuning-the-model-with-keras&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Data Collation&quot;,&quot;local&quot;:&quot;data-collation&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Metrics&quot;,&quot;local&quot;:&quot;metrics&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို Fine-tuning လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;fine-tuning-the-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Custom Training Loop တစ်ခု&quot;,&quot;local&quot;:&quot;a-custom-training-loop&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Training အတွက် အားလုံးကို ပြင်ဆင်ခြင်း&quot;,&quot;local&quot;:&quot;preparing-everything-for-training&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Training Loop&quot;,&quot;local&quot;:&quot;training-loop&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Fine-tuned Model ကို အသုံးပြုခြင်း&quot;,&quot;local&quot;:&quot;using-the-fine-tuned-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2},{&quot;title&quot;:&quot;ဝေါဟာရ ရှင်းလင်းချက် (Glossary)&quot;,&quot;local&quot;:&quot;ဝဟရ-ရငလငခက-glossary&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="bg-white leading-none border border-gray-100 rounded-lg flex p-0.5 w-56 text-sm mb-4"><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-l bg-red-50 dark:bg-transparent text-red-600" href="?fw=pt"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><defs><clipPath id="a"><rect x="3.05" y="0.5" width="25.73" height="31" fill="none"></rect></clipPath></defs><g clip-path="url(#a)"><path d="M24.94,9.51a12.81,12.81,0,0,1,0,18.16,12.68,12.68,0,0,1-18,0,12.81,12.81,0,0,1,0-18.16l9-9V5l-.84.83-6,6a9.58,9.58,0,1,0,13.55,0ZM20.44,9a1.68,1.68,0,1,1,1.67-1.67A1.68,1.68,0,0,1,20.44,9Z" fill="#ee4c2c"></path></g></svg> Pytorch </a><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-r text-gray-500 filter grayscale" href="?fw=tf"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="0.94em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 274"><path d="M145.726 42.065v42.07l72.861 42.07v-42.07l-72.86-42.07zM0 84.135v42.07l36.43 21.03V105.17L0 84.135zm109.291 21.035l-36.43 21.034v126.2l36.43 21.035v-84.135l36.435 21.035v-42.07l-36.435-21.034V105.17z" fill="#E55B2D"></path><path d="M145.726 42.065L36.43 105.17v42.065l72.861-42.065v42.065l36.435-21.03v-84.14zM255.022 63.1l-36.435 21.035v42.07l36.435-21.035V63.1zm-72.865 84.135l-36.43 21.035v42.07l36.43-21.036v-42.07zm-36.43 63.104l-36.436-21.035v84.135l36.435-21.035V210.34z" fill="#ED8E24"></path><path d="M145.726 0L0 84.135l36.43 21.035l109.296-63.105l72.861 42.07L255.022 63.1L145.726 0zm0 126.204l-36.435 21.03l36.435 21.036l36.43-21.035l-36.43-21.03z" fill="#F8BF3C"></path></svg> TensorFlow </a></div> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 max-sm:gap-0.5 h-6 max-sm:h-5 px-2 max-sm:px-1.5 text-[11px] max-sm:text-[9px] font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0"><svg class="w-3 h-3 max-sm:w-2.5 max-sm:h-2.5" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-6 max-sm:h-5 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible w-3 h-3 max-sm:w-2.5 max-sm:h-2.5 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="translation" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#translation"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဘာသာပြန်ခြင်း</span></h1> <div class="flex space-x-1 absolute z-10 right-0 top-0" style=""><a href="https://discuss.huggingface.co/t/chapter-7-questions" target="_blank"><img alt="Ask a Question" class="!m-0" src="https://img.shields.io/badge/Ask%20a%20question-ffcb4c.svg?logo=data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHZpZXdCb3g9IjAgLTEgMTA0IDEwNiI+PGRlZnM+PHN0eWxlPi5jbHMtMXtmaWxsOiMyMzFmMjA7fS5jbHMtMntmaWxsOiNmZmY5YWU7fS5jbHMtM3tmaWxsOiMwMGFlZWY7fS5jbHMtNHtmaWxsOiMwMGE5NGY7fS5jbHMtNXtmaWxsOiNmMTVkMjI7fS5jbHMtNntmaWxsOiNlMzFiMjM7fTwvc3R5bGU+PC9kZWZzPjx0aXRsZT5EaXNjb3Vyc2VfbG9nbzwvdGl0bGU+PGcgaWQ9IkxheWVyXzIiPjxnIGlkPSJMYXllcl8zIj48cGF0aCBjbGFzcz0iY2xzLTEiIGQ9Ik01MS44NywwQzIzLjcxLDAsMCwyMi44MywwLDUxYzAsLjkxLDAsNTIuODEsMCw1Mi44MWw1MS44Ni0uMDVjMjguMTYsMCw1MS0yMy43MSw1MS01MS44N1M4MCwwLDUxLjg3LDBaIi8+PHBhdGggY2xhc3M9ImNscy0yIiBkPSJNNTIuMzcsMTkuNzRBMzEuNjIsMzEuNjIsMCwwLDAsMjQuNTgsNjYuNDFsLTUuNzIsMTguNEwzOS40LDgwLjE3YTMxLjYxLDMxLjYxLDAsMSwwLDEzLTYwLjQzWiIvPjxwYXRoIGNsYXNzPSJjbHMtMyIgZD0iTTc3LjQ1LDMyLjEyYTMxLjYsMzEuNiwwLDAsMS0zOC4wNSw0OEwxOC44Niw4NC44MmwyMC45MS0yLjQ3QTMxLjYsMzEuNiwwLDAsMCw3Ny40NSwzMi4xMloiLz48cGF0aCBjbGFzcz0iY2xzLTQiIGQ9Ik03MS42MywyNi4yOUEzMS42LDMxLjYsMCwwLDEsMzguOCw3OEwxOC44Niw4NC44MiwzOS40LDgwLjE3QTMxLjYsMzEuNiwwLDAsMCw3MS42MywyNi4yOVoiLz48cGF0aCBjbGFzcz0iY2xzLTUiIGQ9Ik0yNi40Nyw2Ny4xMWEzMS42MSwzMS42MSwwLDAsMSw1MS0zNUEzMS42MSwzMS42MSwwLDAsMCwyNC41OCw2Ni40MWwtNS43MiwxOC40WiIvPjxwYXRoIGNsYXNzPSJjbHMtNiIgZD0iTTI0LjU4LDY2LjQxQTMxLjYxLDMxLjYxLDAsMCwxLDcxLjYzLDI2LjI5YTMxLjYxLDMxLjYxLDAsMCwwLTQ5LDM5LjYzbC0zLjc2LDE4LjlaIi8+PC9nPjwvZz48L3N2Zz4="></a> <a href="https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter7/section4_pt.ipynb" target="_blank"><img alt="Open In Colab" class="!m-0" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter7/section4_pt.ipynb" target="_blank"><img alt="Open In Studio Lab" class="!m-0" src="https://studiolab.sagemaker.aws/studiolab.svg"></a></div> <p data-svelte-h="svelte-n35978">အခု ဘာသာပြန်ခြင်းထဲကို နက်နက်နဲနဲ လေ့လာကြည့်ရအောင်။ ဒါက နောက်ထပ် <a href="/course/chapter1/7">sequence-to-sequence task</a> တစ်ခုဖြစ်ပြီး၊ ဒါဟာ sequence တစ်ခုကနေ နောက်တစ်ခုကို သွားတဲ့ ပြဿနာတစ်ခုအဖြစ် ဖော်စပ်နိုင်ပါတယ်။ ဒီသဘောအရ ပြဿနာက <a href="/course/chapter7/6">summarization</a> နဲ့ အတော်လေး နီးစပ်ပြီး၊ ဒီနေရာမှာ ကျွန်တော်တို့ တွေ့ရမယ့်အရာတွေကို အခြား sequence-to-sequence problem တွေအတွက် လိုက်လျောညီထွေ ပြုပြင်နိုင်ပါတယ်၊ ဥပမာ…</p> <ul data-svelte-h="svelte-15f045h"><li><strong>Style transfer</strong>: သတ်မှတ်ထားတဲ့ style နဲ့ ရေးသားထားတဲ့ texts တွေကို တခြား style (ဥပမာ - formal ကနေ casual ဒါမှမဟုတ် Shakespearean English ကနေ modern English) ကို <em>ဘာသာပြန်</em> ပေးမယ့် model တစ်ခုကို ဖန်တီးခြင်း။</li> <li><strong>Generative question answering</strong>: context တစ်ခုပေးထားပြီး မေးခွန်းတွေအတွက် အဖြေတွေကို ထုတ်ပေးမယ့် model တစ်ခုကို ဖန်တီးခြင်း။</li></ul> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/1JvfrvZgi6c" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-wbcq29">သင့်မှာ ဘာသာစကားနှစ်ခု (သို့မဟုတ် ထို့ထက်ပိုသော) ဖြင့် ကြီးမားသော texts corpus တစ်ခုရှိတယ်ဆိုရင်၊ <a href="/course/chapter7/6">causal language modeling</a> အပိုင်းမှာ ကျွန်တော်တို့ လုပ်ဆောင်မှာလိုပဲ translation model အသစ်တစ်ခုကို အစကနေ train လုပ်နိုင်ပါတယ်။ သို့သော်လည်း၊ ရှိပြီးသား translation model တစ်ခုကို fine-tune လုပ်တာက ပိုမြန်ပါလိမ့်မယ်။ ဥပမာ - သင်ဟာ သီးခြား language pair တစ်ခုအတွက် fine-tune လုပ်ချင်တဲ့ mT5 ဒါမှမဟုတ် mBART လို multilingual model တစ်ခု၊ ဒါမှမဟုတ် သင့်ရဲ့ သီးခြား corpus အတွက် fine-tune လုပ်ချင်တဲ့ ဘာသာစကားတစ်ခုကနေ တခြားဘာသာစကားတစ်ခုကို ဘာသာပြန်ဖို့အတွက် အထူးပြု model တစ်ခု ဖြစ်နိုင်ပါတယ်။</p> <p data-svelte-h="svelte-fe0p3p">ဒီအပိုင်းမှာ၊ <a href="https://huggingface.co/datasets/kde4" rel="nofollow">KDE4 dataset</a> ပေါ်မှာ English ကနေ French ကို ဘာသာပြန်ဖို့ pretrained လုပ်ထားတဲ့ Marian model တစ်ခုကို fine-tune လုပ်ပါမယ် (Hugging Face ဝန်ထမ်းအများစုက ဘာသာစကားနှစ်ခုလုံးကို ပြောတတ်လို့ပါ)။ KDE4 dataset ဟာ <a href="https://apps.kde.org/" rel="nofollow">KDE apps</a> အတွက် localized files တွေရဲ့ dataset တစ်ခုပါ။ ကျွန်တော်တို့ အသုံးပြုမယ့် model ကို <a href="https://opus.nlpl.eu/" rel="nofollow">Opus dataset</a> ကနေ ယူထားတဲ့ French နဲ့ English texts ကြီးမားတဲ့ corpus တစ်ခုပေါ်မှာ pretrained လုပ်ခဲ့တာဖြစ်ပြီး၊ အဲဒီ Opus dataset ထဲမှာ KDE4 dataset ပါဝင်ပါတယ်။ ဒါပေမယ့် ကျွန်တော်တို့ အသုံးပြုမယ့် pretrained model က ၎င်းရဲ့ pretraining အတွင်းမှာ အဲဒီ data တွေကို တွေ့မြင်ခဲ့ရဖူးရင်တောင်မှ၊ fine-tuning လုပ်ပြီးနောက်မှာ ပိုကောင်းတဲ့ version တစ်ခုကို ရရှိနိုင်တယ်ဆိုတာ ကျွန်တော်တို့ တွေ့မြင်ရပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-vo2i4q">ကျွန်တော်တို့ ပြီးစီးသွားတာနဲ့၊ ဒီလိုမျိုး predictions တွေ လုပ်ဆောင်နိုင်တဲ့ model တစ်ခု ရရှိပါလိမ့်မယ်။</p> <iframe src="https://course-demos-marian-finetuned-kde4-en-to-fr.hf.space" frameborder="0" height="350" title="Gradio app" class="block dark:hidden container p-0 flex-grow space-iframe" allow="accelerometer; ambient-light-sensor; autoplay; battery; camera; document-domain; encrypted-media; fullscreen; geolocation; gyroscope; layout-animations; legacy-image-formats; magnetometer; microphone; midi; oversized-images; payment; picture-in-picture; publickey-credentials-get; sync-xhr; usb; vr ; wake-lock; xr-spatial-tracking" sandbox="allow-forms allow-modals allow-popups allow-popups-to-escape-sandbox allow-same-origin allow-scripts allow-downloads"></iframe> <a class="flex justify-center" href="/huggingface-course/marian-finetuned-kde4-en-to-fr" data-svelte-h="svelte-1ifl6xg"><img class="block dark:hidden lg:w-3/5" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter7/modeleval-marian-finetuned-kde4-en-to-fr.png" alt="One-hot encoded labels for question answering."> <img class="hidden dark:block lg:w-3/5" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter7/modeleval-marian-finetuned-kde4-en-to-fr-dark.png" alt="One-hot encoded labels for question answering."></a> <p data-svelte-h="svelte-g790rj">ယခင်အပိုင်းတွေမှာလိုပဲ၊ အောက်ပါ code ကို အသုံးပြုပြီး ကျွန်တော်တို့ train လုပ်ပြီး Hub ကို upload လုပ်မယ့် model ကို <a href="https://huggingface.co/huggingface-course/marian-finetuned-kde4-en-to-fr?text=This+plugin+allows+you+to+automatically+translate+web+pages+between+several+languages." rel="nofollow">ဒီနေရာမှာ</a> double-check လုပ်နိုင်ပါတယ်။</p> <h2 class="relative group"><a id="preparing-the-data" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#preparing-the-data"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဒေတာများကို ပြင်ဆင်ခြင်း</span></h2> <p data-svelte-h="svelte-1hecdzs">translation model တစ်ခုကို အစကနေ fine-tune လုပ်ဖို့ ဒါမှမဟုတ် train လုပ်ဖို့အတွက်၊ task နဲ့ သင့်လျော်တဲ့ dataset တစ်ခု ကျွန်တော်တို့ လိုအပ်ပါလိမ့်မယ်။ အရင်က ပြောခဲ့သလိုပဲ၊ ဒီအပိုင်းမှာ <a href="https://huggingface.co/datasets/kde4" rel="nofollow">KDE4 dataset</a> ကို ကျွန်တော်တို့ အသုံးပြုပါမယ်။ ဒါပေမယ့် သင့်ရဲ့ ကိုယ်ပိုင် data ကို အသုံးပြုဖို့ code ကို အလွယ်တကူ ပြုပြင်ပြောင်းလဲနိုင်ပါတယ်၊ သင်ဘာသာပြန်လိုသော ဘာသာစကားနှစ်ခု (source and target) မှာ စာကြောင်းအတွဲများ ရှိသမျှကာလပတ်လုံးပေါ့။ သင့်ရဲ့ custom data ကို <code>Dataset</code> ထဲမှာ ဘယ်လို load လုပ်ရမလဲဆိုတာ မှတ်မိဖို့ လိုအပ်ရင် <a href="/course/chapter5">Chapter 5</a> ကို ပြန်ကြည့်နိုင်ပါတယ်။</p> <h3 class="relative group"><a id="the-kde4-dataset" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#the-kde4-dataset"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>KDE4 Dataset</span></h3> <p data-svelte-h="svelte-1fonfk">ပုံမှန်အတိုင်းပါပဲ၊ ကျွန်တော်တို့ရဲ့ dataset ကို <code>load_dataset()</code> function အသုံးပြုပြီး download လုပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
raw_datasets = load_dataset(<span class="hljs-string">&quot;kde4&quot;</span>, lang1=<span class="hljs-string">&quot;en&quot;</span>, lang2=<span class="hljs-string">&quot;fr&quot;</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-bigjpz">သင်ဟာ မတူညီတဲ့ language pair တစ်ခုနဲ့ အလုပ်လုပ်ချင်တယ်ဆိုရင်၊ ၎င်းတို့ရဲ့ codes တွေနဲ့ သတ်မှတ်နိုင်ပါတယ်။ ဒီ dataset အတွက် ဘာသာစကား ၉၂ မျိုး ရရှိနိုင်ပါတယ်။ ၎င်းတို့အားလုံးကို ၎င်းရဲ့ <a href="https://huggingface.co/datasets/kde4" rel="nofollow">dataset card</a> ပေါ်ရှိ language tags များကို ချဲ့ထွင်ကြည့်ရှုခြင်းဖြင့် မြင်နိုင်ပါတယ်။</p> <img src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter7/language_tags.png" alt="Language available for the KDE4 dataset." width="100%"> <p data-svelte-h="svelte-1bcxoku">dataset ကို ကြည့်ရအောင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->raw_datasets<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;id&#x27;</span>, <span class="hljs-string">&#x27;translation&#x27;</span>],
num_rows: <span class="hljs-number">210173</span>
})
})<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-rdobpi">ကျွန်တော်တို့မှာ စာကြောင်းအတွဲပေါင်း ၂၁၀,၁၇၃ ခုရှိပေမယ့်၊ split တစ်ခုတည်းမှာပဲ ရှိနေတာကြောင့် ကိုယ်ပိုင် validation set တစ်ခု ဖန်တီးဖို့ လိုအပ်ပါလိမ့်မယ်။ <a href="/course/chapter5">Chapter 5</a> မှာ ကျွန်တော်တို့ တွေ့ခဲ့ရတဲ့အတိုင်း၊ <code>Dataset</code> မှာ ကျွန်တော်တို့ကို ကူညီပေးနိုင်တဲ့ <code>train_test_split()</code> method တစ်ခု ရှိပါတယ်။ reproducibility အတွက် seed တစ်ခု ပေးပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->split_datasets = raw_datasets[<span class="hljs-string">&quot;train&quot;</span>].train_test_split(train_size=<span class="hljs-number">0.9</span>, seed=<span class="hljs-number">20</span>)
split_datasets<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->DatasetDict({
train: Dataset({
features: [<span class="hljs-string">&#x27;id&#x27;</span>, <span class="hljs-string">&#x27;translation&#x27;</span>],
num_rows: <span class="hljs-number">189155</span>
})
test: Dataset({
features: [<span class="hljs-string">&#x27;id&#x27;</span>, <span class="hljs-string">&#x27;translation&#x27;</span>],
num_rows: <span class="hljs-number">21018</span>
})
})<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1y974j1"><code>&quot;test&quot;</code> key ကို <code>&quot;validation&quot;</code> အဖြစ် ဒီလို ပြန်လည်နာမည်ပြောင်းနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->split_datasets[<span class="hljs-string">&quot;validation&quot;</span>] = split_datasets.pop(<span class="hljs-string">&quot;test&quot;</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1tcoscg">အခု dataset ရဲ့ element တစ်ခုကို ကြည့်ရအောင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->split_datasets[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">1</span>][<span class="hljs-string">&quot;translation&quot;</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;en&#x27;</span>: <span class="hljs-string">&#x27;Default to expanded threads&#x27;</span>,
<span class="hljs-string">&#x27;fr&#x27;</span>: <span class="hljs-string">&#x27;Par défaut, développer les fils de discussion&#x27;</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-135pbpn">ကျွန်တော်တို့ တောင်းဆိုခဲ့တဲ့ ဘာသာစကားနှစ်ခုတွဲထဲမှာ စာကြောင်းနှစ်ကြောင်းပါတဲ့ dictionary တစ်ခု ရရှိပါတယ်။ ဒီ dataset ရဲ့ ထူးခြားချက်တစ်ခုကတော့ နည်းပညာဆိုင်ရာ computer science ဝေါဟာရတွေ အပြည့်အစုံကို French ဘာသာနဲ့ ဘာသာပြန်ထားတာပါပဲ။ သို့သော်လည်း၊ French အင်ဂျင်နီယာတွေက စကားပြောတဲ့အခါ computer science-specific words တွေကို English နဲ့ပဲ ထားလေ့ရှိပါတယ်။ ဒီနေရာမှာ ဥပမာအားဖြင့်၊ “threads” ဆိုတဲ့ စကားလုံးက French စာကြောင်းမှာ ပေါ်လာနိုင်ပါတယ်၊ အထူးသဖြင့် နည်းပညာဆိုင်ရာ စကားပြောဆိုမှုတွေမှာပေါ့။ ဒါပေမယ့် ဒီ dataset မှာတော့ “fils de discussion” လို့ ပိုမှန်ကန်တဲ့ စကားလုံးနဲ့ ဘာသာပြန်ထားပါတယ်။ ကျွန်တော်တို့ အသုံးပြုမယ့် pretrained model က French နဲ့ English စာကြောင်းများစွာပါဝင်တဲ့ ပိုကြီးမားတဲ့ corpus တစ်ခုပေါ်မှာ pretrained လုပ်ထားတာဖြစ်ပြီး၊ စကားလုံးကို မူရင်းအတိုင်းထားခဲ့ခြင်းက ပိုလွယ်ကူတဲ့ ရွေးချယ်မှုတစ်ခုကို ရယူပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> pipeline
model_checkpoint = <span class="hljs-string">&quot;Helsinki-NLP/opus-mt-en-fr&quot;</span>
translator = pipeline(<span class="hljs-string">&quot;translation&quot;</span>, model=model_checkpoint)
translator(<span class="hljs-string">&quot;Default to expanded threads&quot;</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[{<span class="hljs-string">&#x27;translation_text&#x27;</span>: <span class="hljs-string">&#x27;Par défaut pour les threads élargis&#x27;</span>}]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1q758yu">ဒီအပြုအမူရဲ့ နောက်ထပ်ဥပမာတစ်ခုကို “plugin” ဆိုတဲ့ စကားလုံးနဲ့ မြင်နိုင်ပါတယ်။ ဒါက တရားဝင် French စကားလုံး မဟုတ်ပေမယ့်၊ native speakers အများစုက နားလည်ပြီး ဘာသာပြန်ဖို့ စိတ်မပူပါဘူး။
KDE4 dataset မှာ ဒီစကားလုံးကို French ဘာသာနဲ့ ပိုမိုတရားဝင်တဲ့ “module d’extension” လို့ ဘာသာပြန်ထားပါတယ်-</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->split_datasets[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">172</span>][<span class="hljs-string">&quot;translation&quot;</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;en&#x27;</span>: <span class="hljs-string">&#x27;Unable to import %1 using the OFX importer plugin. This file is not the correct format.&#x27;</span>,
<span class="hljs-string">&#x27;fr&#x27;</span>: <span class="hljs-string">&quot;Impossible d&#x27;importer %1 en utilisant le module d&#x27;extension d&#x27;importation OFX. Ce fichier n&#x27;a pas un format correct.&quot;</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-3p060x">သို့သော်လည်း၊ ကျွန်တော်တို့ရဲ့ pretrained model ကတော့ ကျစ်လျစ်ပြီး ရင်းနှီးပြီးသား English စကားလုံးကိုပဲ ဆုပ်ကိုင်ထားပါတယ်-</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->translator(
<span class="hljs-string">&quot;Unable to import %1 using the OFX importer plugin. This file is not the correct format.&quot;</span>
)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[{<span class="hljs-string">&#x27;translation_text&#x27;</span>: <span class="hljs-string">&quot;Impossible d&#x27;importer %1 en utilisant le plugin d&#x27;importateur OFX. Ce fichier n&#x27;est pas le bon format.&quot;</span>}]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-ude2ta">ကျွန်တော်တို့ရဲ့ fine-tuned model က dataset ရဲ့ ဒီထူးခြားချက်တွေကို လက်ခံမလားဆိုတာ ကြည့်ရတာ စိတ်ဝင်စားစရာ ကောင်းပါလိမ့်မယ် (spoiler alert: လက်ခံပါလိမ့်မယ်)။</p> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/0Oxphw4Q9fo" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <blockquote class="tip" data-svelte-h="svelte-m4pgyv"><p>✏️ <strong>သင့်အလှည့်!</strong> French မှာ မကြာခဏ အသုံးပြုတဲ့ နောက်ထပ် English စကားလုံးတစ်လုံးက “email” ဖြစ်ပါတယ်။ training dataset မှာ ဒီစကားလုံးကို အသုံးပြုထားတဲ့ ပထမဆုံး sample ကို ရှာပါ။ ဘယ်လို ဘာသာပြန်ထားလဲ။ pretrained model က အဲဒီ English စာကြောင်းကို ဘယ်လို ဘာသာပြန်လဲ။</p></blockquote> <h3 class="relative group"><a id="processing-the-data" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#processing-the-data"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဒေတာများကို စီမံဆောင်ရွက်ခြင်း</span></h3> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/XAR8jnZZuUs" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-1l5rmaj">အခုဆိုရင် သင်ဟာ လုပ်ဆောင်ရမယ့် အဆင့်တွေကို သိပြီးဖြစ်ပါလိမ့်မယ်- texts တွေအားလုံးကို token IDs အစုအဝေးအဖြစ် ပြောင်းလဲဖို့ လိုအပ်ပါတယ်။ ဒါမှ model က ၎င်းတို့ကို နားလည်နိုင်မှာပါ။ ဒီ task အတွက်၊ inputs နဲ့ targets နှစ်ခုလုံးကို tokenize လုပ်ဖို့ လိုအပ်ပါလိမ့်မယ်။ ကျွန်တော်တို့ရဲ့ ပထမဆုံး task ကတော့ <code>tokenizer</code> object ကို ဖန်တီးဖို့ပါပဲ။ အရင်က ဖော်ပြခဲ့တဲ့အတိုင်း၊ Marian English to French pretrained model ကို ကျွန်တော်တို့ အသုံးပြုပါမယ်။ သင်ဟာ ဒီ code ကို အခြား language pair တစ်ခုနဲ့ စမ်းသပ်နေတယ်ဆိုရင်၊ model checkpoint ကို သေချာလိုက်လျောညီထွေ ပြုပြင်ပါ။ <a href="https://huggingface.co/Helsinki-NLP" rel="nofollow">Helsinki-NLP</a> organization က multiple languages နဲ့ models ပေါင်း တစ်ထောင်ကျော်ကို ပံ့ပိုးပေးပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer
model_checkpoint = <span class="hljs-string">&quot;Helsinki-NLP/opus-mt-en-fr&quot;</span>
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, return_tensors=<span class="hljs-string">&quot;pt&quot;</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-tjskkg">သင်ဟာ <code>model_checkpoint</code> ကို <a href="https://huggingface.co/models" rel="nofollow">Hub</a> က သင်နှစ်သက်တဲ့ model တစ်ခုခု ဒါမှမဟုတ် pretrained model နဲ့ tokenizer တစ်ခုကို သိမ်းဆည်းထားတဲ့ local folder တစ်ခုနဲ့လည်း အစားထိုးနိုင်ပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-oyiqeg"><p>💡 သင်ဟာ mBART, mBART-50, ဒါမှမဟုတ် M2M100 လို multilingual tokenizer တစ်ခုကို အသုံးပြုနေတယ်ဆိုရင်၊ <code>tokenizer.src_lang</code> နဲ့ <code>tokenizer.tgt_lang</code> တို့ကို မှန်ကန်တဲ့ တန်ဖိုးတွေနဲ့ သတ်မှတ်ခြင်းဖြင့် သင့် inputs နဲ့ targets တွေရဲ့ language codes တွေကို tokenizer မှာ သတ်မှတ်ဖို့ လိုပါလိမ့်မယ်။</p></blockquote> <p data-svelte-h="svelte-4oa2nv">ကျွန်တော်တို့ရဲ့ data ကို ပြင်ဆင်တာက အလွန်ရိုးရှင်းပါတယ်။ မှတ်သားစရာ တစ်ခုတည်းသော အရာကတော့၊ tokenizer က output language (ဒီနေရာမှာ French) မှာရှိတဲ့ targets တွေကို စီမံဆောင်ရွက်တယ်ဆိုတာကို သေချာစေဖို့ လိုအပ်ပါတယ်။ ဒါကို tokenizer ရဲ့ <code>__call__</code> method ရဲ့ <code>text_targets</code> argument ကို targets တွေ ပေးခြင်းဖြင့် လုပ်ဆောင်နိုင်ပါတယ်။</p> <p data-svelte-h="svelte-14v5dbl">ဒါက ဘယ်လိုအလုပ်လုပ်တယ်ဆိုတာ ကြည့်ဖို့၊ training set ထဲက ဘာသာစကားတစ်ခုစီရဲ့ sample တစ်ခုကို စီမံဆောင်ရွက်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->en_sentence = split_datasets[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">1</span>][<span class="hljs-string">&quot;translation&quot;</span>][<span class="hljs-string">&quot;en&quot;</span>]
fr_sentence = split_datasets[<span class="hljs-string">&quot;train&quot;</span>][<span class="hljs-number">1</span>][<span class="hljs-string">&quot;translation&quot;</span>][<span class="hljs-string">&quot;fr&quot;</span>]
inputs = tokenizer(en_sentence, text_target=fr_sentence)
inputs<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;input_ids&#x27;</span>: [<span class="hljs-number">47591</span>, <span class="hljs-number">12</span>, <span class="hljs-number">9842</span>, <span class="hljs-number">19634</span>, <span class="hljs-number">9</span>, <span class="hljs-number">0</span>], <span class="hljs-string">&#x27;attention_mask&#x27;</span>: [<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>], <span class="hljs-string">&#x27;labels&#x27;</span>: [<span class="hljs-number">577</span>, <span class="hljs-number">5891</span>, <span class="hljs-number">2</span>, <span class="hljs-number">3184</span>, <span class="hljs-number">16</span>, <span class="hljs-number">2542</span>, <span class="hljs-number">5</span>, <span class="hljs-number">1710</span>, <span class="hljs-number">0</span>]}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1rmatr">ကျွန်တော်တို့ မြင်ရတဲ့အတိုင်း၊ output မှာ English စာကြောင်းနဲ့ ဆက်စပ်နေတဲ့ input IDs တွေ ပါဝင်နေပြီး၊ French စာကြောင်းနဲ့ ဆက်စပ်နေတဲ့ IDs တွေကတော့ <code>labels</code> field ထဲမှာ သိမ်းဆည်းထားပါတယ်။ သင် labels တွေကို tokenize လုပ်နေတယ်ဆိုတာကို ဖော်ပြဖို့ မေ့သွားရင်၊ ၎င်းတို့ကို input tokenizer က tokenize လုပ်ပါလိမ့်မယ်။ Marian model ရဲ့ ကိစ္စမှာတော့ ဒါက လုံးဝအဆင်ပြေမှာ မဟုတ်ပါဘူး။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->wrong_targets = tokenizer(fr_sentence)
<span class="hljs-built_in">print</span>(tokenizer.convert_ids_to_tokens(wrong_targets[<span class="hljs-string">&quot;input_ids&quot;</span>]))
<span class="hljs-built_in">print</span>(tokenizer.convert_ids_to_tokens(inputs[<span class="hljs-string">&quot;labels&quot;</span>]))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[<span class="hljs-string">&#x27; Par&#x27;</span>, <span class="hljs-string">&#x27;&#x27;</span>, <span class="hljs-string">&#x27;f&#x27;</span>, <span class="hljs-string">&#x27;aut&#x27;</span>, <span class="hljs-string">&#x27;,&#x27;</span>, <span class="hljs-string">&#x27;&#x27;</span>, <span class="hljs-string">&#x27;ve&#x27;</span>, <span class="hljs-string">&#x27;lop&#x27;</span>, <span class="hljs-string">&#x27;per&#x27;</span>, <span class="hljs-string">&#x27; les&#x27;</span>, <span class="hljs-string">&#x27; fil&#x27;</span>, <span class="hljs-string">&#x27;s&#x27;</span>, <span class="hljs-string">&#x27; de&#x27;</span>, <span class="hljs-string">&#x27; discussion&#x27;</span>, <span class="hljs-string">&#x27;&lt;/s&gt;&#x27;</span>]
[<span class="hljs-string">&#x27; Par&#x27;</span>, <span class="hljs-string">&#x27; défaut&#x27;</span>, <span class="hljs-string">&#x27;,&#x27;</span>, <span class="hljs-string">&#x27; développer&#x27;</span>, <span class="hljs-string">&#x27; les&#x27;</span>, <span class="hljs-string">&#x27; fils&#x27;</span>, <span class="hljs-string">&#x27; de&#x27;</span>, <span class="hljs-string">&#x27; discussion&#x27;</span>, <span class="hljs-string">&#x27;&lt;/s&gt;&#x27;</span>]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1t6x1yq">ကျွန်တော်တို့ မြင်ရတဲ့အတိုင်း၊ French စာကြောင်းတစ်ခုကို preprocess လုပ်ဖို့ English tokenizer ကို အသုံးပြုခြင်းက tokens ပိုများစွာကို ရရှိစေပါတယ်။ ဘာလို့လဲဆိုတော့ tokenizer က French စကားလုံးတွေကို (English ဘာသာစကားမှာလည်း ပါဝင်တဲ့ “discussion” လို စကားလုံးတွေကလွဲလို့) မသိလို့ပါပဲ။</p> <p data-svelte-h="svelte-w6skfj"><code>inputs</code> က ကျွန်တော်တို့ရဲ့ ပုံမှန် keys တွေ (input IDs, attention mask စသည်) ပါဝင်တဲ့ dictionary တစ်ခုဖြစ်တဲ့အတွက်၊ နောက်ဆုံးအဆင့်ကတော့ datasets တွေပေါ်မှာ ကျွန်တော်တို့ အသုံးပြုမယ့် preprocessing function ကို သတ်မှတ်ဖို့ပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->max_length = <span class="hljs-number">128</span>
<span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_function</span>(<span class="hljs-params">examples</span>):
inputs = [ex[<span class="hljs-string">&quot;en&quot;</span>] <span class="hljs-keyword">for</span> ex <span class="hljs-keyword">in</span> examples[<span class="hljs-string">&quot;translation&quot;</span>]]
targets = [ex[<span class="hljs-string">&quot;fr&quot;</span>] <span class="hljs-keyword">for</span> ex <span class="hljs-keyword">in</span> examples[<span class="hljs-string">&quot;translation&quot;</span>]]
model_inputs = tokenizer(
inputs, text_target=targets, max_length=max_length, truncation=<span class="hljs-literal">True</span>
)
<span class="hljs-keyword">return</span> model_inputs<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1uogc1g">ကျွန်တော်တို့ inputs နဲ့ outputs တွေအတွက် maximum length တူတူကို သတ်မှတ်ထားတာကို သတိပြုပါ။ ကျွန်တော်တို့ ကိုင်တွယ်နေတဲ့ texts တွေက အတော်လေး တိုတောင်းပုံရတာကြောင့်၊ ၁၂၈ ကို အသုံးပြုပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-14heyod"><p>💡 သင်ဟာ T5 model (အထူးသဖြင့် <code>t5-xxx</code> checkpoints များထဲမှ တစ်ခု) ကို အသုံးပြုနေတယ်ဆိုရင်၊ model က input texts တွေမှာ <code>translate: English to French:</code> လိုမျိုး task ကို ဖော်ပြတဲ့ prefix တစ်ခု ပါဝင်ဖို့ မျှော်လင့်ပါလိမ့်မယ်။</p></blockquote> <blockquote class="warning" data-svelte-h="svelte-1yjckeh"><p>⚠️ ကျွန်တော်တို့ targets တွေရဲ့ attention mask ကို ဂရုမစိုက်ပါဘူး၊ ဘာလို့လဲဆိုတော့ model က အဲဒါကို မျှော်လင့်မှာ မဟုတ်လို့ပါ။ အဲဒီအစား၊ padding token နဲ့ ကိုက်ညီတဲ့ labels တွေကို <code>-100</code> အဖြစ် သတ်မှတ်ထားသင့်ပါတယ်။ ဒါမှ loss computation မှာ ၎င်းတို့ကို လျစ်လျူရှုနိုင်မှာပါ။ ဒါကို နောက်ပိုင်းမှာ ကျွန်တော်တို့ရဲ့ data collator က လုပ်ဆောင်ပေးပါလိမ့်မယ်။ ဘာလို့လဲဆိုတော့ ကျွန်တော်တို့ dynamic padding ကို အသုံးပြုနေလို့ပါ၊ ဒါပေမယ့် သင်ဒီနေရာမှာ padding ကို အသုံးပြုတယ်ဆိုရင်၊ padding token နဲ့ ကိုက်ညီတဲ့ labels အားလုံးကို <code>-100</code> အဖြစ် သတ်မှတ်ဖို့ preprocessing function ကို ပြင်ဆင်သင့်ပါတယ်။</p></blockquote> <p data-svelte-h="svelte-1i5dsrj">အခုဆိုရင် ကျွန်တော်တို့ အဲဒီ preprocessing ကို dataset ရဲ့ splits အားလုံးပေါ်မှာ တစ်ခါတည်း အသုံးပြုနိုင်ပါပြီ-</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->tokenized_datasets = split_datasets.<span class="hljs-built_in">map</span>(
preprocess_function,
batched=<span class="hljs-literal">True</span>,
remove_columns=split_datasets[<span class="hljs-string">&quot;train&quot;</span>].column_names,
)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1yr4cph">data ကို preprocess လုပ်ပြီးတာနဲ့၊ ကျွန်တော်တို့ရဲ့ pretrained model ကို fine-tune လုပ်ဖို့ အဆင်သင့်ပါပဲ!</p> <h2 class="relative group"><a id="fine-tuning-the-model-with-the-trainer-api" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#fine-tuning-the-model-with-the-trainer-api"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Trainer API ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း</span></h2> <p data-svelte-h="svelte-1swwuwq"><code>Trainer</code> ကို အသုံးပြုတဲ့ code အမှန်တကယ်က အရင်ကနဲ့ တူတူပဲ ဖြစ်ပါလိမ့်မယ်၊ သေးငယ်တဲ့ ပြောင်းလဲမှုတစ်ခုပဲ ရှိပါမယ်- ဒီနေရာမှာ <code>Seq2SeqTrainer</code> (<a href="https://huggingface.co/transformers/main_classes/trainer.html#seq2seqtrainer" rel="nofollow"><code>Seq2SeqTrainer</code></a>) ကို ကျွန်တော်တို့ အသုံးပြုပါတယ်။ ဒါက <code>Trainer</code> ရဲ့ subclass တစ်ခုဖြစ်ပြီး၊ inputs တွေကနေ outputs တွေကို predict လုပ်ဖို့ <code>generate()</code> method ကို အသုံးပြုပြီး evaluation ကို မှန်ကန်စွာ ကိုင်တွယ်နိုင်စေပါလိမ့်မယ်။ metrics computation အကြောင်း ပြောတဲ့အခါ ဒါကို ပိုပြီး အသေးစိတ်လေ့လာပါမယ်။</p> <p data-svelte-h="svelte-1hliqt8">ပထမဆုံးအနေနဲ့၊ fine-tune လုပ်ဖို့အတွက် အမှန်တကယ် model တစ်ခု လိုအပ်ပါတယ်။ ပုံမှန် <code>AutoModel</code> API ကို ကျွန်တော်တို့ အသုံးပြုပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoModelForSeq2SeqLM
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-jeof4z">ဒီတစ်ခါ ကျွန်တော်တို့ translation task ပေါ်မှာ train လုပ်ထားပြီးသား model တစ်ခုကို အသုံးပြုနေတာဖြစ်ပြီး အမှန်တကယ် အသုံးပြုနိုင်နေပြီဆိုတာကို သတိပြုပါ။ ဒါကြောင့် weights တွေ ပျောက်ဆုံးနေတာ ဒါမှမဟုတ် အသစ် initialized လုပ်ထားတဲ့ weights တွေအကြောင်း warning မရှိပါဘူး။</p> <h3 class="relative group"><a id="data-collation" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#data-collation"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Data Collation</span></h3> <p data-svelte-h="svelte-1i30ods">dynamic batching အတွက် padding ကို ကိုင်တွယ်ဖို့ data collator တစ်ခု ကျွန်တော်တို့ လိုအပ်ပါလိမ့်မယ်။ <a href="/course/chapter3">Chapter 3</a> မှာလိုမျိုး <code>DataCollatorWithPadding</code> ကို ဒီကိစ္စမှာ အသုံးပြုလို့ မရပါဘူး၊ ဘာလို့လဲဆိုတော့ အဲဒါက inputs တွေကို (input IDs, attention mask, token type IDs) ပဲ padding လုပ်ပေးလို့ပါ။ ကျွန်တော်တို့ရဲ့ labels တွေကိုလည်း labels တွေမှာ တွေ့ရတဲ့ maximum length အထိ padding လုပ်သင့်ပါတယ်။ ပြီးတော့၊ အရင်က ပြောခဲ့သလိုပဲ၊ labels တွေကို padding လုပ်ဖို့ အသုံးပြုတဲ့ padding value ကို <code>-100</code> အဖြစ် သတ်မှတ်သင့်ပါတယ်။ ဒါမှ အဲဒီ padded values တွေကို loss computation မှာ လျစ်လျူရှုနိုင်မှာပါ။</p> <p data-svelte-h="svelte-3mdc4i">ဒါတွေအားလုံးကို <a href="https://huggingface.co/transformers/main_classes/data_collator.html#datacollatorforseq2seq" rel="nofollow"><code>DataCollatorForSeq2Seq</code></a> က လုပ်ဆောင်ပေးပါတယ်။ <code>DataCollatorWithPadding</code> လိုပဲ၊ ဒါက inputs တွေကို preprocess လုပ်ဖို့ အသုံးပြုတဲ့ <code>tokenizer</code> ကို ယူပါတယ်၊ ဒါပေမယ့် <code>model</code> ကိုလည်း ယူပါတယ်။ ဒါက ဘာလို့လဲဆိုတော့ ဒီ data collator က decoder input IDs တွေကို ပြင်ဆင်ပေးဖို့လည်း တာဝန်ရှိမှာပါ။ ဒါတွေက အစမှာ special token တစ်ခုနဲ့ labels တွေရဲ့ shift လုပ်ထားတဲ့ version တွေပါ။ ဒီ shift က မတူညီတဲ့ architectures တွေအတွက် အနည်းငယ်ကွာခြားစွာ လုပ်ဆောင်တာကြောင့်၊ <code>DataCollatorForSeq2Seq</code> က <code>model</code> object ကို သိဖို့ လိုအပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> DataCollatorForSeq2Seq
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1t7c2hn">samples အနည်းငယ်ပေါ်မှာ ဒါကို စမ်းသပ်ကြည့်ဖို့၊ ကျွန်တော်တို့ရဲ့ tokenized training set က ဥပမာတွေ စာရင်းတစ်ခုပေါ်မှာ ဒါကို ခေါ်လိုက်ရုံပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->batch = data_collator([tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>][i] <span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">1</span>, <span class="hljs-number">3</span>)])
batch.keys()<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->dict_keys([<span class="hljs-string">&#x27;attention_mask&#x27;</span>, <span class="hljs-string">&#x27;input_ids&#x27;</span>, <span class="hljs-string">&#x27;labels&#x27;</span>, <span class="hljs-string">&#x27;decoder_input_ids&#x27;</span>])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-16chsye">ကျွန်တော်တို့ရဲ့ labels တွေကို batch ရဲ့ maximum length အထိ <code>-100</code> ကို အသုံးပြုပြီး padding လုပ်ထားခြင်းရှိမရှိ စစ်ဆေးနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->batch[<span class="hljs-string">&quot;labels&quot;</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->tensor([[ <span class="hljs-number">577</span>, <span class="hljs-number">5891</span>, <span class="hljs-number">2</span>, <span class="hljs-number">3184</span>, <span class="hljs-number">16</span>, <span class="hljs-number">2542</span>, <span class="hljs-number">5</span>, <span class="hljs-number">1710</span>, <span class="hljs-number">0</span>, -<span class="hljs-number">100</span>,
-<span class="hljs-number">100</span>, -<span class="hljs-number">100</span>, -<span class="hljs-number">100</span>, -<span class="hljs-number">100</span>, -<span class="hljs-number">100</span>, -<span class="hljs-number">100</span>],
[ <span class="hljs-number">1211</span>, <span class="hljs-number">3</span>, <span class="hljs-number">49</span>, <span class="hljs-number">9409</span>, <span class="hljs-number">1211</span>, <span class="hljs-number">3</span>, <span class="hljs-number">29140</span>, <span class="hljs-number">817</span>, <span class="hljs-number">3124</span>, <span class="hljs-number">817</span>,
<span class="hljs-number">550</span>, <span class="hljs-number">7032</span>, <span class="hljs-number">5821</span>, <span class="hljs-number">7907</span>, <span class="hljs-number">12649</span>, <span class="hljs-number">0</span>]])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1u001x4">ပြီးတော့ decoder input IDs တွေကိုလည်း ကြည့်နိုင်ပါတယ်၊ ဒါတွေက labels တွေရဲ့ shifted versions တွေဆိုတာကို မြင်နိုင်ပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->batch[<span class="hljs-string">&quot;decoder_input_ids&quot;</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->tensor([[<span class="hljs-number">59513</span>, <span class="hljs-number">577</span>, <span class="hljs-number">5891</span>, <span class="hljs-number">2</span>, <span class="hljs-number">3184</span>, <span class="hljs-number">16</span>, <span class="hljs-number">2542</span>, <span class="hljs-number">5</span>, <span class="hljs-number">1710</span>, <span class="hljs-number">0</span>,
<span class="hljs-number">59513</span>, <span class="hljs-number">59513</span>, <span class="hljs-number">59513</span>, <span class="hljs-number">59513</span>, <span class="hljs-number">59513</span>, <span class="hljs-number">59513</span>],
[<span class="hljs-number">59513</span>, <span class="hljs-number">1211</span>, <span class="hljs-number">3</span>, <span class="hljs-number">49</span>, <span class="hljs-number">9409</span>, <span class="hljs-number">1211</span>, <span class="hljs-number">3</span>, <span class="hljs-number">29140</span>, <span class="hljs-number">817</span>, <span class="hljs-number">3124</span>,
<span class="hljs-number">817</span>, <span class="hljs-number">550</span>, <span class="hljs-number">7032</span>, <span class="hljs-number">5821</span>, <span class="hljs-number">7907</span>, <span class="hljs-number">12649</span>]])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-z9ydtc">ဒီနေရာမှာ ကျွန်တော်တို့ရဲ့ dataset ထဲက ပထမဆုံးနဲ့ ဒုတိယမြောက် elements တွေအတွက် labels တွေပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">1</span>, <span class="hljs-number">3</span>):
<span class="hljs-built_in">print</span>(tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>][i][<span class="hljs-string">&quot;labels&quot;</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[<span class="hljs-number">577</span>, <span class="hljs-number">5891</span>, <span class="hljs-number">2</span>, <span class="hljs-number">3184</span>, <span class="hljs-number">16</span>, <span class="hljs-number">2542</span>, <span class="hljs-number">5</span>, <span class="hljs-number">1710</span>, <span class="hljs-number">0</span>]
[<span class="hljs-number">1211</span>, <span class="hljs-number">3</span>, <span class="hljs-number">49</span>, <span class="hljs-number">9409</span>, <span class="hljs-number">1211</span>, <span class="hljs-number">3</span>, <span class="hljs-number">29140</span>, <span class="hljs-number">817</span>, <span class="hljs-number">3124</span>, <span class="hljs-number">817</span>, <span class="hljs-number">550</span>, <span class="hljs-number">7032</span>, <span class="hljs-number">5821</span>, <span class="hljs-number">7907</span>, <span class="hljs-number">12649</span>, <span class="hljs-number">0</span>]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-eoeult">ကျွန်တော်တို့ ဒီ <code>data_collator</code> ကို <code>Seq2SeqTrainer</code> ဆီ ပေးပါမယ်။ နောက်တစ်ဆင့်အနေနဲ့ metric ကို ကြည့်ရအောင်။</p> <h3 class="relative group"><a id="metrics" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#metrics"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Metrics</span></h3> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/M05L1DhFqcw" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-qscn94"><code>Seq2SeqTrainer</code> က ၎င်းရဲ့ superclass <code>Trainer</code> ကို ထပ်ထည့်ပေးတဲ့ feature ကတော့ evaluation ဒါမှမဟုတ် prediction လုပ်နေစဉ်အတွင်း <code>generate()</code> method ကို အသုံးပြုနိုင်ခြင်းပါပဲ။ training လုပ်နေစဉ်အတွင်း model က <code>decoder_input_ids</code> ကို အာရုံစိုက်မှု mask တစ်ခုနဲ့ အသုံးပြုပါလိမ့်မယ်။ ဒါက model က ခန့်မှန်းဖို့ ကြိုးစားနေတဲ့ token နောက်က tokens တွေကို မသုံးမိအောင် သေချာစေပြီး training ကို မြန်ဆန်စေပါတယ်။ inference လုပ်နေစဉ်အတွင်းမှာတော့ ကျွန်တော်တို့ labels တွေ မရှိတော့တဲ့အတွက် ဒါတွေကို အသုံးပြုနိုင်မှာ မဟုတ်ပါဘူး။ ဒါကြောင့် ကျွန်တော်တို့ရဲ့ model ကို ဒီ setup တူတူနဲ့ evaluate လုပ်တာက ကောင်းမွန်တဲ့ အကြံဥာဏ်တစ်ခုပါပဲ။</p> <p data-svelte-h="svelte-1m2v6qx"><a href="/course/chapter1/6">Chapter 1</a> မှာ ကျွန်တော်တို့ တွေ့ခဲ့ရတဲ့အတိုင်း၊ decoder က tokens တွေကို တစ်ခုပြီးတစ်ခု ခန့်မှန်းခြင်းဖြင့် inference ကို လုပ်ဆောင်ပါတယ် — ဒါက 🤗 Transformers မှာ <code>generate()</code> method ကနေ နောက်ကွယ်မှာ အကောင်အထည်ဖော်ထားတာပါ။ ကျွန်တော်တို့ <code>predict_with_generate=True</code> လို့ သတ်မှတ်ထားရင် <code>Seq2SeqTrainer</code> က အဲဒီ method ကို evaluation အတွက် အသုံးပြုနိုင်စေပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-popqy3">ဘာသာပြန်ခြင်းအတွက် အသုံးပြုတဲ့ ရိုးရာ metric ကတော့ <a href="https://en.wikipedia.org/wiki/BLEU" rel="nofollow">BLEU score</a> ဖြစ်ပြီး၊ Kishore Papineni et al. ရေးသားခဲ့တဲ့ <a href="https://aclanthology.org/P02-1040.pdf" rel="nofollow">၂၀၀၂ ခုနှစ် ဆောင်းပါး</a> မှာ မိတ်ဆက်ခဲ့တာပါ။ BLEU score က translation တွေဟာ ၎င်းတို့ရဲ့ labels တွေနဲ့ ဘယ်လောက်နီးစပ်သလဲဆိုတာကို အကဲဖြတ်ပါတယ်။ ဒါက model က ထုတ်ပေးတဲ့ outputs တွေရဲ့ နားလည်လွယ်မှု ဒါမှမဟုတ် သဒ္ဒါမှန်ကန်မှုကို တိုင်းတာတာမဟုတ်ပါဘူး၊ ဒါပေမယ့် generated outputs တွေထဲက စကားလုံးအားလုံးဟာ targets တွေမှာလည်း ပေါ်လာတယ်ဆိုတာကို သေချာစေဖို့ statistical rules တွေကို အသုံးပြုပါတယ်။ ဒါ့အပြင်၊ targets တွေမှာလည်း မထပ်တဲ့ စကားလုံးတွေ ထပ်ခါတလဲလဲ ပေါ်လာရင် (model က “the the the the the” လို စာကြောင်းတွေ ထုတ်မပေးအောင်) နဲ့ targets တွေမှာရှိတဲ့ စာကြောင်းတွေထက် ပိုတိုတဲ့ output စာကြောင်းတွေ (model က “the” လို စာကြောင်းတွေ ထုတ်မပေးအောင်) အတွက် အပြစ်ပေးတဲ့ rules တွေလည်း ရှိပါတယ်။</p> <p data-svelte-h="svelte-18bzujz">BLEU ရဲ့ အားနည်းချက်တစ်ခုကတော့ text ကို tokenized လုပ်ပြီးသားဖြစ်ဖို့ မျှော်လင့်ထားတာကြောင့်၊ မတူညီတဲ့ tokenizers တွေ အသုံးပြုတဲ့ models တွေကြား score တွေကို နှိုင်းယှဉ်ဖို့ ခက်ခဲပါတယ်။ ဒါကြောင့်၊ ဒီနေ့ခေတ် translation models တွေကို benchmarking လုပ်ရာမှာ အသုံးအများဆုံး metric က <a href="https://github.com/mjpost/sacrebleu" rel="nofollow">SacreBLEU</a> ဖြစ်ပြီး၊ ဒါက tokenization step ကို standardization လုပ်ခြင်းဖြင့် ဒီအားနည်းချက် (နှင့် အခြားအားနည်းချက်များ) ကို ဖြေရှင်းပေးပါတယ်။ ဒီ metric ကို အသုံးပြုဖို့၊ ပထမဆုံး SacreBLEU library ကို install လုပ်ဖို့ လိုအပ်ပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->!pip install sacrebleu<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1ycff5j">ပြီးရင် <a href="/course/chapter3">Chapter 3</a> မှာ လုပ်ခဲ့သလိုပဲ <code>evaluate.load()</code> မှတစ်ဆင့် load လုပ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> evaluate
metric = evaluate.load(<span class="hljs-string">&quot;sacrebleu&quot;</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-27mvpl">ဒီ metric က texts တွေကို inputs နဲ့ targets အဖြစ် ယူပါလိမ့်မယ်။ ဒါကို လက်ခံနိုင်ဖွယ်ရာ targets များစွာကို လက်ခံနိုင်အောင် ဒီဇိုင်းထုတ်ထားပါတယ်၊ ဘာလို့လဲဆိုတော့ တူညီတဲ့ စာကြောင်းတစ်ခုရဲ့ လက်ခံနိုင်ဖွယ် ဘာသာပြန်များစွာ ရှိတတ်လို့ပါပဲ — ကျွန်တော်တို့ အသုံးပြုနေတဲ့ dataset က တစ်ခုတည်းသာ ပံ့ပိုးပေးပေမယ့်၊ NLP မှာ labels အဖြစ် စာကြောင်းများစွာ ပေးထားတဲ့ datasets တွေကို တွေ့ရတာ မထူးဆန်းပါဘူး။ ဒါကြောင့်၊ predictions တွေက sentences စာရင်းတစ်ခု ဖြစ်သင့်ပြီး၊ references တွေကတော့ sentences စာရင်းများစွာပါဝင်တဲ့ စာရင်းတစ်ခု ဖြစ်သင့်ပါတယ်။</p> <p data-svelte-h="svelte-udot0g">ဥပမာတစ်ခု စမ်းကြည့်ရအောင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->predictions = [
<span class="hljs-string">&quot;This plugin lets you translate web pages between several languages automatically.&quot;</span>
]
references = [
[
<span class="hljs-string">&quot;This plugin allows you to automatically translate web pages between several languages.&quot;</span>
]
]
metric.compute(predictions=predictions, references=references)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;score&#x27;</span>: <span class="hljs-number">46.750469682990165</span>,
<span class="hljs-string">&#x27;counts&#x27;</span>: [<span class="hljs-number">11</span>, <span class="hljs-number">6</span>, <span class="hljs-number">4</span>, <span class="hljs-number">3</span>],
<span class="hljs-string">&#x27;totals&#x27;</span>: [<span class="hljs-number">12</span>, <span class="hljs-number">11</span>, <span class="hljs-number">10</span>, <span class="hljs-number">9</span>],
<span class="hljs-string">&#x27;precisions&#x27;</span>: [<span class="hljs-number">91.67</span>, <span class="hljs-number">54.54</span>, <span class="hljs-number">40.0</span>, <span class="hljs-number">33.33</span>],
<span class="hljs-string">&#x27;bp&#x27;</span>: <span class="hljs-number">0.9200444146293233</span>,
<span class="hljs-string">&#x27;sys_len&#x27;</span>: <span class="hljs-number">12</span>,
<span class="hljs-string">&#x27;ref_len&#x27;</span>: <span class="hljs-number">13</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-l10irj">ဒါက 46.75 ရဲ့ BLEU score ကို ရရှိပြီး၊ ဒါက အတော်လေး ကောင်းမွန်ပါတယ်။ ဥပမာအနေနဲ့၊ <a href="https://arxiv.org/pdf/1706.03762.pdf" rel="nofollow">“Attention Is All You Need” စာတမ်း</a> ထဲက မူရင်း Transformer model က English နဲ့ French ကြား အလားတူ translation task တစ်ခုမှာ 41.8 ရဲ့ BLEU score ကို ရရှိခဲ့ပါတယ်! (individual metrics တွေ (ဥပမာ- <code>counts</code> နဲ့ <code>bp</code>) အကြောင်း အသေးစိတ်အချက်အလက်တွေအတွက် <a href="https://github.com/mjpost/sacrebleu/blob/078c440168c6adc89ba75fe6d63f0d922d42bcfe/sacrebleu/metrics/bleu.py#L74" rel="nofollow">SacreBLEU repository</a> ကို ကြည့်ပါ။) အခြားတစ်ဖက်မှာ၊ translation models တွေကနေ မကြာခဏ ထွက်လာတတ်တဲ့ ဆိုးရွားတဲ့ prediction အမျိုးအစားနှစ်ခု (ထပ်ခါတလဲလဲများစွာ ဒါမှမဟုတ် အလွန်တိုတောင်းခြင်း) နဲ့ စမ်းကြည့်ရင်၊ BLEU scores တွေ အတော်လေး ဆိုးရွားပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->predictions = [<span class="hljs-string">&quot;This This This This&quot;</span>]
references = [
[
<span class="hljs-string">&quot;This plugin allows you to automatically translate web pages between several languages.&quot;</span>
]
]
metric.compute(predictions=predictions, references=references)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;score&#x27;</span>: <span class="hljs-number">1.683602693167689</span>,
<span class="hljs-string">&#x27;counts&#x27;</span>: [<span class="hljs-number">1</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
<span class="hljs-string">&#x27;totals&#x27;</span>: [<span class="hljs-number">4</span>, <span class="hljs-number">3</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>],
<span class="hljs-string">&#x27;precisions&#x27;</span>: [<span class="hljs-number">25.0</span>, <span class="hljs-number">16.67</span>, <span class="hljs-number">12.5</span>, <span class="hljs-number">12.5</span>],
<span class="hljs-string">&#x27;bp&#x27;</span>: <span class="hljs-number">0.10539922456186433</span>,
<span class="hljs-string">&#x27;sys_len&#x27;</span>: <span class="hljs-number">4</span>,
<span class="hljs-string">&#x27;ref_len&#x27;</span>: <span class="hljs-number">13</span>}<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->predictions = [<span class="hljs-string">&quot;This plugin&quot;</span>]
references = [
[
<span class="hljs-string">&quot;This plugin allows you to automatically translate web pages between several languages.&quot;</span>
]
]
metric.compute(predictions=predictions, references=references)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;score&#x27;</span>: <span class="hljs-number">0.0</span>,
<span class="hljs-string">&#x27;counts&#x27;</span>: [<span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
<span class="hljs-string">&#x27;totals&#x27;</span>: [<span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
<span class="hljs-string">&#x27;precisions&#x27;</span>: [<span class="hljs-number">100.0</span>, <span class="hljs-number">100.0</span>, <span class="hljs-number">0.0</span>, <span class="hljs-number">0.0</span>],
<span class="hljs-string">&#x27;bp&#x27;</span>: <span class="hljs-number">0.004086771438464067</span>,
<span class="hljs-string">&#x27;sys_len&#x27;</span>: <span class="hljs-number">2</span>,
<span class="hljs-string">&#x27;ref_len&#x27;</span>: <span class="hljs-number">13</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-qew9n5">score က ၀ ကနေ ၁၀၀ အထိ ရှိနိုင်ပြီး၊ မြင့်လေ ကောင်းလေပါပဲ။</p> <p data-svelte-h="svelte-1gw01nz">model outputs ကနေ metric က အသုံးပြုနိုင်တဲ့ texts တွေ ရယူဖို့၊ ကျွန်တော်တို့ <code>tokenizer.batch_decode()</code> method ကို အသုံးပြုပါမယ်။ labels တွေထဲက <code>-100</code> တွေအားလုံးကို ရှင်းလင်းဖို့ပဲ လိုအပ်ပါတယ် (tokenizer က padding token အတွက်လည်း အလိုအလျောက် လုပ်ပေးပါလိမ့်မယ်)။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> numpy <span class="hljs-keyword">as</span> np
<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">eval_preds</span>):
preds, labels = eval_preds
<span class="hljs-comment"># In case the model returns more than the prediction logits</span>
<span class="hljs-keyword">if</span> <span class="hljs-built_in">isinstance</span>(preds, <span class="hljs-built_in">tuple</span>):
preds = preds[<span class="hljs-number">0</span>]
decoded_preds = tokenizer.batch_decode(preds, skip_special_tokens=<span class="hljs-literal">True</span>)
<span class="hljs-comment"># Replace -100s in the labels as we can&#x27;t decode them</span>
labels = np.where(labels != -<span class="hljs-number">100</span>, labels, tokenizer.pad_token_id)
decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=<span class="hljs-literal">True</span>)
<span class="hljs-comment"># Some simple post-processing</span>
decoded_preds = [pred.strip() <span class="hljs-keyword">for</span> pred <span class="hljs-keyword">in</span> decoded_preds]
decoded_labels = [[label.strip()] <span class="hljs-keyword">for</span> label <span class="hljs-keyword">in</span> decoded_labels]
result = metric.compute(predictions=decoded_preds, references=decoded_labels)
<span class="hljs-keyword">return</span> {<span class="hljs-string">&quot;bleu&quot;</span>: result[<span class="hljs-string">&quot;score&quot;</span>]}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-rd9sb6">အခု ဒါပြီးသွားတာနဲ့၊ ကျွန်တော်တို့ရဲ့ model ကို fine-tune လုပ်ဖို့ အဆင်သင့်ပါပဲ!</p> <h3 class="relative group"><a id="fine-tuning-the-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#fine-tuning-the-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Model ကို Fine-tuning လုပ်ခြင်း</span></h3> <p data-svelte-h="svelte-1yce2oy">ပထမဆုံးအဆင့်က Hugging Face ကို log in ဝင်ဖို့ပါပဲ။ ဒါမှ သင်ရဲ့ ရလဒ်တွေကို Model Hub ကို upload လုပ်နိုင်ပါလိမ့်မယ်။ notebook မှာ ဒါကို ကူညီပေးမယ့် convenience function တစ်ခုရှိပါတယ်-</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> huggingface_hub <span class="hljs-keyword">import</span> notebook_login
notebook_login()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-117mnd5">ဒါက သင့်ရဲ့ Hugging Face login credentials တွေကို ထည့်သွင်းနိုင်မယ့် widget တစ်ခုကို ပြသပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-cjgph0">သင် notebook မှာ အလုပ်မလုပ်ဘူးဆိုရင်၊ သင့် terminal မှာ အောက်ပါစာကြောင်းကို ရိုက်ထည့်လိုက်ရုံပါပဲ-</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->huggingface-cli login<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-f0y437">=“no”,
save_strategy=“epoch”,
learning_rate=2e-5,
per_device_train_batch_size=32,
per_device_eval_batch_size=64,
weight_decay=0.01,
save_total_limit=3,
num_train_epochs=3,
predict_with_generate=True,
fp16=True,
push_to_hub=True,
)</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->
ပုံမှန် hyperparameters တွေ (learning rate, epochs အရေအတွက်, batch size, weight decay အချို့) ကလွဲလို့၊ ယခင်အပိုင်းတွေမှာ ကျွန်တော်တို့ တွေ့ခဲ့ရတာတွေနဲ့ နှိုင်းယှဉ်ရင် ဒီနေရာမှာ အပြောင်းအလဲအနည်းငယ် ရှိပါတယ်-
- ကျွန်တော်တို့ ပုံမှန် evaluation ကို မသတ်မှတ်ပါဘူး၊ ဘာလို့လဲဆိုတော့ evaluation လုပ်တာက အချိန်အကြာကြီး ယူလို့ပါ။ training မလုပ်ခင်နဲ့ နောက်ပိုင်းမှာ model ကို တစ်ကြိမ်ပဲ evaluate လုပ်ပါမယ်။
- <span class="hljs-string">`fp16=True`</span> ကို ကျွန်တော်တို့ သတ်မှတ်ထားပါတယ်။ ဒါက modern GPUs တွေမှာ training ကို မြန်ဆန်စေပါတယ်။
- အပေါ်မှာ ဆွေးနွေးခဲ့တဲ့အတိုင်း <span class="hljs-string">`predict_with_generate=True`</span> ကို ကျွန်တော်တို့ သတ်မှတ်ထားပါတယ်။
- epoch တစ်ခုစီရဲ့ အဆုံးမှာ model ကို Hub ကို upload လုပ်ဖို့ <span class="hljs-string">`push_to_hub=True`</span> ကို ကျွန်တော်တို့ အသုံးပြုပါတယ်။
သင် <span class="hljs-keyword">push</span> လုပ်ချင်တဲ့ repository ရဲ့ နာမည်အပြည့်အစုံကို <span class="hljs-string">`hub_model_id`</span> argument နဲ့ သတ်မှတ်နိုင်တာကို သတိပြုပါ။ (အထူးသဖြင့်၊ organization တစ်ခုသို့ <span class="hljs-keyword">push</span> လုပ်ဖို့အတွက် ဒီ argument ကို အသုံးပြုရပါလိမ့်မယ်)။ ဥပမာ၊ ကျွန်တော်တို့ model ကို [<span class="hljs-string">`huggingface-course`</span> organization](https:<span class="hljs-regexp">//</span>huggingface.co/huggingface-course) ကို <span class="hljs-keyword">push</span> လုပ်ခဲ့တဲ့အခါ၊ <span class="hljs-string">`hub_model_id=&quot;huggingface-course/marian-finetuned-kde4-en-to-fr&quot;`</span> ကို <span class="hljs-string">`Seq2SeqTrainingArguments`</span> မှာ ထပ်ထည့်ခဲ့ပါတယ်။ default အားဖြင့်၊ အသုံးပြုတဲ့ repository က သင့် namespace မှာ ရှိပြီး သင်သတ်မှတ်ထားတဲ့ output directory ရဲ့ နာမည်ကို ယူပါလိမ့်မယ်။ ဒါကြောင့် ကျွန်တော်တို့ရဲ့ ကိစ္စမှာ <span class="hljs-string">`&quot;sgugger/marian-finetuned-kde4-en-to-fr&quot;`</span> ဖြစ်ပါလိမ့်မယ် (ဒါက ဒီအပိုင်းအစမှာ ကျွန်တော်တို့ ချိတ်ဆက်ခဲ့တဲ့ model ပါပဲ)။
&gt; [!TIP]
&gt; 💡 သင်အသုံးပြုနေတဲ့ output directory က ရှိပြီးသားဆိုရင်၊ ဒါဟာ သင် <span class="hljs-keyword">push</span> လုပ်ချင်တဲ့ repository ရဲ့ <span class="hljs-keyword">local</span> clone တစ်ခု ဖြစ်ဖို့ လိုအပ်ပါတယ်။ မဟုတ်ဘူးဆိုရင်၊ သင် <span class="hljs-string">`Seq2SeqTrainer`</span> ကို သတ်မှတ်တဲ့အခါ error ရပါလိမ့်မယ်။ ပြီးတော့ နာမည်အသစ်တစ်ခု သတ်မှတ်ဖို့ လိုအပ်ပါလိမ့်မယ်။
နောက်ဆုံးအနေနဲ့၊ ကျွန်တော်တို့ အရာအားလုံးကို <span class="hljs-string">`Seq2SeqTrainer`</span> ကို ပေးလိုက်ရုံပါပဲ-
<span class="hljs-string">``</span><span class="hljs-string">`python
from transformers import Seq2SeqTrainer
trainer = Seq2SeqTrainer(
model,
args,
train_dataset=tokenized_datasets[&quot;train&quot;],
eval_dataset=tokenized_datasets[&quot;validation&quot;],
data_collator=data_collator,
tokenizer=tokenizer,
compute_metrics=compute_metrics,
)</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-44xlir">training မလုပ်ခင်၊ ကျွန်တော်တို့ရဲ့ model ရရှိတဲ့ score ကို အရင်ဆုံး ကြည့်ပါမယ်။ ဒါမှ ကျွန်တော်တို့ fine-tuning နဲ့ အခြေအနေကို ပိုဆိုးအောင် မလုပ်မိဘူးဆိုတာ double-check လုပ်နိုင်ပါတယ်။ ဒီ command က အချိန်အနည်းငယ် ကြာပါလိမ့်မယ်၊ ဒါကြောင့် ဒါအလုပ်လုပ်နေစဉ် ကော်ဖီသောက်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.evaluate(max_length=max_length)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;eval_loss&#x27;</span>: <span class="hljs-number">1.6964408159255981</span>,
<span class="hljs-string">&#x27;eval_bleu&#x27;</span>: <span class="hljs-number">39.26865061007616</span>,
<span class="hljs-string">&#x27;eval_runtime&#x27;</span>: <span class="hljs-number">965.8884</span>,
<span class="hljs-string">&#x27;eval_samples_per_second&#x27;</span>: <span class="hljs-number">21.76</span>,
<span class="hljs-string">&#x27;eval_steps_per_second&#x27;</span>: <span class="hljs-number">0.341</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1sypk71">BLEU score 39 က မဆိုးပါဘူး၊ ဒါက ကျွန်တော်တို့ရဲ့ model က English စာကြောင်းတွေကို French စာကြောင်းတွေအဖြစ် ဘာသာပြန်ရာမှာ ကောင်းမွန်နေပြီးသားဆိုတာကို ထင်ဟပ်ပါတယ်။</p> <p data-svelte-h="svelte-45dt7a">နောက်တစ်ဆင့်က training ဖြစ်ပြီး၊ ဒါကလည်း အချိန်အနည်းငယ် ကြာပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.train()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1q1ipq9">training လုပ်နေစဉ်အတွင်း၊ model ကို save လုပ်တဲ့အခါတိုင်း (ဒီနေရာမှာ၊ epoch တိုင်း) ဒါကို Hub ကို နောက်ကွယ်မှာ upload လုပ်ပါတယ်ဆိုတာ သတိပြုပါ။ ဒီနည်းနဲ့၊ လိုအပ်ရင် အခြား machine တစ်ခုပေါ်မှာ သင်ရဲ့ training ကို ပြန်လည်စတင်နိုင်ပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-n0ol4l">training ပြီးတာနဲ့၊ ကျွန်တော်တို့ model ကို ထပ်မံ evaluate လုပ်ပါမယ် — BLEU score မှာ တိုးတက်မှုအချို့ တွေ့ရဖို့ မျှော်လင့်ပါတယ်!</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.evaluate(max_length=max_length)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;eval_loss&#x27;</span>: <span class="hljs-number">0.8558505773544312</span>,
<span class="hljs-string">&#x27;eval_bleu&#x27;</span>: <span class="hljs-number">52.94161337775576</span>,
<span class="hljs-string">&#x27;eval_runtime&#x27;</span>: <span class="hljs-number">714.2576</span>,
<span class="hljs-string">&#x27;eval_samples_per_second&#x27;</span>: <span class="hljs-number">29.426</span>,
<span class="hljs-string">&#x27;eval_steps_per_second&#x27;</span>: <span class="hljs-number">0.461</span>,
<span class="hljs-string">&#x27;epoch&#x27;</span>: <span class="hljs-number">3.0</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1y5roqs">ဒါက ၁၄ မှတ်နီးပါး တိုးတက်လာတာဖြစ်ပြီး၊ ဒါဟာ အကောင်းဆုံးပါပဲ။</p> <p data-svelte-h="svelte-wtmbg8">နောက်ဆုံးအနေနဲ့၊ model ရဲ့ နောက်ဆုံး version ကို upload လုပ်ဖို့ <code>push_to_hub()</code> method ကို အသုံးပြုပါတယ်။ <code>Trainer</code> က evaluation results တွေ အားလုံးပါဝင်တဲ့ model card draft တစ်ခုကိုလည်း ရေးဆွဲပြီး upload လုပ်ပါတယ်။ ဒီ model card မှာ inference demo အတွက် widget ကို ရွေးချယ်ဖို့ Model Hub ကို ကူညီပေးတဲ့ metadata တွေ ပါဝင်ပါတယ်။ ပုံမှန်အားဖြင့်၊ model class ကနေ မှန်ကန်တဲ့ widget ကို ခန့်မှန်းနိုင်တာကြောင့် ဘာမှပြောစရာ မလိုပါဘူး၊ ဒါပေမယ့် ဒီကိစ္စမှာတော့ sequence-to-sequence problem မျိုးစုံအတွက် model class တူတူကို အသုံးပြုနိုင်တာကြောင့်၊ ဒါက translation model တစ်ခုဖြစ်တယ်လို့ ကျွန်တော်တို့ သတ်မှတ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.push_to_hub(tags=<span class="hljs-string">&quot;translation&quot;</span>, commit_message=<span class="hljs-string">&quot;Training complete&quot;</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-12ikx01">ဒီ command က သင်စစ်ဆေးကြည့်ချင်တယ်ဆိုရင် ဒါက လုပ်ဆောင်ခဲ့တဲ့ commit ရဲ့ URL ကို ပြန်ပေးပါတယ်-</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">&#x27;https://huggingface.co/sgugger/marian-finetuned-kde4-en-to-fr/commit/3601d621e3baae2bc63d3311452535f8f58f6ef3&#x27;</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-jz4gak">ဒီအဆင့်မှာ၊ Model Hub ပေါ်က inference widget ကို အသုံးပြုပြီး သင့် model ကို စမ်းသပ်နိုင်ပြီး သင့်သူငယ်ချင်းတွေနဲ့ မျှဝေနိုင်ပါပြီ။ သင်ဟာ translation task တစ်ခုပေါ်မှာ model တစ်ခုကို အောင်မြင်စွာ fine-tune လုပ်ခဲ့ပါပြီ — ဂုဏ်ယူပါတယ်!</p> <p data-svelte-h="svelte-q7r2el">သင် training loop ကို နက်နက်နဲနဲ လေ့လာချင်တယ်ဆိုရင်၊ 🤗 Accelerate ကို အသုံးပြုပြီး အဲဒီအရာကို ဘယ်လိုလုပ်ရမလဲဆိုတာ အခု ကျွန်တော်တို့ ပြသပါမယ်။</p> <h2 class="relative group"><a id="a-custom-training-loop" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#a-custom-training-loop"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Custom Training Loop တစ်ခု</span></h2> <p data-svelte-h="svelte-khu1sy">အခု ပြည့်စုံတဲ့ training loop ကို ကြည့်ရအောင်၊ ဒါမှ သင်လိုအပ်တဲ့ အစိတ်အပိုင်းတွေကို အလွယ်တကူ customize လုပ်နိုင်ပါလိမ့်မယ်။ ဒါက <a href="/course/chapter7/2">အပိုင်း ၂</a> နဲ့ <a href="/course/chapter3">Chapter 3</a> မှာ ကျွန်တော်တို့ လုပ်ခဲ့တဲ့အရာတွေနဲ့ အတော်လေး တူပါလိမ့်မယ်။</p> <h3 class="relative group"><a id="preparing-everything-for-training" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#preparing-everything-for-training"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training အတွက် အားလုံးကို ပြင်ဆင်ခြင်း</span></h3> <p data-svelte-h="svelte-xiziuo">ဒါတွေအားလုံးကို အခုဆိုရင် သင်အကြိမ်အနည်းငယ် တွေ့ခဲ့ဖူးပြီးသားဖြစ်တဲ့အတွက်၊ code ကို အလွန်လျင်မြန်စွာပဲ ကြည့်သွားပါမယ်။ ပထမဆုံးအနေနဲ့ datasets တွေကို <code>&quot;torch&quot;</code> format ကို သတ်မှတ်ပြီး PyTorch tensors တွေ ရရှိအောင်လုပ်ပြီးနောက် datasets တွေကနေ <code>DataLoader</code> တွေကို တည်ဆောက်ပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> torch.utils.data <span class="hljs-keyword">import</span> DataLoader
tokenized_datasets.set_format(<span class="hljs-string">&quot;torch&quot;</span>)
train_dataloader = DataLoader(
tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>],
shuffle=<span class="hljs-literal">True</span>,
collate_fn=data_collator,
batch_size=<span class="hljs-number">8</span>,
)
eval_dataloader = DataLoader(
tokenized_datasets[<span class="hljs-string">&quot;validation&quot;</span>], collate_fn=data_collator, batch_size=<span class="hljs-number">8</span>
)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-oyerzt">နောက်တစ်ဆင့်အနေနဲ့ ကျွန်တော်တို့ရဲ့ model ကို reinstantiate လုပ်ပါမယ်။ ဒါမှ ကျွန်တော်တို့ အရင်က fine-tuning ကို ဆက်မလုပ်ဘဲ pretrained model ကနေ ပြန်စတာ သေချာစေပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1bb4kc5">ပြီးရင် optimizer တစ်ခု လိုအပ်ပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> torch.optim <span class="hljs-keyword">import</span> AdamW
optimizer = AdamW(model.parameters(), lr=<span class="hljs-number">2e-5</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-18xubpe">ဒီ objects တွေအားလုံး ရရှိပြီဆိုတာနဲ့၊ ဒါတွေကို <code>accelerator.prepare()</code> method ဆီ ပေးပို့နိုင်ပါပြီ။ သင် Colab notebook မှာ TPUs ပေါ်မှာ train လုပ်ချင်တယ်ဆိုရင်၊ ဒီ code အားလုံးကို training function တစ်ခုထဲကို ရွှေ့ဖို့ လိုအပ်မယ်ဆိုတာနဲ့ <code>Accelerator</code> ကို instantiate လုပ်တဲ့ cell တစ်ခုကိုမှ မ run သင့်ဘူးဆိုတာ မှတ်ထားပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> accelerate <span class="hljs-keyword">import</span> Accelerator
accelerator = Accelerator()
model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare(
model, optimizer, train_dataloader, eval_dataloader
)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1991k0b">ကျွန်တော်တို့ <code>train_dataloader</code> ကို <code>accelerator.prepare()</code> ဆီ ပေးပို့ပြီးတာနဲ့၊ ၎င်းရဲ့ length ကို အသုံးပြုပြီး training steps အရေအတွက်ကို တွက်ချက်နိုင်ပါပြီ။ အဲဒီ method က <code>DataLoader</code> ရဲ့ length ကို ပြောင်းလဲစေမှာဖြစ်တဲ့အတွက်၊ dataloader ကို ပြင်ဆင်ပြီးမှ ဒါကို အမြဲတမ်းလုပ်သင့်တယ်ဆိုတာ မှတ်ထားပါ။ learning rate ကနေ ၀ အထိ classic linear schedule ကို ကျွန်တော်တို့ အသုံးပြုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> get_scheduler
num_train_epochs = <span class="hljs-number">3</span>
num_update_steps_per_epoch = <span class="hljs-built_in">len</span>(train_dataloader)
num_training_steps = num_train_epochs * num_update_steps_per_epoch
lr_scheduler = get_scheduler(
<span class="hljs-string">&quot;linear&quot;</span>,
optimizer=optimizer,
num_warmup_steps=<span class="hljs-number">0</span>,
num_training_steps=num_training_steps,
)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-14e70vq">နောက်ဆုံးအနေနဲ့၊ ကျွန်တော်တို့ model ကို Hub ကို push လုပ်ဖို့အတွက်၊ working folder တစ်ခုမှာ <code>Repository</code> object တစ်ခု ဖန်တီးဖို့ လိုအပ်ပါလိမ့်မယ်။ ပထမဆုံး Hugging Face Hub ကို log in ဝင်ပါ၊ သင်မဝင်ရသေးဘူးဆိုရင်ပေါ့။ ကျွန်တော်တို့ရဲ့ model ကို ပေးချင်တဲ့ model ID ကနေ repository နာမည်ကို ကျွန်တော်တို့ သတ်မှတ်ပါမယ် (သင် <code>repo_name</code> ကို သင့်စိတ်ကြိုက် နာမည်နဲ့ လွတ်လပ်စွာ အစားထိုးနိုင်ပါတယ်၊ ဒါက သင့် username ပါဝင်ဖို့ပဲ လိုအပ်ပါတယ်၊ အဲဒါက <code>get_full_repo_name()</code> function က လုပ်ဆောင်တာပါပဲ)။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> huggingface_hub <span class="hljs-keyword">import</span> Repository, get_full_repo_name
model_name = <span class="hljs-string">&quot;marian-finetuned-kde4-en-to-fr-accelerate&quot;</span>
repo_name = get_full_repo_name(model_name)
repo_name<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">&#x27;sgugger/marian-finetuned-kde4-en-to-fr-accelerate&#x27;</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1vqfjb0">ပြီးရင် အဲဒီ repository ကို local folder တစ်ခုမှာ clone လုပ်နိုင်ပါတယ်။ အကယ်၍ ဒါက ရှိပြီးသားဆိုရင်၊ ဒီ local folder က ကျွန်တော်တို့ အလုပ်လုပ်နေတဲ့ repository ရဲ့ clone တစ်ခု ဖြစ်ရပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->output_dir = <span class="hljs-string">&quot;marian-finetuned-kde4-en-to-fr-accelerate&quot;</span>
repo = Repository(output_dir, clone_from=repo_name)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-dhhjt8">အခု ကျွန်တော်တို့ <code>output_dir</code> ထဲမှာ သိမ်းဆည်းထားတဲ့ ဘာမဆိုကို <code>repo.push_to_hub()</code> method ကို ခေါ်ခြင်းဖြင့် upload လုပ်နိုင်ပါပြီ။ ဒါက epoch တစ်ခုစီရဲ့ အဆုံးမှာ intermediate models တွေကို upload လုပ်ဖို့ ကျွန်တော်တို့ကို ကူညီပေးပါလိမ့်မယ်။</p> <h3 class="relative group"><a id="training-loop" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#training-loop"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training Loop</span></h3> <p data-svelte-h="svelte-kzycuq">အခုဆိုရင် ပြည့်စုံတဲ့ training loop ကို ရေးဖို့ ကျွန်တော်တို့ အဆင်သင့်ပါပဲ။ ၎င်းရဲ့ evaluation အပိုင်းကို ရိုးရှင်းစေဖို့အတွက်၊ predictions နဲ့ labels တွေကို ယူပြီး ကျွန်တော်တို့ရဲ့ <code>metric</code> object က မျှော်လင့်ထားတဲ့ strings စာရင်းတွေအဖြစ် ပြောင်းလဲပေးမယ့် <code>postprocess()</code> function တစ်ခုကို ကျွန်တော်တို့ သတ်မှတ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">def</span> <span class="hljs-title function_">postprocess</span>(<span class="hljs-params">predictions, labels</span>):
predictions = predictions.cpu().numpy()
labels = labels.cpu().numpy()
decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=<span class="hljs-literal">True</span>)
<span class="hljs-comment"># Replace -100 in the labels as we can&#x27;t decode them.</span>
labels = np.where(labels != -<span class="hljs-number">100</span>, labels, tokenizer.pad_token_id)
decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=<span class="hljs-literal">True</span>)
<span class="hljs-comment"># Some simple post-processing</span>
decoded_preds = [pred.strip() <span class="hljs-keyword">for</span> pred <span class="hljs-keyword">in</span> decoded_preds]
decoded_labels = [[label.strip()] <span class="hljs-keyword">for</span> label <span class="hljs-keyword">in</span> decoded_labels]
<span class="hljs-keyword">return</span> decoded_preds, decoded_labels<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-5bud73">training loop က <a href="/course/chapter7/2">အပိုင်း ၂</a> နဲ့ <a href="/course/chapter3">Chapter 3</a> ထဲက loop တွေနဲ့ အတော်လေး တူပါတယ်၊ evaluation အပိုင်းမှာ အနည်းငယ်ကွာခြားချက်တွေ ရှိပါတယ်။ — ဒါကြောင့် အဲဒါကို အာရုံစိုက်ရအောင်!</p> <p data-svelte-h="svelte-1eyf0gc">ပထမဆုံး မှတ်သားရမယ့်အချက်ကတော့ predictions တွေကို တွက်ချက်ဖို့ <code>generate()</code> method ကို ကျွန်တော်တို့ အသုံးပြုတာပါ၊ ဒါပေမယ့် ဒါက ကျွန်တော်တို့ရဲ့ base model ပေါ်က method တစ်ခုဖြစ်ပြီး၊ 🤗 Accelerate က <code>prepare()</code> method မှာ ဖန်တီးခဲ့တဲ့ wrapped model မဟုတ်ပါဘူး။ ဒါကြောင့် model ကို အရင် unwrap လုပ်ပြီးမှ ဒီ method ကို ခေါ်တာပါ။</p> <p data-svelte-h="svelte-pu5nvo">ဒုတိယအချက်ကတော့ <a href="/course/chapter7/2">token classification</a> နဲ့ တူတူပါပဲ၊ process နှစ်ခုက inputs နဲ့ labels တွေကို မတူညီတဲ့ shapes တွေအထိ padding လုပ်ထားနိုင်ပါတယ်။ ဒါကြောင့် <code>accelerator.pad_across_processes()</code> ကို အသုံးပြုပြီး predictions နဲ့ labels တွေကို <code>gather()</code> method ကို မခေါ်ခင် shapes တူတူဖြစ်အောင် လုပ်ပါတယ်။ ဒါကို မလုပ်ရင် evaluation က error ဖြစ်မှာ ဒါမှမဟုတ် အမြဲတမ်း hang နေပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> tqdm.auto <span class="hljs-keyword">import</span> tqdm
<span class="hljs-keyword">import</span> torch
progress_bar = tqdm(<span class="hljs-built_in">range</span>(num_training_steps))
<span class="hljs-keyword">for</span> epoch <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(num_train_epochs):
<span class="hljs-comment"># Training</span>
model.train()
<span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> train_dataloader:
outputs = model(**batch)
loss = outputs.loss
accelerator.backward(loss)
optimizer.step()
lr_scheduler.step()
optimizer.zero_grad()
progress_bar.update(<span class="hljs-number">1</span>)
<span class="hljs-comment"># Evaluation</span>
model.<span class="hljs-built_in">eval</span>()
<span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> tqdm(eval_dataloader):
<span class="hljs-keyword">with</span> torch.no_grad():
generated_tokens = accelerator.unwrap_model(model).generate(
batch[<span class="hljs-string">&quot;input_ids&quot;</span>],
attention_mask=batch[<span class="hljs-string">&quot;attention_mask&quot;</span>],
max_length=<span class="hljs-number">128</span>,
)
labels = batch[<span class="hljs-string">&quot;labels&quot;</span>]
<span class="hljs-comment"># Necessary to pad predictions and labels for being gathered</span>
generated_tokens = accelerator.pad_across_processes(
generated_tokens, dim=<span class="hljs-number">1</span>, pad_index=tokenizer.pad_token_id
)
labels = accelerator.pad_across_processes(labels, dim=<span class="hljs-number">1</span>, pad_index=-<span class="hljs-number">100</span>)
predictions_gathered = accelerator.gather(generated_tokens)
labels_gathered = accelerator.gather(labels)
decoded_preds, decoded_labels = postprocess(predictions_gathered, labels_gathered)
metric.add_batch(predictions=decoded_preds, references=decoded_labels)
results = metric.compute()
<span class="hljs-built_in">print</span>(<span class="hljs-string">f&quot;epoch <span class="hljs-subst">{epoch}</span>, BLEU score: <span class="hljs-subst">{results[<span class="hljs-string">&#x27;score&#x27;</span>]:<span class="hljs-number">.2</span>f}</span>&quot;</span>)
<span class="hljs-comment"># Save and upload</span>
accelerator.wait_for_everyone()
unwrapped_model = accelerator.unwrap_model(model)
unwrapped_model.save_pretrained(output_dir, save_function=accelerator.save)
<span class="hljs-keyword">if</span> accelerator.is_main_process:
tokenizer.save_pretrained(output_dir)
repo.push_to_hub(
commit_message=<span class="hljs-string">f&quot;Training in progress epoch <span class="hljs-subst">{epoch}</span>&quot;</span>, blocking=<span class="hljs-literal">False</span>
)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->epoch <span class="hljs-number">0</span>, BLEU score: <span class="hljs-number">53.47</span>
epoch <span class="hljs-number">1</span>, BLEU score: <span class="hljs-number">54.24</span>
epoch <span class="hljs-number">2</span>, BLEU score: <span class="hljs-number">54.44</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-xtgtud">ဒါပြီးသွားတာနဲ့၊ သင် <code>Seq2SeqTrainer</code> နဲ့ train လုပ်ခဲ့တဲ့ model နဲ့ ရလဒ်တွေ အတော်လေး ဆင်တူတဲ့ model တစ်ခု ရရှိပါလိမ့်မယ်။ ဒီ code ကို အသုံးပြုပြီး ကျွန်တော်တို့ train လုပ်ခဲ့တဲ့ model ကို <a href="https://huggingface.co/huggingface-course/marian-finetuned-kde4-en-to-fr-accelerate" rel="nofollow"><em>huggingface-course/marian-finetuned-kde4-en-to-fr-accelerate</em></a> မှာ စစ်ဆေးနိုင်ပါတယ်။ ပြီးတော့ training loop မှာ ပြောင်းလဲမှုအချို့ကို စမ်းသပ်ချင်တယ်ဆိုရင်၊ အပေါ်မှာ ပြသထားတဲ့ code ကို တိုက်ရိုက် edit လုပ်ပြီး အကောင်အထည်ဖော်နိုင်ပါတယ်!</p> <h2 class="relative group"><a id="using-the-fine-tuned-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#using-the-fine-tuned-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Fine-tuned Model ကို အသုံးပြုခြင်း</span></h2> <p data-svelte-h="svelte-1auab5y">Model Hub ပေါ်က inference widget နဲ့ ကျွန်တော်တို့ fine-tune လုပ်ထားတဲ့ model ကို ဘယ်လိုအသုံးပြုနိုင်တယ်ဆိုတာ သင်ပြသခဲ့ပြီးပါပြီ။ <code>pipeline</code> ထဲမှာ ဒါကို locally အသုံးပြုဖို့အတွက်၊ သင့်လျော်တဲ့ model identifier ကိုပဲ ကျွန်တော်တို့ သတ်မှတ်ဖို့ လိုအပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> pipeline
<span class="hljs-comment"># Replace this with your own checkpoint</span>
model_checkpoint = <span class="hljs-string">&quot;huggingface-course/marian-finetuned-kde4-en-to-fr&quot;</span>
translator = pipeline(<span class="hljs-string">&quot;translation&quot;</span>, model=model_checkpoint)
translator(<span class="hljs-string">&quot;Default to expanded threads&quot;</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[{<span class="hljs-string">&#x27;translation_text&#x27;</span>: <span class="hljs-string">&#x27;Par défaut, développer les fils de discussion&#x27;</span>}]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1s9gqqn">မျှော်လင့်ထားတဲ့အတိုင်း၊ ကျွန်တော်တို့ရဲ့ pretrained model က ကျွန်တော်တို့ fine-tune လုပ်ခဲ့တဲ့ corpus နဲ့ ၎င်းရဲ့ ဗဟုသုတကို လိုက်လျောညီထွေဖြစ်အောင် လုပ်ခဲ့ပြီး၊ English စကားလုံး “threads” ကို မူရင်းအတိုင်းထားခဲ့ခြင်းအစား၊ အခု French တရားဝင် version အဖြစ် ဘာသာပြန်ပေးပါတယ်။ “plugin” အတွက်လည်း အတူတူပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->translator(
<span class="hljs-string">&quot;Unable to import %1 using the OFX importer plugin. This file is not the correct format.&quot;</span>
)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[{<span class="hljs-string">&#x27;translation_text&#x27;</span>: <span class="hljs-string">&quot;Impossible d&#x27;importer %1 en utilisant le module externe d&#x27;importation OFX. Ce fichier n&#x27;est pas le bon format.&quot;</span>}]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-ms6sx8">Domain adaptation ရဲ့ နောက်ထပ် ကောင်းမွန်တဲ့ ဥပမာတစ်ခုပါပဲ!</p> <blockquote class="tip" data-svelte-h="svelte-193uirs"><p>✏️ <strong>သင့်အလှည့်!</strong> သင်အရင်က ဖော်ထုတ်ခဲ့တဲ့ “email” စကားလုံးပါတဲ့ sample ပေါ်မှာ model က ဘာပြန်ပေးမလဲ။</p></blockquote> <h2 class="relative group"><a id="ဝဟရ-ရငလငခက-glossary" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ဝဟရ-ရငလငခက-glossary"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဝေါဟာရ ရှင်းလင်းချက် (Glossary)</span></h2> <ul data-svelte-h="svelte-y1833k"><li><strong>Translation</strong>: ဘာသာစကားတစ်ခုမှ အခြားဘာသာစကားတစ်ခုသို့ စာသားများကို ဘာသာပြန်ခြင်း။</li> <li><strong>Sequence-to-Sequence Task</strong>: input sequence တစ်ခုမှ output sequence တစ်ခုကို ထုတ်လုပ်သော machine learning လုပ်ငန်း။</li> <li><strong>Summarization</strong>: ရှည်လျားသော စာသားတစ်ခု၏ အနှစ်ချုပ်ကို ထုတ်လုပ်ခြင်း။</li> <li><strong>Style Transfer</strong>: စာသားတစ်ခု၏ အကြောင်းအရာကို မပြောင်းလဲဘဲ ၎င်း၏ ရေးသားဟန် (style) ကို ပြောင်းလဲခြင်း။</li> <li><strong>Generative Question Answering</strong>: ပေးထားသော context ကို အခြေခံ၍ မေးခွန်းတစ်ခုအတွက် အဖြေအသစ်တစ်ခုကို ထုတ်လုပ်ပေးခြင်း။</li> <li><strong>Corpus</strong>: စာသား (သို့မဟုတ် အခြားဒေတာ) အစုအဝေးကြီးတစ်ခု။</li> <li><strong>From Scratch</strong>: မော်ဒယ် (သို့မဟုတ် tokenizer) တစ်ခုကို မည်သည့် အစောပိုင်းလေ့ကျင့်မှုမျှ မရှိဘဲ လုံးဝအသစ်ကနေ စတင်တည်ဆောက်ခြင်းနှင့် လေ့ကျင့်ခြင်း။</li> <li><strong>Causal Language Modeling Pretraining</strong>: စာကြောင်းတစ်ခု၏ နောက်ဆက်တွဲ token (စကားလုံး) ကို ခန့်မှန်းခြင်းဖြင့် model ကို လေ့ကျင့်သော task (GPT-2 ကဲ့သို့)။</li> <li><strong>Fine-tune</strong>: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်းကို ဆိုလိုပါတယ်။</li> <li><strong>Multilingual Model</strong>: ဘာသာစကားများစွာကို နားလည်ပြီး လုပ်ဆောင်နိုင်သော model (ဥပမာ- mT5, mBART)။</li> <li><strong>Language Pair</strong>: ဘာသာပြန်ခြင်းအတွက် အသုံးပြုသော ဘာသာစကားနှစ်ခုတွဲ (ဥပမာ- English-French)။</li> <li><strong>Marian Model</strong>: Efficient Neural Machine Translation (NMT) အတွက် ဒီဇိုင်းထုတ်ထားသော Transformer-based model။</li> <li><strong>Pretrained</strong>: Model တစ်ခုကို အကြီးစားဒေတာများဖြင့် အစောပိုင်းကတည်းက လေ့ကျင့်ထားခြင်း။</li> <li><strong>KDE4 Dataset</strong>: KDE apps များအတွက် localized files များပါဝင်သော dataset တစ်ခု။</li> <li><strong>KDE Apps</strong>: Linux desktop environment အတွက် ဖန်တီးထားသော open-source applications များ။</li> <li><strong>Opus Dataset</strong>: ဘာသာစကားမျိုးစုံပါဝင်သော အကြီးစား parallel corpora (စာသားအစုအဝေး)။</li> <li><strong>Inference Widget</strong>: Hugging Face Hub ပေါ်တွင် model တစ်ခုကို code ရေးစရာမလိုဘဲ တိုက်ရိုက်စမ်းသပ်နိုင်သော user interface။</li> <li><strong>Model Hub</strong>: Hugging Face Hub ကို ရည်ညွှန်းပြီး AI မော်ဒယ်များ ရှာဖွေ၊ မျှဝေ၊ အသုံးပြုနိုင်သော ဗဟို platform။</li> <li><strong><code>load_dataset()</code> Function</strong>: Hugging Face Datasets library မှ dataset များကို download လုပ်ပြီး cache လုပ်ရန် အသုံးပြုသော function။</li> <li><strong><code>lang1=&quot;en&quot;, lang2=&quot;fr&quot;</code></strong>: <code>load_dataset()</code> function တွင် source language နှင့် target language ကို သတ်မှတ်ရန် အသုံးပြုသော arguments များ (English နှင့် French)။</li> <li><strong>Language Tags</strong>: dataset card တွင် ဘာသာစကားများကို ဖော်ပြရန် အသုံးပြုသော tags များ။</li> <li><strong><code>DatasetDict</code> Object</strong>: Training set, validation set, နှင့် test set ကဲ့သို့သော dataset အများအပြားကို dictionary ပုံစံဖြင့် သိမ်းဆည်းထားသော object။</li> <li><strong>Split</strong>: Dataset ကို training, validation, test စသည်ဖြင့် ခွဲခြားထားသော အပိုင်းများ။</li> <li><strong><code>train_test_split()</code> Method</strong>: <code>Dataset</code> object မှာပါဝင်ပြီး dataset ကို training and testing (သို့မဟုတ် validation) splits များအဖြစ် ခွဲခြားရန် အသုံးပြုသည်။</li> <li><strong>Seed</strong>: ကျပန်းနံပါတ်ထုတ်လုပ်ခြင်းကို reproducibility အတွက် တူညီအောင် ထိန်းချုပ်သော တန်ဖိုး။</li> <li><strong>Reproducibility</strong>: သတ်မှတ်ထားသော code နှင့် data ကို အသုံးပြု၍ တူညီသော ရလဒ်များကို ပြန်လည်ထုတ်လုပ်နိုင်ခြင်း။</li> <li><strong>Validation Set</strong>: Training လုပ်နေစဉ် model ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် အသုံးပြုသော dataset အပိုင်း။</li> <li><strong>Target Language</strong>: ဘာသာပြန်လိုသော ဘာသာစကား။</li> <li><strong><code>pipeline()</code> Function</strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ လုပ်ဆောင်ချက်တစ်ခုဖြစ်ပြီး မော်ဒယ်တွေကို သီးခြားလုပ်ငန်းတာဝန်များ (ဥပမာ- စာသားခွဲခြားသတ်မှတ်ခြင်း၊ စာသားထုတ်လုပ်ခြင်း) အတွက် အသုံးပြုရလွယ်ကူအောင် ပြုလုပ်ပေးပါတယ်။</li> <li><strong><code>AutoTokenizer</code></strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ class တစ်ခုဖြစ်ပြီး မော်ဒယ်အမည်ကို အသုံးပြုပြီး သက်ဆိုင်ရာ tokenizer ကို အလိုအလျောက် load လုပ်ပေးသည်။</li> <li><strong><code>return_tensors=&quot;pt&quot;</code></strong>: Tokenizer မှ output အဖြစ် PyTorch tensors များကို ပြန်ပေးရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>tokenizer.src_lang</code></strong>: Multilingual tokenizer များအတွက် source language ကို သတ်မှတ်သော attribute။</li> <li><strong><code>tokenizer.tgt_lang</code></strong>: Multilingual tokenizer များအတွက် target language ကို သတ်မှတ်သော attribute။</li> <li><strong><code>__call__</code> Method</strong>: Python class object များကို function တစ်ခုကဲ့သို့ ခေါ်ဆိုနိုင်စေသော special method။</li> <li><strong><code>text_targets</code> Argument</strong>: Tokenizer ၏ <code>__call__</code> method တွင် target texts များကို ပေးပို့ရန် အသုံးပြုသော argument။</li> <li><strong>Input IDs</strong>: Tokenizer မှ ထုတ်ပေးသော tokens တစ်ခုစီ၏ ထူးခြားသော ဂဏန်းဆိုင်ရာ ID များ။</li> <li><strong>Attention Mask</strong>: မော်ဒယ်ကို အာရုံစိုက်သင့်သည့် tokens များနှင့် လျစ်လျူရှုသင့်သည့် (padding) tokens များကို ခွဲခြားပေးသည့် binary mask။</li> <li><strong><code>labels</code> Field</strong>: Model training အတွက် အမှန်တကယ် target values များ သိမ်းဆည်းထားသော field။</li> <li><strong><code>convert_ids_to_tokens()</code> Method</strong>: input IDs များကို tokens များအဖြစ် ပြန်ပြောင်းပေးသော tokenizer method။</li> <li><strong>Prefix</strong>: စာသားတစ်ခု၏ အစတွင် ပူးတွဲထားသော စကားလုံး သို့မဟုတ် စာကြောင်း။</li> <li><strong>Padding Token</strong>: စာကြောင်းများ၏ အရှည်ကို ညီမျှစေရန် ထပ်ဖြည့်ပေးသော special token။</li> <li><strong>Loss Computation</strong>: Model ၏ ခန့်မှန်းချက်များနှင့် အမှန်တကယ် labels များကြား ကွာခြားမှုကို တိုင်းတာသော တန်ဖိုး (loss) ကို တွက်ချက်ခြင်း။</li> <li><strong>Dynamic Padding</strong>: Batch တစ်ခုအတွင်းရှိ samples များကို အဲဒီ batch ထဲက အရှည်ဆုံး sample ရဲ့ အရှည်အထိသာ padding လုပ်တဲ့ နည်းလမ်း။</li> <li><strong><code>map()</code> Method</strong>: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။</li> <li><strong><code>batched=True</code></strong>: <code>map()</code> method မှာ အသုံးပြုသော argument တစ်ခုဖြစ်ပြီး function ကို dataset ရဲ့ element အများအပြားပေါ်မှာ တစ်ပြိုင်နက်တည်း အသုံးပြုစေသည်။</li> <li><strong><code>remove_columns</code> Argument</strong>: <code>map()</code> method တွင် မလိုအပ်သော columns များကို dataset မှ ဖယ်ရှားရန် အသုံးပြုသော argument။</li> <li><strong><code>AutoModelForSeq2SeqLM</code></strong>: Sequence-to-sequence language modeling task များအတွက် သက်ဆိုင်ရာ model class ကို အလိုအလျောက် load လုပ်ပေးသော Hugging Face Transformers class။</li> <li><strong><code>Seq2SeqTrainer</code></strong>: Hugging Face Transformers library မှ sequence-to-sequence models များကို လေ့ကျင့်ရန်အတွက် အထူးပြု Trainer subclass။</li> <li><strong><code>generate()</code> Method</strong>: model တစ်ခုမှ text sequence အသစ်များကို ထုတ်လုပ်ရန်အတွက် method။</li> <li><strong><code>AutoModel</code> API</strong>: Hugging Face Transformers library မှ model class များကို အလိုအလျောက် load လုပ်ရန်အတွက် API။</li> <li><strong><code>TFAutoModelForSeq2SeqLM</code></strong>: TensorFlow framework အတွက် <code>AutoModelForSeq2SeqLM</code> ၏ version။</li> <li><strong><code>from_pt=True</code></strong>: TensorFlow model ကို load လုပ်ရာတွင် PyTorch weights များကို convert လုပ်ပြီး အသုံးပြုရန် သတ်မှတ်ခြင်း။</li> <li><strong>PyTorch Weights</strong>: PyTorch framework ဖြင့် လေ့ကျင့်ထားသော model ၏ parameters များ။</li> <li><strong>Data Collator</strong>: batch တစ်ခုအတွင်းရှိ data samples များကို model input အတွက် သင့်လျော်သောပုံစံသို့ ပြောင်းလဲပေးသော function သို့မဟုတ် class။</li> <li><strong><code>DataCollatorWithPadding</code></strong>: input IDs, attention masks စသည်တို့ကို padding လုပ်ပေးသော data collator။</li> <li><strong><code>DataCollatorForSeq2Seq</code></strong>: Sequence-to-sequence models များအတွက် inputs နှင့် labels နှစ်ခုလုံးကို padding လုပ်ပေးပြီး decoder input IDs များကို ပြင်ဆင်ပေးသော data collator။</li> <li><strong>Decoder Input IDs</strong>: decoder အတွက် input အဖြစ် အသုံးပြုသော shifted labels များ။</li> <li><strong><code>tensor</code></strong>: PyTorch မှာ data များကို သိမ်းဆည်းရန် အသုံးပြုတဲ့ multi-dimensional array။</li> <li><strong><code>prepare_tf_dataset()</code> Method</strong>: Keras API ဖြင့် training လုပ်ရန်အတွက် <code>tf.data.Dataset</code> object တစ်ခုကို ပြင်ဆင်ပေးသော method။</li> <li><strong><code>collate_fn</code> Argument</strong>: <code>DataLoader</code> သို့မဟုတ် <code>prepare_tf_dataset()</code> တွင် data samples များကို batch တစ်ခုအဖြစ် စုစည်းရန် အသုံးပြုသော function။</li> <li><strong><code>shuffle=True/False</code></strong>: dataset ကို training အတွက် ရောနှောခြင်းရှိမရှိ သတ်မှတ်ခြင်း။</li> <li><strong><code>batch_size</code></strong>: training သို့မဟုတ် evaluation လုပ်ငန်းစဉ်တစ်ခုစီတွင် model သို့ ပေးပို့သော input samples အရေအတွက်။</li> <li><strong>BLEU Score (Bilingual Evaluation Understudy)</strong>: ဘာသာပြန်ထားသော စာသားတစ်ခု၏ အရည်အသွေးကို တိုင်းတာရန် အသုံးပြုသော metric။</li> <li><strong><code>evaluate.load(&quot;sacrebleu&quot;)</code></strong>: <code>sacrebleu</code> metric ကို load လုပ်ရန် evaluate library မှ function။</li> <li><strong><code>metric.compute()</code> Method</strong>: metric object ဖြင့် predictions များနှင့် references များအပေါ် အခြေခံ၍ score ကို တွက်ချက်သော method။</li> <li><strong><code>tokenizer.batch_decode()</code> Method</strong>: token IDs များကို စာသားများအဖြစ် ပြန်လည်ပြောင်းလဲရန် အသုံးပြုသော tokenizer method။</li> <li><strong><code>-100</code></strong>: Padding values များ loss computation တွင် လျစ်လျူရှုခံရစေရန် labels တွင် အသုံးပြုသော special value။</li> <li><strong>XLA (Accelerated Linear Algebra)</strong>: TensorFlow ၏ accelerated linear algebra compiler ဖြစ်ပြီး model computation graph များကို optimizations လုပ်ဆောင်၍ speed နှင့် memory usage ကို တိုးတက်စေသည်။</li> <li><strong><code>@tf.function(jit_compile=True)</code> Decorator</strong>: TensorFlow function တစ်ခုကို XLA ဖြင့် JIT (Just-In-Time) compile လုပ်ရန် မှတ်သားပေးသော decorator။</li> <li><strong><code>tqdm</code></strong>: Python library တစ်ခုဖြစ်ပြီး loops များအတွက် progress bars များကို ဖန်တီးပေးသည်။</li> <li><strong><code>model.generate()</code> Method</strong>: model မှ text sequence အသစ်များကို ထုတ်လုပ်ရန်အတွက် method။</li> <li><strong><code>decoded_preds</code></strong>: model မှ ထုတ်ပေးပြီး decode လုပ်ထားသော predictions များ။</li> <li><strong><code>decoded_labels</code></strong>: decode လုပ်ထားသော အမှန်တကယ် labels များ။</li> <li><strong><code>strip()</code> Method</strong>: string တစ်ခု၏ အစ သို့မဟုတ် အဆုံးရှိ whitespace များကို ဖယ်ရှားသော Python string method။</li> <li><strong><code>notebook_login()</code></strong>: Jupyter/Colab Notebooks များတွင် Hugging Face Hub သို့ login ဝင်ရန် အသုံးပြုသော function။</li> <li><strong><code>huggingface-cli login</code></strong>: Hugging Face CLI (Command Line Interface) မှ Hugging Face Hub သို့ login ဝင်ရန် အသုံးပြုသော command။</li> <li><strong>GPUT (Graphics Processing Unit)</strong>: ဂရပ်ဖစ်လုပ်ဆောင်မှုအတွက် အထူးဒီဇိုင်းထုတ်ထားသော processor တစ်မျိုးဖြစ်သော်လည်း AI/ML လုပ်ငန်းများတွင် အရှိန်မြှင့်ရန် အသုံးများသည်။</li> <li><strong><code>create_optimizer()</code> Function</strong>: Hugging Face Transformers library မှ optimizer နှင့် learning rate scheduler ကို ဖန်တီးပေးသော function။</li> <li><strong><code>PushToHubCallback</code></strong>: Keras models များအတွက် training လုပ်နေစဉ်အတွင်း model ကို Hugging Face Hub သို့ upload လုပ်ရန် ကူညီပေးသော callback။</li> <li><strong><code>model.compile()</code> Method</strong>: Keras model ကို training အတွက် ပြင်ဆင်သော method (optimizer, loss function, metrics သတ်မှတ်ခြင်း)။</li> <li><strong><code>model.fit()</code> Method</strong>: Keras model ကို training data ဖြင့် လေ့ကျင့်သော method။</li> <li><strong><code>validation_data</code></strong>: training လုပ်နေစဉ်အတွင်း model ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် အသုံးပြုသော validation dataset။</li> <li><strong><code>Seq2SeqTrainingArguments</code></strong>: Hugging Face Transformers library မှ sequence-to-sequence models များအတွက် training arguments များကို သတ်မှတ်သော class။</li> <li><strong><code>evaluation_strategy=&quot;no&quot;</code></strong>: evaluation ကို မလုပ်ဆောင်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>save_strategy=&quot;epoch&quot;</code></strong>: model ကို epoch တိုင်း သိမ်းဆည်းရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>learning_rate</code></strong>: training လုပ်ငန်းစဉ်အတွင်း model ၏ parameters များကို မည်မျှပြောင်းလဲရမည်ကို ထိန်းချုပ်သော hyperparameter။</li> <li><strong><code>per_device_train_batch_size</code></strong>: GPU/TPU တစ်ခုစီအတွက် training batch size။</li> <li><strong><code>per_device_eval_batch_size</code></strong>: GPU/TPU တစ်ခုစီအတွက် evaluation batch size။</li> <li><strong><code>weight_decay</code></strong>: overfitting ကို လျှော့ချရန်အတွက် regularization technique တစ်ခု။</li> <li><strong><code>save_total_limit</code></strong>: သိမ်းဆည်းထားမည့် model checkpoints အရေအတွက်ကို ကန့်သတ်ခြင်း။</li> <li><strong><code>num_train_epochs</code></strong>: model ကို training dataset တစ်ခုလုံးဖြင့် လေ့ကျင့်မည့် အကြိမ်အရေအတွက်။</li> <li><strong><code>fp16=True</code></strong>: Float16 precision ဖြင့် training လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>push_to_hub=True</code></strong>: training ပြီးဆုံးပြီးနောက် model ကို Hugging Face Hub သို့ အလိုအလျောက် upload လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>hub_model_id</code> Argument</strong>: <code>Seq2SeqTrainingArguments</code> တွင် Hugging Face Hub ပေါ်ရှိ model repository ၏ အမည်ကို သတ်မှတ်ရန် အသုံးပြုသော argument။</li> <li><strong>Namespace</strong>: Hugging Face Hub တွင် သုံးစွဲသူအကောင့် သို့မဟုတ် organization အမည်။</li> <li><strong>Output Directory</strong>: model, tokenizer နှင့် training logs များကို သိမ်းဆည်းမည့် local folder။</li> <li><strong><code>Seq2SeqTrainer</code></strong>: Hugging Face Transformers library မှ sequence-to-sequence models များကို လေ့ကျင့်ရန်အတွက် အထူးပြု Trainer subclass။</li> <li><strong><code>trainer.evaluate()</code> Method</strong>: <code>Trainer</code> object ဖြင့် model ၏ စွမ်းဆောင်ရည်ကို evaluation dataset ပေါ်တွင် အကဲဖြတ်သော method။</li> <li><strong><code>max_length</code></strong>: sequence များ၏ အမြင့်ဆုံးအရှည်။</li> <li><strong><code>eval_loss</code></strong>: Evaluation dataset ပေါ်တွင် model ၏ loss တန်ဖိုး။</li> <li><strong><code>eval_bleu</code></strong>: Evaluation dataset ပေါ်တွင် model ၏ BLEU score။</li> <li><strong><code>eval_runtime</code></strong>: Evaluation လုပ်ဆောင်ရန် ကြာမြင့်သော အချိန်။</li> <li><strong><code>eval_samples_per_second</code></strong>: Evaluation လုပ်နေစဉ် တစ်စက္ကန့်လျှင် လုပ်ဆောင်သော samples အရေအတွက်။</li> <li><strong><code>eval_steps_per_second</code></strong>: Evaluation လုပ်နေစဉ် တစ်စက္ကန့်လျှင် လုပ်ဆောင်သော steps အရေအတွက်။</li> <li><strong><code>epoch</code></strong>: Model ကို training dataset တစ်ခုလုံးဖြင့် လေ့ကျင့်သည့် အကြိမ်အရေအတွက်။</li> <li><strong><code>trainer.train()</code> Method</strong>: <code>Trainer</code> object ဖြင့် model ကို train လုပ်သော method။</li> <li><strong><code>trainer.push_to_hub()</code> Method</strong>: <code>Trainer</code> object ဖြင့် model ကို Hugging Face Hub သို့ upload လုပ်သော method။</li> <li><strong><code>tags=&quot;translation&quot;</code></strong>: Model card တွင် translation task အတွက် tag ကို ထည့်သွင်းခြင်း။</li> <li><strong><code>commit_message</code></strong>: Git commit အတွက် မက်ဆေ့ချ်။</li> <li><strong>URL</strong>: web ပေါ်ရှိ အရင်းအမြစ်တစ်ခု၏ လိပ်စာ။</li> <li><strong>Custom Training Loop</strong>: <code>Trainer</code> API ကို အသုံးပြုမည့်အစား developer ကိုယ်တိုင် အသေးစိတ် ထိန်းချုပ်နိုင်သော training loop။</li> <li><strong><code>DataLoader</code></strong>: Dataset ကနေ data တွေကို batch အလိုက် load လုပ်ပေးတဲ့ PyTorch utility class။</li> <li><strong><code>tokenized_datasets.set_format(&quot;torch&quot;)</code></strong>: dataset ၏ output format ကို PyTorch tensors အဖြစ် သတ်မှတ်ခြင်း။</li> <li><strong>PyTorch Tensors</strong>: PyTorch framework မှာ data တွေကို ကိုယ်စားပြုသော multi-dimensional array များ။</li> <li><strong><code>AdamW</code></strong>: PyTorch မှာ အသုံးပြုတဲ့ AdamW optimizer။</li> <li><strong><code>model.parameters()</code></strong>: model ၏ လေ့ကျင့်နိုင်သော parameters များကို ပြန်ပေးသော method။</li> <li><strong><code>Accelerator</code></strong>: Hugging Face Accelerate library မှ distributed training (multiple GPUs, TPUs) ကို လွယ်ကူစေသော class။</li> <li><strong><code>accelerator.prepare()</code> Method</strong>: models, optimizers, dataloaders များကို distributed training အတွက် ပြင်ဆင်ပေးသော method။</li> <li><strong>TPUs (Tensor Processing Units)</strong>: Google မှ AI/ML workloads များအတွက် အထူးဒီဇိုင်းထုတ်ထားသော processor တစ်မျိုး။</li> <li><strong><code>get_scheduler()</code> Function</strong>: Hugging Face Transformers library မှ learning rate scheduler ကို ရယူသော function။</li> <li><strong><code>num_warmup_steps</code></strong>: learning rate ကို ဖြည်းဖြည်းချင်း တိုးမြှင့်မည့် training steps အရေအတွက်။</li> <li><strong><code>num_training_steps</code></strong>: စုစုပေါင်း training steps အရေအတွက်။</li> <li><strong><code>lr_scheduler</code></strong>: learning rate ကို training လုပ်နေစဉ်အတွင်း ပြောင်းလဲပေးသော scheduler။</li> <li><strong><code>Repository</code> Object</strong>: <code>huggingface_hub</code> library မှ Git repository များကို ကိုင်တွယ်ရန်အတွက် object။</li> <li><strong>Working Folder</strong>: project files များကို သိမ်းဆည်းထားသော directory။</li> <li><strong><code>get_full_repo_name()</code> Function</strong>: Hugging Face Hub repository ၏ နာမည်အပြည့်အစုံကို ပြန်ပေးသော function (username ပါဝင်သည်)။</li> <li><strong><code>repo.push_to_hub()</code> Method</strong>: <code>Repository</code> object ဖြင့် Git repository ကို Hugging Face Hub သို့ push လုပ်သော method။</li> <li><strong><code>commit_message</code></strong>: Git commit အတွက် မက်ဆေ့ချ်။</li> <li><strong><code>blocking=False</code></strong>: <code>push_to_hub()</code> method ကို non-blocking mode ဖြင့် လုပ်ဆောင်စေပြီး code execution ကို ဆက်လက်လုပ်ဆောင်စေသည်။</li> <li><strong><code>tqdm.auto</code></strong>: <code>tqdm</code> library ၏ auto-detection version။</li> <li><strong><code>torch.no_grad()</code></strong>: PyTorch တွင် gradient computation ကို disable လုပ်ရန်အတွက် context manager။</li> <li><strong><code>accelerator.unwrap_model(model).generate()</code></strong>: <code>Accelerator</code> ဖြင့် wrap လုပ်ထားသော model မှ underlying base model ကို ရယူပြီး <code>generate()</code> method ကို ခေါ်ခြင်း။</li> <li><strong><code>accelerator.pad_across_processes()</code></strong>: Distributed training တွင် မတူညီသော processes များမှ tensors များကို တူညီသော shape ဖြစ်အောင် padding လုပ်ပေးသော method။</li> <li><strong><code>dim=1</code></strong>: padding လုပ်မည့် dimension ကို သတ်မှတ်ခြင်း။</li> <li><strong><code>pad_index</code></strong>: padding လုပ်ရန် အသုံးပြုမည့် index (တန်ဖိုး)။</li> <li><strong><code>accelerator.gather()</code></strong>: Distributed training တွင် မတူညီသော processes များမှ tensors များကို စုစည်းပေးသော method။</li> <li><strong><code>metric.add_batch()</code> Method</strong>: metric object တွင် predictions များနှင့် references များကို batch အလိုက် ထည့်သွင်းသော method။</li> <li><strong><code>accelerator.wait_for_everyone()</code></strong>: Distributed training တွင် processes အားလုံး အလုပ်ပြီးဆုံးရန် စောင့်ဆိုင်းသော method။</li> <li><strong><code>unwrapped_model.save_pretrained()</code></strong>: pretrained model ကို local folder သို့ သိမ်းဆည်းသော method။</li> <li><strong><code>save_function=accelerator.save</code></strong>: Distributed training တွင် model ကို သိမ်းဆည်းရန်အတွက် <code>accelerator.save</code> ကို အသုံးပြုရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>accelerator.is_main_process</code></strong>: လက်ရှိ process သည် main process ဖြစ်ခြင်းရှိမရှိ စစ်ဆေးသော property။</li> <li><strong><code>tokenizer.save_pretrained()</code></strong>: tokenizer ကို local folder သို့ သိမ်းဆည်းသော method။</li> <li><strong>Domain Adaptation</strong>: Model တစ်ခုကို မူရင်း train လုပ်ခဲ့သော domain မှ ကွဲပြားခြားနားသော domain အသစ်တစ်ခုတွင် ကောင်းမွန်စွာ စွမ်းဆောင်နိုင်စေရန် ချိန်ညှိခြင်း။</li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/my/chapter7/4.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p>
<script>
{
__sveltekit_5q47hu = {
assets: "/docs/course/pr_1095/my",
base: "/docs/course/pr_1095/my",
env: {}
};
const element = document.currentScript.parentElement;
const data = [null,null];
Promise.all([
import("/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"),
import("/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js")
]).then(([kit, app]) => {
kit.start(app, element, {
node_ids: [0, 80],
data,
form: null,
error: null
});
});
}
</script>

Xet Storage Details

Size:
234 kB
·
Xet hash:
8759f1edb8d06f7a3df7b1451695f077268acd95e8d859e4dee4794b800ed3c6

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.