Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1095 /my /chapter8 /4_tf.html

rtrm

about 2 months ago

download

raw

183 kB

	<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"Training Pipeline ကို Debugging လုပ်ခြင်း","local":"debugging-the-training-pipeline","sections":[{"title":"Training Pipeline ကို Debugging လုပ်ခြင်း","local":"debugging-the-training-pipeline","sections":[{"title":"သင်၏ Data ကို စစ်ဆေးပါ","local":"check-your-data","sections":[],"depth":3},{"title":"သင်၏ Model ကို စစ်ဆေးပါ","local":"check-your-model","sections":[],"depth":3},{"title":"သင်၏ Hyperparameters များကို စစ်ဆေးပါ","local":"check-your-hyperparameters","sections":[],"depth":3}],"depth":2},{"title":"အခြားဖြစ်နိုင်ခြေရှိသော ပြဿနာများ","local":"other-potential-issues","sections":[{"title":"Out-of-memory errors များကို ကိုင်တွယ်ဖြေရှင်းခြင်း","local":"dealing-with-out-of-memory-errors","sections":[],"depth":3},{"title":"Hungry Hungry TensorFlow 🦛","local":"hungry-hungry-tensorflow","sections":[],"depth":3},{"title":"သင်၏ Data ကို စစ်ဆေးပါ (ထပ်မံ၍!)","local":"check-your-data-again","sections":[],"depth":3},{"title":"Model ကို Batch တစ်ခုတည်းနဲ့ Overfit လုပ်ခြင်း","local":"overfit-your-model-on-one-batch","sections":[],"depth":3},{"title":"ပထမဆုံး Baseline မရခင် ဘာမှ မညှိပါနှင့်","local":"dont-tune-anything-until-you-have-a-first-baseline","sections":[],"depth":3},{"title":"အကူအညီတောင်းပါ","local":"ask-for-help","sections":[],"depth":3}],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}">
	<link href="/docs/course/pr_1095/my/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/scheduler.893fe8c9.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/singletons.ba455c5c.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.bce52c8a.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/paths.9a7be869.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/preload-helper.b5ee8f74.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.b1df2166.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/0.77c840e7.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/each.e59479a4.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/90.e0cca679.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.e6d31e72.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/Youtube.ec5d7916.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CodeBlock.abb4f40e.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CourseFloatingBanner.c1c08878.js">
	<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/FrameworkSwitchCourse.4480e339.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"Training Pipeline ကို Debugging လုပ်ခြင်း","local":"debugging-the-training-pipeline","sections":[{"title":"Training Pipeline ကို Debugging လုပ်ခြင်း","local":"debugging-the-training-pipeline","sections":[{"title":"သင်၏ Data ကို စစ်ဆေးပါ","local":"check-your-data","sections":[],"depth":3},{"title":"သင်၏ Model ကို စစ်ဆေးပါ","local":"check-your-model","sections":[],"depth":3},{"title":"သင်၏ Hyperparameters များကို စစ်ဆေးပါ","local":"check-your-hyperparameters","sections":[],"depth":3}],"depth":2},{"title":"အခြားဖြစ်နိုင်ခြေရှိသော ပြဿနာများ","local":"other-potential-issues","sections":[{"title":"Out-of-memory errors များကို ကိုင်တွယ်ဖြေရှင်းခြင်း","local":"dealing-with-out-of-memory-errors","sections":[],"depth":3},{"title":"Hungry Hungry TensorFlow 🦛","local":"hungry-hungry-tensorflow","sections":[],"depth":3},{"title":"သင်၏ Data ကို စစ်ဆေးပါ (ထပ်မံ၍!)","local":"check-your-data-again","sections":[],"depth":3},{"title":"Model ကို Batch တစ်ခုတည်းနဲ့ Overfit လုပ်ခြင်း","local":"overfit-your-model-on-one-batch","sections":[],"depth":3},{"title":"ပထမဆုံး Baseline မရခင် ဘာမှ မညှိပါနှင့်","local":"dont-tune-anything-until-you-have-a-first-baseline","sections":[],"depth":3},{"title":"အကူအညီတောင်းပါ","local":"ask-for-help","sections":[],"depth":3}],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="bg-white leading-none border border-gray-100 rounded-lg flex p-0.5 w-56 text-sm mb-4"><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-l bg-red-50 dark:bg-transparent text-red-600" href="?fw=pt"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><defs><clipPath id="a"><rect x="3.05" y="0.5" width="25.73" height="31" fill="none"></rect></clipPath></defs><g clip-path="url(#a)"><path d="M24.94,9.51a12.81,12.81,0,0,1,0,18.16,12.68,12.68,0,0,1-18,0,12.81,12.81,0,0,1,0-18.16l9-9V5l-.84.83-6,6a9.58,9.58,0,1,0,13.55,0ZM20.44,9a1.68,1.68,0,1,1,1.67-1.67A1.68,1.68,0,0,1,20.44,9Z" fill="#ee4c2c"></path></g></svg> Pytorch </a><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-r text-gray-500 filter grayscale" href="?fw=tf"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="0.94em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 274"><path d="M145.726 42.065v42.07l72.861 42.07v-42.07l-72.86-42.07zM0 84.135v42.07l36.43 21.03V105.17L0 84.135zm109.291 21.035l-36.43 21.034v126.2l36.43 21.035v-84.135l36.435 21.035v-42.07l-36.435-21.034V105.17z" fill="#E55B2D"></path><path d="M145.726 42.065L36.43 105.17v42.065l72.861-42.065v42.065l36.435-21.03v-84.14zM255.022 63.1l-36.435 21.035v42.07l36.435-21.035V63.1zm-72.865 84.135l-36.43 21.035v42.07l36.43-21.036v-42.07zm-36.43 63.104l-36.436-21.035v84.135l36.435-21.035V210.34z" fill="#ED8E24"></path><path d="M145.726 0L0 84.135l36.43 21.035l109.296-63.105l72.861 42.07L255.022 63.1L145.726 0zm0 126.204l-36.435 21.03l36.435 21.036l36.43-21.035l-36.43-21.03z" fill="#F8BF3C"></path></svg> TensorFlow </a></div> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 max-sm:gap-0.5 h-6 max-sm:h-5 px-2 max-sm:px-1.5 text-[11px] max-sm:text-[9px] font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0"><svg class="w-3 h-3 max-sm:w-2.5 max-sm:h-2.5" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-6 max-sm:h-5 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible w-3 h-3 max-sm:w-2.5 max-sm:h-2.5 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="debugging-the-training-pipeline" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#debugging-the-training-pipeline"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training Pipeline ကို Debugging လုပ်ခြင်း</span></h1> <div class="flex space-x-1 absolute z-10 right-0 top-0" style=""><a href="https://discuss.huggingface.co/t/chapter-8-questions" target="_blank"><img alt="Ask a Question" class="!m-0" src="https://img.shields.io/badge/Ask%20a%20question-ffcb4c.svg?logo=data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHZpZXdCb3g9IjAgLTEgMTA0IDEwNiI+PGRlZnM+PHN0eWxlPi5jbHMtMXtmaWxsOiMyMzFmMjA7fS5jbHMtMntmaWxsOiNmZmY5YWU7fS5jbHMtM3tmaWxsOiMwMGFlZWY7fS5jbHMtNHtmaWxsOiMwMGE5NGY7fS5jbHMtNXtmaWxsOiNmMTVkMjI7fS5jbHMtNntmaWxsOiNlMzFiMjM7fTwvc3R5bGU+PC9kZWZzPjx0aXRsZT5EaXNjb3Vyc2VfbG9nbzwvdGl0bGU+PGcgaWQ9IkxheWVyXzIiPjxnIGlkPSJMYXllcl8zIj48cGF0aCBjbGFzcz0iY2xzLTEiIGQ9Ik01MS44NywwQzIzLjcxLDAsMCwyMi44MywwLDUxYzAsLjkxLDAsNTIuODEsMCw1Mi44MWw1MS44Ni0uMDVjMjguMTYsMCw1MS0yMy43MSw1MS01MS44N1M4MCwwLDUxLjg3LDBaIi8+PHBhdGggY2xhc3M9ImNscy0yIiBkPSJNNTIuMzcsMTkuNzRBMzEuNjIsMzEuNjIsMCwwLDAsMjQuNTgsNjYuNDFsLTUuNzIsMTguNEwzOS40LDgwLjE3YTMxLjYxLDMxLjYxLDAsMSwwLDEzLTYwLjQzWiIvPjxwYXRoIGNsYXNzPSJjbHMtMyIgZD0iTTc3LjQ1LDMyLjEyYTMxLjYsMzEuNiwwLDAsMS0zOC4wNSw0OEwxOC44Niw4NC44MmwyMC45MS0yLjQ3QTMxLjYsMzEuNiwwLDAsMCw3Ny40NSwzMi4xMloiLz48cGF0aCBjbGFzcz0iY2xzLTQiIGQ9Ik03MS42MywyNi4yOUEzMS42LDMxLjYsMCwwLDEsMzguOCw3OEwxOC44Niw4NC44MiwzOS40LDgwLjE3QTMxLjYsMzEuNiwwLDAsMCw3MS42MywyNi4yOVoiLz48cGF0aCBjbGFzcz0iY2xzLTUiIGQ9Ik0yNi40Nyw2Ny4xMWEzMS42MSwzMS42MSwwLDAsMSw1MS0zNUEzMS42MSwzMS42MSwwLDAsMCwyNC41OCw2Ni40MWwtNS43MiwxOC40WiIvPjxwYXRoIGNsYXNzPSJjbHMtNiIgZD0iTTI0LjU4LDY2LjQxQTMxLjYxLDMxLjYxLDAsMCwxLDcxLjYzLDI2LjI5YTMxLjYxLDMxLjYxLDAsMCwwLTQ5LDM5LjYzbC0zLjc2LDE4LjlaIi8+PC9nPjwvZz48L3N2Zz4="></a> <a href="https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter8/section4_tf.ipynb" target="_blank"><img alt="Open In Colab" class="!m-0" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter8/section4_tf.ipynb" target="_blank"><img alt="Open In Studio Lab" class="!m-0" src="https://studiolab.sagemaker.aws/studiolab.svg"></a></div> <p data-svelte-h="svelte-13arnz2">သင်ဟာ <a href="/course/chapter7">Chapter 7</a> က အကြံပြုချက်တွေကို သေချာလိုက်နာပြီး သတ်မှတ်ထားတဲ့ task တစ်ခုပေါ်မှာ model တစ်ခုကို train ဒါမှမဟုတ် fine-tune လုပ်ဖို့ script တစ်ခုကို လှလှပပ ရေးသားခဲ့ပြီးပါပြီ။ ဒါပေမယ့် <code>model.fit()</code> command ကို run လိုက်တဲ့အခါ၊ ကြောက်စရာကောင်းတဲ့ အမှားတစ်ခု ဖြစ်ပေါ်လာပါတယ် 😱! ဒါမှမဟုတ် ပိုဆိုးတာက၊ အရာအားလုံး အဆင်ပြေပြီး training က အမှားမရှိဘဲ run နေပေမယ့်၊ ရရှိလာတဲ့ model က အသုံးမကျပါဘူး။ ဒီအပိုင်းမှာ၊ ဒီလိုပြဿနာမျိုးတွေကို debug လုပ်ဖို့ ဘာတွေလုပ်နိုင်လဲဆိုတာ ပြသပေးပါမယ်။</p> <h2 class="relative group"><a id="debugging-the-training-pipeline" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#debugging-the-training-pipeline"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training Pipeline ကို Debugging လုပ်ခြင်း</span></h2> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/N9kO52itd0Q" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-1yjch9q"><code>model.fit()</code> မှာ error တစ်ခုကြုံတွေ့ရတဲ့ ပြဿနာကတော့ ၎င်းဟာ source များစွာကနေ လာနိုင်တာကြောင့်ပါပဲ။ ဘာလို့လဲဆိုတော့ training က အများအားဖြင့် သင်အဲဒီအချိန်အထိ လုပ်ဆောင်ခဲ့တဲ့ အရာများစွာကို စုစည်းထားလို့ပါပဲ။ ပြဿနာက သင့် dataset မှာ တစ်ခုခု မှားနေတာ ဒါမှမဟုတ် datasets ရဲ့ elements တွေကို အုပ်စုဖွဲ့ဖို့ ကြိုးစားတဲ့အခါ ပြဿနာတစ်ခုခု ဖြစ်နေတာမျိုး ဖြစ်နိုင်ပါတယ်။ ဒါမှမဟုတ် model code မှာ တစ်ခုခု မှားနေတာ ဒါမှမဟုတ် သင့် loss function ဒါမှမဟုတ် optimizer မှာ ပြဿနာရှိနေတာမျိုး ဖြစ်နိုင်ပါတယ်။ training အတွက် အရာအားလုံး အဆင်ပြေသွားရင်တောင်၊ သင့် metric မှာ ပြဿနာရှိနေရင် evaluation လုပ်နေစဉ်မှာ တစ်ခုခု မှားယွင်းသွားနိုင်ပါသေးတယ်။</p> <p data-svelte-h="svelte-10y6e7e"><code>model.fit()</code> မှာ ဖြစ်ပေါ်လာတဲ့ error တစ်ခုကို debug လုပ်ဖို့ အကောင်းဆုံးနည်းလမ်းကတော့ ဒီ pipeline တစ်ခုလုံးကို ကိုယ်တိုင် ပြန်လည်စစ်ဆေးပြီး ဘယ်နေရာမှာ မှားယွင်းသွားလဲဆိုတာ ကြည့်ဖို့ပါပဲ။ အဲဒီအခါ error ကို ဖြေရှင်းရတာ အများအားဖြင့် အလွန်လွယ်ကူပါတယ်။</p> <p data-svelte-h="svelte-1dqo0xv">ဒါကို သရုပ်ပြဖို့အတွက်၊ <a href="https://huggingface.co/datasets/glue" rel="nofollow">MNLI dataset</a> ပေါ်မှာ DistilBERT model တစ်ခုကို fine-tune လုပ်ဖို့ (ကြိုးစားနေတဲ့) အောက်ပါ script ကို ကျွန်တော်တို့ အသုံးပြုပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
	<span class="hljs-keyword">import</span> evaluate
	<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> (
	AutoTokenizer,
	TFAutoModelForSequenceClassification,
	)

	raw_datasets = load_dataset(<span class="hljs-string">"glue"</span>, <span class="hljs-string">"mnli"</span>)

	model_checkpoint = <span class="hljs-string">"distilbert-base-uncased"</span>
	tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)


	<span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_function</span>(<span class="hljs-params">examples</span>):
	<span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">"premise"</span>], examples[<span class="hljs-string">"hypothesis"</span>], truncation=<span class="hljs-literal">True</span>)


	tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(preprocess_function, batched=<span class="hljs-literal">True</span>)

	train_dataset = tokenized_datasets[<span class="hljs-string">"train"</span>].to_tf_dataset(
	columns=[<span class="hljs-string">"input_ids"</span>, <span class="hljs-string">"labels"</span>], batch_size=<span class="hljs-number">16</span>, shuffle=<span class="hljs-literal">True</span>
	)

	validation_dataset = tokenized_datasets[<span class="hljs-string">"validation_matched"</span>].to_tf_dataset(
	columns=[<span class="hljs-string">"input_ids"</span>, <span class="hljs-string">"labels"</span>], batch_size=<span class="hljs-number">16</span>, shuffle=<span class="hljs-literal">True</span>
	)

	model = TFAutoModelForSequenceClassification.from_pretrained(model_checkpoint)

	model.<span class="hljs-built_in">compile</span>(loss=<span class="hljs-string">"sparse_categorical_crossentropy"</span>, optimizer=<span class="hljs-string">"adam"</span>)

	model.fit(train_dataset)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-qv7d7i">သင် ဒါကို run ဖို့ကြိုးစားရင် dataset conversion လုပ်တဲ့အခါ <code>VisibleDeprecationWarning</code>s အချို့ရနိုင်ပါတယ် — ဒါက ကျွန်တော်တို့မှာရှိတဲ့ သိထားပြီးသား UX ပြဿနာတစ်ခုဖြစ်လို့ လျစ်လျူရှုပေးပါ။ အကယ်၍ သင်ဟာ နိုဝင်ဘာ ၂၀၂၁ နောက်ပိုင်းမှာ ဒီသင်တန်းကို ဖတ်နေသေးပြီး ဒါက ဆက်ဖြစ်နေသေးတယ်ဆိုရင် @carrigmat ကို ပြင်ပေးဖို့ rage tweets တွေ ပို့ပေးပါ။</p> <p data-svelte-h="svelte-1ue6gqv">ဒါပေမယ့် ပိုပြီးပြင်းထန်တဲ့ ပြဿနာကတော့ ကျွန်တော်တို့ တိုက်ရိုက် error ရတာပါပဲ။ ပြီးတော့ အဲဒါက တကယ်ကို ကြောက်စရာကောင်းလောက်အောင် ရှည်လျားပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->ValueError: No gradients provided <span class="hljs-keyword">for</span> <span class="hljs-built_in">any</span> variable: [<span class="hljs-string">'tf_distil_bert_for_sequence_classification/distilbert/embeddings/word_embeddings/weight:0'</span>, <span class="hljs-string">'...'</span>]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-9jwdv7">ဒါဘာကို ဆိုလိုတာလဲ။ ကျွန်တော်တို့ data ပေါ်မှာ train လုပ်ဖို့ ကြိုးစားခဲ့ပေမယ့် gradient မရခဲ့ဘူးလား။ ဒါက အတော်လေး ရှုပ်ထွေးပါတယ်၊ ဒီလိုအရာတစ်ခုကို debug လုပ်ဖို့ ဘယ်လိုစတင်ရမလဲ။ သင်ရတဲ့ error က ပြဿနာဘယ်နေရာမှာလဲဆိုတာကို ချက်ချင်းမပြောပြတဲ့အခါ၊ အကောင်းဆုံးဖြေရှင်းနည်းကတော့ အရာတွေကို အဆင့်ဆင့် ပြန်လည်စစ်ဆေးပြီး၊ အဆင့်တိုင်းမှာ အရာအားလုံး မှန်ကန်နေခြင်းရှိမရှိ သေချာစေဖို့ပါပဲ။ ပြီးတော့၊ စတင်ရမယ့်နေရာကတော့ အမြဲတမ်း…</p> <h3 class="relative group"><a id="check-your-data" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#check-your-data"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>သင်၏ Data ကို စစ်ဆေးပါ</span></h3> <p data-svelte-h="svelte-1dvqvkl">ဒါက ပြောစရာမလိုပါဘူး၊ ဒါပေမယ့် သင့် data ပျက်စီးနေတယ်ဆိုရင် Keras က သင့်အတွက် ပြင်ပေးနိုင်မှာ မဟုတ်ပါဘူး။ ဒါကြောင့် ပထမဆုံးအနေနဲ့၊ သင်ရဲ့ training set ထဲမှာ ဘာတွေပါလဲဆိုတာ ကြည့်ဖို့လိုပါတယ်။</p> <p data-svelte-h="svelte-gayh1w"><code>raw_datasets</code> နဲ့ <code>tokenized_datasets</code> ထဲကို ကြည့်ဖို့ ဆွဲဆောင်မှုရှိပေမယ့်၊ data က model ထဲကို ဝင်ရောက်မယ့်နေရာအထိ တိုက်ရိုက်သွားကြည့်ဖို့ ကျွန်တော်တို့ အထူးအကြံပြုပါတယ်။ ဒါက <code>to_tf_dataset()</code> function နဲ့ သင်ဖန်တီးထားတဲ့ <code>tf.data.Dataset</code> ကနေ output တစ်ခုကို ဖတ်တာကို ဆိုလိုပါတယ်! ဒါဆို ဘယ်လိုလုပ်ရမလဲ။ <code>tf.data.Dataset</code> objects တွေက ကျွန်တော်တို့ကို batch လိုက်ပေးပြီး indexing ကို မထောက်ပံ့ပါဘူး၊ ဒါကြောင့် <code>train_dataset[0]</code> ကို တိုက်ရိုက်တောင်းလို့ မရပါဘူး။ သို့သော်လည်း၊ batch တစ်ခုကို ယဉ်ယဉ်ကျေးကျေး တောင်းဆိုနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> train_dataset:
	<span class="hljs-keyword">break</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-8xdiho"><code>break</code> က loop ကို iteration တစ်ခုအပြီးမှာ ရပ်တန့်စေတာကြောင့်၊ ဒါက <code>train_dataset</code> ကနေ ထွက်လာတဲ့ ပထမဆုံး batch ကို ယူပြီး <code>batch</code> အဖြစ် သိမ်းဆည်းပါတယ်။ အခု ဘာတွေပါလဲဆိုတာ ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'attention_mask'</span>: <tf.Tensor: shape=(<span class="hljs-number">16</span>, <span class="hljs-number">76</span>), dtype=int64, numpy=
	array([[<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	...,
	[<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ..., <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>],
	[<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>]])>,
	<span class="hljs-string">'label'</span>: <tf.Tensor: shape=(<span class="hljs-number">16</span>,), dtype=int64, numpy=array([<span class="hljs-number">0</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">2</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">1</span>, <span class="hljs-number">0</span>, <span class="hljs-number">1</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">1</span>])>,
	<span class="hljs-string">'input_ids'</span>: <tf.Tensor: shape=(<span class="hljs-number">16</span>, <span class="hljs-number">76</span>), dtype=int64, numpy=
	array([[ <span class="hljs-number">101</span>, <span class="hljs-number">2174</span>, <span class="hljs-number">1010</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">3174</span>, <span class="hljs-number">2420</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">2044</span>, <span class="hljs-number">2048</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	...,
	[ <span class="hljs-number">101</span>, <span class="hljs-number">3398</span>, <span class="hljs-number">3398</span>, ..., <span class="hljs-number">2051</span>, <span class="hljs-number">2894</span>, <span class="hljs-number">102</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">4124</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">1999</span>, <span class="hljs-number">2070</span>, ..., <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>]])>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-ulfpei">ဒါက မှန်တယ်မလား? ကျွန်တော်တို့ <code>labels</code>, <code>attention_mask</code> နဲ့ <code>input_ids</code> တွေကို model ကို ပေးနေတာဖြစ်ပြီး၊ ဒါတွေအားလုံးက outputs တွေကို တွက်ချက်ဖို့နဲ့ loss ကို တွက်ချက်ဖို့ လိုအပ်တဲ့အရာတွေပါ။ ဒါဆို ဘာလို့ gradient မရှိတာလဲ။ သေချာကြည့်ပါ- ကျွန်တော်တို့ input အဖြစ် dictionary တစ်ခုတည်းကို ပေးနေတာဖြစ်ပေမယ့်၊ training batch တစ်ခုဟာ ပုံမှန်အားဖြင့် input tensor ဒါမှမဟုတ် dictionary တစ်ခုအပြင် labels tensor တစ်ခုပါ ပါဝင်ပါတယ်။ ကျွန်တော်တို့ရဲ့ labels တွေက input dictionary ထဲက key တစ်ခုမျှသာ ဖြစ်နေပါတယ်။</p> <p data-svelte-h="svelte-t2wmt8">ဒါက ပြဿနာလား။ အမြဲတမ်းတော့ မဟုတ်ပါဘူး! ဒါပေမယ့် ဒါက TensorFlow နဲ့ Transformer models တွေကို train လုပ်တဲ့အခါ သင်ကြုံတွေ့ရမယ့် အဖြစ်အများဆုံး ပြဿနာတွေထဲက တစ်ခုပါပဲ။ ကျွန်တော်တို့ရဲ့ models တွေအားလုံးက loss ကို အတွင်းပိုင်းမှာ တွက်ချက်နိုင်ပါတယ်၊ ဒါပေမယ့် အဲဒီလိုလုပ်ဖို့ labels တွေကို input dictionary ထဲမှာ ပေးဖို့လိုပါတယ်။ ဒါက ကျွန်တော်တို့ <code>compile()</code> ကို loss value တစ်ခု မသတ်မှတ်တဲ့အခါ အသုံးပြုတဲ့ loss ပါပဲ။ Keras ကတော့ labels တွေကို input dictionary ကနေ သီးခြားစီ ပေးဖို့ ပုံမှန်အားဖြင့် မျှော်လင့်ပါတယ်၊ ပြီးတော့ သင်အဲဒီလို မလုပ်ရင် loss computations တွေက အများအားဖြင့် အလုပ်လုပ်မှာ မဟုတ်ပါဘူး။</p> <p data-svelte-h="svelte-l4ybkp">ပြဿနာက ပိုပြီး ရှင်းရှင်းလင်းလင်း ဖြစ်လာပါပြီ- ကျွန်တော်တို့ <code>loss</code> argument ကို ပေးခဲ့ပါတယ်၊ ဒါက Keras ကို ကျွန်တော်တို့အတွက် losses တွေ တွက်ချက်ခိုင်းနေတာကို ဆိုလိုပါတယ်၊ ဒါပေမယ့် labels တွေကို model ကို inputs အဖြစ် ပေးခဲ့တာဖြစ်ပြီး Keras မျှော်လင့်တဲ့နေရာမှာ labels အဖြစ် မဟုတ်ပါဘူး! ကျွန်တော်တို့ နှစ်ခုထဲက တစ်ခုကို ရွေးချယ်ဖို့လိုပါတယ်- model ရဲ့ internal loss ကို အသုံးပြုပြီး labels တွေကို ရှိရင်းစွဲနေရာမှာ ထားတာ၊ ဒါမှမဟုတ် Keras losses တွေကို ဆက်လက်အသုံးပြုပြီး labels တွေကို Keras မျှော်လင့်တဲ့နေရာကို ရွှေ့တာ။ ရိုးရှင်းစေဖို့အတွက် ပထမနည်းလမ်းကို ရွေးချယ်ကြရအောင်။ <code>compile()</code> ကို အောက်ပါအတိုင်း ပြောင်းလိုက်ပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model.<span class="hljs-built_in">compile</span>(optimizer=<span class="hljs-string">"adam"</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1vkqm53">အခုဆိုရင် ကျွန်တော်တို့ model ရဲ့ internal loss ကို အသုံးပြုတော့မှာဖြစ်ပြီး၊ ဒီပြဿနာက ဖြေရှင်းပြီးသား ဖြစ်သင့်ပါပြီ။</p> <blockquote class="tip" data-svelte-h="svelte-zniaar"><p>✏️ <strong>သင့်အလှည့်!</strong> အခြားပြဿနာတွေကို ဖြေရှင်းပြီးနောက် စိတ်ကြိုက်စိန်ခေါ်မှုတစ်ခုအနေနဲ့၊ ဒီအဆင့်ကို ပြန်လာပြီး model ကို internal loss အစား မူရင်း Keras-computed loss နဲ့ အလုပ်လုပ်အောင် ကြိုးစားနိုင်ပါတယ်။ labels တွေ မှန်ကန်စွာ output ထွက်လာစေဖို့ <code>to_tf_dataset()</code> ရဲ့ <code>label_cols</code> argument ကို <code>"labels"</code> ထည့်ဖို့ လိုအပ်ပါလိမ့်မယ်၊ ဒါက gradients တွေကို ရစေမှာပါ — ဒါပေမယ့် ကျွန်တော်တို့ သတ်မှတ်ထားတဲ့ loss မှာ နောက်ထပ်ပြဿနာတစ်ခု ရှိပါသေးတယ်။ ဒီပြဿနာနဲ့ training က ဆက် run မှာဖြစ်ပေမယ့်၊ သင်ယူမှုက အလွန်နှေးကွေးပြီး high training loss မှာ ရပ်တန့်နေပါလိမ့်မယ်။ ဒါဘာလဲဆိုတာ သင်တွက်ထုတ်နိုင်မလား။</p> <p>သင်ပိတ်မိနေမယ်ဆိုရင် ROT13-encoded hint တစ်ခု- Vs lbh ybbx ng gur bhgchgf bs FrdhraprPynffvsvpngvba zbqryf va Genafsbezref, gurve svefg bhgchg vf <code>ybtvgf</code>. Jung ner ybtvgf?</p> <p>ပြီးတော့ ဒုတိယ hint- Jura lbh fcrpvsl bcgvzvmref, npgvingvbaf be ybffrf jvgu fgevatf, Xrenf frgf nyy gur nethzrag inyhrf gb gurve qrsnhygf. Jung nethzragf qbrf FcnefrPngrtbevpnyPebffragebcl unir, naq jung ner gurve qrsnhygf?</p></blockquote> <p data-svelte-h="svelte-siakdv">အခု training လုပ်ကြည့်ရအောင်။ ကျွန်တော်တို့ gradients တွေ ရသင့်ပါပြီ၊ ဒါကြောင့် မျှော်လင့်ပါတယ် ( ominious music ) <code>model.fit()</code> ကို ခေါ်လိုက်တာနဲ့ အရာအားလုံး အဆင်ပြေသွားပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --> <span class="hljs-number">246</span>/<span class="hljs-number">24543</span> [..............................] - ETA: <span class="hljs-number">15</span>:<span class="hljs-number">52</span> - loss: nan<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1glqu29">အိုး မဟုတ်ဘူး။</p> <p data-svelte-h="svelte-1xo8fa5"><code>nan</code> က သိပ်ပြီး အားပေးစရာကောင်းတဲ့ loss value တစ်ခု မဟုတ်ပါဘူး။ ဒါတောင် ကျွန်တော်တို့ data ကို စစ်ဆေးခဲ့ပြီးပါပြီ၊ ကောင်းကောင်းမွန်မွန်ပါပဲ။ ဒါက ပြဿနာမဟုတ်ဘူးဆိုရင် နောက်ဘယ်ကို ဆက်သွားရမလဲ။ နောက်ထပ် ရှင်းရှင်းလင်းလင်း လုပ်ဆောင်ရမယ့်အဆင့်ကတော့…</p> <h3 class="relative group"><a id="check-your-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#check-your-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>သင်၏ Model ကို စစ်ဆေးပါ</span></h3> <p data-svelte-h="svelte-1jw9s4b"><code>model.fit()</code> က Keras မှာ တကယ်ကို ကောင်းမွန်တဲ့ convenience function တစ်ခုပါ၊ ဒါပေမယ့် ဒါက သင့်အတွက် အရာများစွာကို လုပ်ဆောင်ပေးပြီး၊ ဒါက ပြဿနာဘယ်နေရာမှာ ဖြစ်ပေါ်ခဲ့လဲဆိုတာ အတိအကျရှာဖွေဖို့ ပိုခက်ခဲစေပါတယ်။ သင် model ကို debug လုပ်နေတယ်ဆိုရင်၊ အမှန်တကယ် အကူအညီဖြစ်စေနိုင်တဲ့ နည်းလမ်းတစ်ခုကတော့ batch တစ်ခုတည်းကို model ကို ပေးပြီး အဲဒီ batch တစ်ခုတည်းအတွက် outputs တွေကို အသေးစိတ်ကြည့်ဖို့ပါပဲ။ model က error တွေ ထုတ်နေတယ်ဆိုရင် နောက်ထပ် အသုံးဝင်တဲ့ အကြံပြုချက်တစ်ခုကတော့ model ကို <code>run_eagerly=True</code> နဲ့ <code>compile()</code> လုပ်ဖို့ပါပဲ။ ဒါက ဒါကို အများကြီး နှေးကွေးစေမှာဖြစ်ပေမယ့်၊ error messages တွေကို ပိုပြီး နားလည်ရလွယ်ကူစေပါလိမ့်မယ်။ ဘာလို့လဲဆိုတော့ ၎င်းတို့က သင့် model ရဲ့ code ထဲမှာ ဘယ်နေရာမှာ ပြဿနာဖြစ်ခဲ့လဲဆိုတာ အတိအကျ ဖော်ပြပေးပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-ygvoyr">ဒါပေမယ့် အခုအတွက်ကတော့ ကျွန်တော်တို့ <code>run_eagerly</code> မလိုအပ်သေးပါဘူး။ ကျွန်တော်တို့ အရင်ရခဲ့တဲ့ <code>batch</code> ကို model ထဲကို run ကြည့်ပြီး outputs တွေ ဘယ်လိုပုံစံလဲဆိုတာ ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model(batch)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->TFSequenceClassifierOutput(loss=<tf.Tensor: shape=(<span class="hljs-number">16</span>,), dtype=float32, numpy=
	array([nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
	nan, nan, nan], dtype=float32)>, logits=<tf.Tensor: shape=(<span class="hljs-number">16</span>, <span class="hljs-number">2</span>), dtype=float32, numpy=
	array([[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan],
	[nan, nan]], dtype=float32)>, hidden_states=<span class="hljs-literal">None</span>, attentions=<span class="hljs-literal">None</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-srngyx">ကောင်းပါပြီ၊ ဒါက ရှုပ်ထွေးပါတယ်။ အရာအားလုံး <code>nan</code> ပါပဲ! ဒါပေမယ့် ဒါက ထူးဆန်းတယ်မလား။ ကျွန်တော်တို့ရဲ့ logits တွေအားလုံး ဘယ်လိုလုပ် <code>nan</code> ဖြစ်သွားတာလဲ။ <code>nan</code> ဆိုတာ “not a number” ကို ဆိုလိုပါတယ်။ <code>nan</code> values တွေက သုညနဲ့စားခြင်းလိုမျိုး မလုပ်ရတဲ့ operation တစ်ခုကို လုပ်ဆောင်တဲ့အခါ မကြာခဏ ဖြစ်ပေါ်ပါတယ်။ ဒါပေမယ့် machine learning မှာ <code>nan</code> အကြောင်း သိထားရမယ့် အလွန်အရေးကြီးတဲ့ အရာတစ်ခုကတော့ ဒီ value က <em>ပျံ့နှံ့တတ်တယ်</em> ဆိုတာပါပဲ။ သင် number တစ်ခုကို <code>nan</code> နဲ့ မြှောက်လိုက်ရင်၊ output ကလည်း <code>nan</code> ဖြစ်ပါတယ်။ ပြီးတော့ သင့် output၊ သင့် loss ဒါမှမဟုတ် သင့် gradient မှာ <code>nan</code> တစ်ခုခု ရခဲ့ရင်၊ ဒါက သင့် model တစ်ခုလုံးကို လျင်မြန်စွာ ပျံ့နှံ့သွားပါလိမ့်မယ် — ဘာလို့လဲဆိုတော့ အဲဒီ <code>nan</code> value က သင့် network ထဲကို ပြန်လည်ရောက်ရှိသွားတဲ့အခါ၊ သင် <code>nan</code> gradients တွေရပါလိမ့်မယ်၊ ပြီးတော့ weight updates တွေကို အဲဒီ gradients တွေနဲ့ တွက်ချက်တဲ့အခါ၊ သင် <code>nan</code> weights တွေရပါလိမ့်မယ်၊ ပြီးတော့ အဲဒီ weights တွေက <code>nan</code> outputs တွေကို ပိုပြီး တွက်ချက်ပေးပါလိမ့်မယ်။ မကြာခင်မှာ network တစ်ခုလုံးက <code>nan</code>s တွေရဲ့ block ကြီးတစ်ခု ဖြစ်လာပါလိမ့်မယ်။ ဒါက ဖြစ်သွားပြီဆိုတာနဲ့၊ ပြဿနာဘယ်ကစလဲဆိုတာ မြင်ဖို့ အတော်လေး ခက်ခဲပါတယ်။ <code>nan</code> ဘယ်ကနေ စတင်ဝင်ရောက်လာလဲဆိုတာ ကျွန်တော်တို့ ဘယ်လို ခွဲခြားနိုင်မလဲ။</p> <p data-svelte-h="svelte-6biw31">အဖြေကတော့ ကျွန်တော်တို့ရဲ့ model ကို <em>reinitialize</em> လုပ်ဖို့ ကြိုးစားတာပါပဲ။ training စတင်ပြီးတာနဲ့၊ ကျွန်တော်တို့ <code>nan</code> တစ်ခုခု ရခဲ့ပြီး ဒါက model တစ်ခုလုံးကို လျင်မြန်စွာ ပျံ့နှံ့သွားခဲ့ပါတယ်။ ဒါကြောင့်၊ model ကို checkpoint တစ်ခုကနေ load လုပ်ပြီး weight updates တွေ မလုပ်ဘဲ၊ ဘယ်နေရာမှာ <code>nan</code> value ရလဲဆိုတာ ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model = TFAutoModelForSequenceClassification.from_pretrained(model_checkpoint)
	model(batch)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-xoad4t">ကျွန်တော်တို့ ဒါကို run လိုက်တဲ့အခါ၊ အောက်ပါအတိုင်း ရပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->TFSequenceClassifierOutput(loss=<tf.Tensor: shape=(<span class="hljs-number">16</span>,), dtype=float32, numpy=
	array([<span class="hljs-number">0.6844486</span> , nan, nan, <span class="hljs-number">0.67127866</span>, <span class="hljs-number">0.7068601</span> ,
	nan, <span class="hljs-number">0.69309855</span>, nan, <span class="hljs-number">0.65531296</span>, nan,
	nan, nan, <span class="hljs-number">0.675402</span> , nan, nan,
	<span class="hljs-number">0.69831556</span>], dtype=float32)>, logits=<tf.Tensor: shape=(<span class="hljs-number">16</span>, <span class="hljs-number">2</span>), dtype=float32, numpy=
	array([[-<span class="hljs-number">0.04761693</span>, -<span class="hljs-number">0.06509043</span>],
	[-<span class="hljs-number">0.0481936</span> , -<span class="hljs-number">0.04556257</span>],
	[-<span class="hljs-number">0.0040929</span> , -<span class="hljs-number">0.05848458</span>],
	[-<span class="hljs-number">0.02417453</span>, -<span class="hljs-number">0.0684005</span> ],
	[-<span class="hljs-number">0.02517801</span>, -<span class="hljs-number">0.05241832</span>],
	[-<span class="hljs-number">0.04514256</span>, -<span class="hljs-number">0.0757378</span> ],
	[-<span class="hljs-number">0.02656011</span>, -<span class="hljs-number">0.02646275</span>],
	[ <span class="hljs-number">0.00766164</span>, -<span class="hljs-number">0.04350497</span>],
	[ <span class="hljs-number">0.02060014</span>, -<span class="hljs-number">0.05655622</span>],
	[-<span class="hljs-number">0.02615328</span>, -<span class="hljs-number">0.0447021</span> ],
	[-<span class="hljs-number">0.05119278</span>, -<span class="hljs-number">0.06928903</span>],
	[-<span class="hljs-number">0.02859691</span>, -<span class="hljs-number">0.04879177</span>],
	[-<span class="hljs-number">0.02210129</span>, -<span class="hljs-number">0.05791225</span>],
	[-<span class="hljs-number">0.02363213</span>, -<span class="hljs-number">0.05962167</span>],
	[-<span class="hljs-number">0.05352269</span>, -<span class="hljs-number">0.0481673</span> ],
	[-<span class="hljs-number">0.08141848</span>, -<span class="hljs-number">0.07110836</span>]], dtype=float32)>, hidden_states=<span class="hljs-literal">None</span>, attentions=<span class="hljs-literal">None</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1maf7b3"><em>အခု</em>တော့ တစ်ခုခု ရလာပြီ! ကျွန်တော်တို့ရဲ့ logits တွေမှာ <code>nan</code> values တွေ မရှိတော့ဘူးဆိုတာ စိတ်ချရပါတယ်။ ဒါပေမယ့် ကျွန်တော်တို့ loss မှာ <code>nan</code> values အနည်းငယ်ကို တွေ့ရပါတယ်။ ဒါက အဲဒီ samples တွေနဲ့ပတ်သက်တဲ့ ဘာတစ်ခုခုက ဒီပြဿနာကို ဖြစ်စေတာလဲ။ ဘယ်အရာတွေလဲဆိုတာ ကြည့်ရအောင် (ဒီ code ကို သင်ကိုယ်တိုင် run မယ်ဆိုရင်၊ dataset ကို shuffle လုပ်ထားတာကြောင့် သင်မတူညီတဲ့ indices တွေ ရနိုင်တယ်ဆိုတာ သတိပြုပါ)။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> numpy <span class="hljs-keyword">as</span> np

	loss = model(batch).loss.numpy()
	indices = np.flatnonzero(np.isnan(loss))
	indices<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->array([ <span class="hljs-number">1</span>, <span class="hljs-number">2</span>, <span class="hljs-number">5</span>, <span class="hljs-number">7</span>, <span class="hljs-number">9</span>, <span class="hljs-number">10</span>, <span class="hljs-number">11</span>, <span class="hljs-number">13</span>, <span class="hljs-number">14</span>])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1alr8eq">ဒီ indices တွေကနေ ဘယ် samples တွေလာလဲဆိုတာ ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->input_ids = batch[<span class="hljs-string">"input_ids"</span>].numpy()
	input_ids[indices]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->array([[ <span class="hljs-number">101</span>, <span class="hljs-number">2007</span>, <span class="hljs-number">2032</span>, <span class="hljs-number">2001</span>, <span class="hljs-number">1037</span>, <span class="hljs-number">16480</span>, <span class="hljs-number">3917</span>, <span class="hljs-number">2594</span>, <span class="hljs-number">4135</span>,
	<span class="hljs-number">23212</span>, <span class="hljs-number">3070</span>, <span class="hljs-number">2214</span>, <span class="hljs-number">10170</span>, <span class="hljs-number">1010</span>, <span class="hljs-number">2012</span>, <span class="hljs-number">4356</span>, <span class="hljs-number">1997</span>, <span class="hljs-number">3183</span>,
	<span class="hljs-number">6838</span>, <span class="hljs-number">12953</span>, <span class="hljs-number">2039</span>, <span class="hljs-number">2000</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">6147</span>, <span class="hljs-number">1997</span>, <span class="hljs-number">2010</span>, <span class="hljs-number">2606</span>,
	<span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">6838</span>, <span class="hljs-number">2001</span>, <span class="hljs-number">3294</span>, <span class="hljs-number">6625</span>, <span class="hljs-number">3773</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">2214</span>,
	<span class="hljs-number">2158</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">1998</span>, <span class="hljs-number">6814</span>, <span class="hljs-number">2016</span>, <span class="hljs-number">2234</span>, <span class="hljs-number">2461</span>, <span class="hljs-number">2153</span>, <span class="hljs-number">1998</span>, <span class="hljs-number">13322</span>,
	<span class="hljs-number">2009</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">2045</span>, <span class="hljs-number">1005</span>, <span class="hljs-number">1055</span>, <span class="hljs-number">2053</span>, <span class="hljs-number">3382</span>, <span class="hljs-number">2008</span>,
	<span class="hljs-number">2016</span>, <span class="hljs-number">1005</span>, <span class="hljs-number">2222</span>, <span class="hljs-number">3046</span>, <span class="hljs-number">8103</span>, <span class="hljs-number">2075</span>, <span class="hljs-number">2009</span>, <span class="hljs-number">2153</span>, <span class="hljs-number">1012</span>,
	<span class="hljs-number">102</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">1998</span>, <span class="hljs-number">2007</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">3712</span>, <span class="hljs-number">4634</span>, <span class="hljs-number">1010</span>, <span class="hljs-number">2057</span>, <span class="hljs-number">8108</span>,
	<span class="hljs-number">2025</span>, <span class="hljs-number">3404</span>, <span class="hljs-number">2028</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">2616</span>, <span class="hljs-number">18449</span>, <span class="hljs-number">2125</span>, <span class="hljs-number">1999</span>,
	<span class="hljs-number">1037</span>, <span class="hljs-number">9666</span>, <span class="hljs-number">1997</span>, <span class="hljs-number">4100</span>, <span class="hljs-number">8663</span>, <span class="hljs-number">11020</span>, <span class="hljs-number">6313</span>, <span class="hljs-number">2791</span>, <span class="hljs-number">1998</span>,
	<span class="hljs-number">2431</span>, <span class="hljs-number">1011</span>, <span class="hljs-number">4301</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">2028</span>, <span class="hljs-number">1005</span>, <span class="hljs-number">1055</span>, <span class="hljs-number">5177</span>,
	<span class="hljs-number">2110</span>, <span class="hljs-number">1998</span>, <span class="hljs-number">3977</span>, <span class="hljs-number">2000</span>, <span class="hljs-number">2832</span>, <span class="hljs-number">2106</span>, <span class="hljs-number">2025</span>, <span class="hljs-number">2689</span>, <span class="hljs-number">2104</span>,
	<span class="hljs-number">2122</span>, <span class="hljs-number">6214</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">1045</span>, <span class="hljs-number">2001</span>, <span class="hljs-number">1999</span>, <span class="hljs-number">1037</span>, <span class="hljs-number">13090</span>, <span class="hljs-number">5948</span>, <span class="hljs-number">2007</span>, <span class="hljs-number">2048</span>,
	<span class="hljs-number">2308</span>, <span class="hljs-number">2006</span>, <span class="hljs-number">2026</span>, <span class="hljs-number">5001</span>, <span class="hljs-number">2043</span>, <span class="hljs-number">2026</span>, <span class="hljs-number">2171</span>, <span class="hljs-number">2001</span>, <span class="hljs-number">2170</span>,
	<span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">1045</span>, <span class="hljs-number">2001</span>, <span class="hljs-number">3564</span>, <span class="hljs-number">1999</span>, <span class="hljs-number">2277</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">2195</span>, <span class="hljs-number">4279</span>, <span class="hljs-number">2191</span>, <span class="hljs-number">2039</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">2181</span>, <span class="hljs-number">2124</span>, <span class="hljs-number">2004</span>,
	<span class="hljs-number">1996</span>, <span class="hljs-number">2225</span>, <span class="hljs-number">7363</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">2045</span>, <span class="hljs-number">2003</span>, <span class="hljs-number">2069</span>, <span class="hljs-number">2028</span>,
	<span class="hljs-number">2451</span>, <span class="hljs-number">1999</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">2225</span>, <span class="hljs-number">7363</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">2061</span>, <span class="hljs-number">2008</span>, <span class="hljs-number">1045</span>, <span class="hljs-number">2123</span>, <span class="hljs-number">1005</span>, <span class="hljs-number">1056</span>, <span class="hljs-number">2113</span>, <span class="hljs-number">2065</span>,
	<span class="hljs-number">2009</span>, <span class="hljs-number">2428</span>, <span class="hljs-number">10654</span>, <span class="hljs-number">7347</span>, <span class="hljs-number">2030</span>, <span class="hljs-number">2009</span>, <span class="hljs-number">7126</span>, <span class="hljs-number">2256</span>, <span class="hljs-number">2495</span>,
	<span class="hljs-number">2291</span>, <span class="hljs-number">102</span>, <span class="hljs-number">2009</span>, <span class="hljs-number">2003</span>, <span class="hljs-number">5094</span>, <span class="hljs-number">2256</span>, <span class="hljs-number">2495</span>, <span class="hljs-number">2291</span>, <span class="hljs-number">2035</span>,
	<span class="hljs-number">2105</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">2051</span>, <span class="hljs-number">1010</span>, <span class="hljs-number">2029</span>, <span class="hljs-number">3216</span>, <span class="hljs-number">2019</span>, <span class="hljs-number">2503</span>, <span class="hljs-number">3444</span>, <span class="hljs-number">1010</span>,
	<span class="hljs-number">6732</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">2265</span>, <span class="hljs-number">2038</span>, <span class="hljs-number">19840</span>, <span class="hljs-number">2098</span>, <span class="hljs-number">2125</span>, <span class="hljs-number">9906</span>, <span class="hljs-number">1998</span>,
	<span class="hljs-number">2003</span>, <span class="hljs-number">2770</span>, <span class="hljs-number">2041</span>, <span class="hljs-number">1997</span>, <span class="hljs-number">4784</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">2051</span>, <span class="hljs-number">6732</span>,
	<span class="hljs-number">1996</span>, <span class="hljs-number">2265</span>, <span class="hljs-number">2003</span>, <span class="hljs-number">9525</span>, <span class="hljs-number">1998</span>, <span class="hljs-number">4569</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">1996</span>, <span class="hljs-number">10556</span>, <span class="hljs-number">2140</span>, <span class="hljs-number">11515</span>, <span class="hljs-number">2058</span>, <span class="hljs-number">1010</span>, <span class="hljs-number">2010</span>, <span class="hljs-number">2162</span>,
	<span class="hljs-number">2252</span>, <span class="hljs-number">5689</span>, <span class="hljs-number">2013</span>, <span class="hljs-number">2010</span>, <span class="hljs-number">7223</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">2043</span>, <span class="hljs-number">1996</span>,
	<span class="hljs-number">10556</span>, <span class="hljs-number">2140</span>, <span class="hljs-number">11515</span>, <span class="hljs-number">2058</span>, <span class="hljs-number">1010</span>, <span class="hljs-number">2010</span>, <span class="hljs-number">2252</span>, <span class="hljs-number">3062</span>, <span class="hljs-number">2000</span>,
	<span class="hljs-number">1996</span>, <span class="hljs-number">2598</span>, <span class="hljs-number">1012</span>, <span class="hljs-number">102</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>],
	[ <span class="hljs-number">101</span>, <span class="hljs-number">13543</span>, <span class="hljs-number">1999</span>, <span class="hljs-number">2049</span>, <span class="hljs-number">6143</span>, <span class="hljs-number">2933</span>, <span class="hljs-number">2443</span>, <span class="hljs-number">102</span>, <span class="hljs-number">2025</span>,
	<span class="hljs-number">13543</span>, <span class="hljs-number">1999</span>, <span class="hljs-number">6143</span>, <span class="hljs-number">2933</span>, <span class="hljs-number">2003</span>, <span class="hljs-number">2443</span>, <span class="hljs-number">102</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>,
	<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>]])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-rmjeqq">ဒီထဲမှာ အများကြီးပါပေမယ့် ထူးဆန်းတာမျိုး မရှိပါဘူး။ labels တွေကို ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->labels = batch[<span class="hljs-string">'labels'</span>].numpy()
	labels[indices]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->array([<span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>, <span class="hljs-number">2</span>])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-ywzwdu">အာ! <code>nan</code> samples တွေအားလုံးမှာ label တူတူရှိပြီး၊ အဲဒါက label 2 ပါ။ ဒါက အရမ်းကောင်းတဲ့ သဲလွန်စတစ်ခုပါပဲ။ ကျွန်တော်တို့ရဲ့ label က 2 ဖြစ်တဲ့အခါမှသာ <code>nan</code> loss ရတာက ကျွန်တော်တို့ model မှာရှိတဲ့ labels အရေအတွက်ကို စစ်ဆေးဖို့ အလွန်ကောင်းတဲ့ အချိန်ဖြစ်တယ်လို့ အကြံပြုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model.config.num_labels<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-number">2</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1utz76m">အခု ကျွန်တော်တို့ ပြဿနာကို မြင်ပါပြီ- model က classes နှစ်ခုပဲ ရှိတယ်လို့ ထင်နေပေမယ့်၊ labels တွေက 2 အထိ ရောက်နေပါတယ်၊ ဒါက တကယ်တော့ classes သုံးခုရှိတယ်လို့ ဆိုလိုပါတယ် (ဘာလို့လဲဆိုတော့ 0 ကလည်း class တစ်ခု ဖြစ်လို့ပါ)။ ဒီလိုနဲ့ <code>nan</code> ကို ရခဲ့တာပါ — မရှိတဲ့ class တစ်ခုအတွက် loss ကို တွက်ချက်ဖို့ ကြိုးစားခဲ့တာကြောင့်ပါ! ဒါကို ပြောင်းလဲပြီး model ကို ထပ်မံ fit လုပ်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model = TFAutoModelForSequenceClassification.from_pretrained(model_checkpoint, <span class="hljs-attribute">num_labels</span>=3)
	model.compile(<span class="hljs-attribute">optimizer</span>=<span class="hljs-string">'adam'</span>)
	model.fit(train_dataset)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --> <span class="hljs-number">869</span>/<span class="hljs-number">24543</span> [>.............................] - ETA: <span class="hljs-number">15</span>:<span class="hljs-number">29</span> - loss: <span class="hljs-number">1.1032</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1qgniof">ကျွန်တော်တို့ train လုပ်နေပါပြီ! <code>nan</code>s တွေ မရှိတော့ဘူး၊ ပြီးတော့ ကျွန်တော်တို့ရဲ့ loss က ကျဆင်းနေပါတယ်… တစ်နည်းအားဖြင့်ပေါ့။ သင် ခဏလောက် ကြည့်နေမယ်ဆိုရင် သင်နည်းနည်း စိတ်မရှည်ဖြစ်လာနိုင်ပါတယ်။ ဘာလို့လဲဆိုတော့ loss value က မြင့်တက်နေဆဲမို့ပါပဲ။ ဒီနေရာမှာ training ကို ရပ်ပြီး ဒီပြဿနာကို ဘာကဖြစ်စေနိုင်မလဲဆိုတာ စဉ်းစားကြည့်ရအောင်။ ဒီအဆင့်မှာတော့ data နဲ့ model နှစ်ခုလုံး အဆင်ပြေတယ်လို့ ကျွန်တော်တို့ ယုံကြည်ပါတယ်။ ဒါပေမယ့် ကျွန်တော်တို့ model က ကောင်းကောင်း သင်ယူနေတာ မဟုတ်ပါဘူး။ တခြားဘာကျန်သေးလဲ။ အချိန်ရောက်ပြီ…</p> <h3 class="relative group"><a id="check-your-hyperparameters" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#check-your-hyperparameters"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>သင်၏ Hyperparameters များကို စစ်ဆေးပါ</span></h3> <p data-svelte-h="svelte-sp9q18">အပေါ်က code ကို ပြန်ကြည့်လိုက်ရင်၊ <code>batch_size</code> မှလွဲပြီး hyperparameter တစ်ခုမှ သင်မတွေ့နိုင်ပါဘူး၊ ပြီးတော့ ဒါက ဖြစ်နိုင်ခြေရှိတဲ့ တရားခံတစ်ဦးလို့ မထင်ပါဘူး။ ဒါပေမယ့် မလှည့်စားပါနဲ့၊ hyperparameters တွေက အမြဲတမ်းရှိနေပြီး၊ သင်မမြင်နိုင်ဘူးဆိုရင် အဲဒါတွေ ဘယ်လို သတ်မှတ်ထားလဲဆိုတာ သင်မသိဘူးလို့ပဲ ဆိုလိုပါတယ်။ အထူးသဖြင့် Keras အကြောင်း အရေးကြီးတဲ့အချက်တစ်ခုကို မှတ်ထားပါ- သင် loss, optimizer, ဒါမှမဟုတ် activation function ကို string နဲ့ သတ်မှတ်လိုက်ရင်၊ <em>၎င်းရဲ့ arguments အားလုံးကို ၎င်းတို့ရဲ့ default values တွေအတိုင်း သတ်မှတ်လိုက်ပါလိမ့်မယ်</em>။ ဒါက strings တွေကို အသုံးပြုတာက အလွန်အဆင်ပြေပေမယ့်၊ ဒီလိုလုပ်တဲ့အခါ အလွန်သတိထားသင့်ပါတယ်။ ဘာလို့လဲဆိုတော့ ဒါက သင့်ဆီကနေ အရေးကြီးတဲ့အရာတွေကို အလွယ်တကူ ဝှက်ထားနိုင်လို့ပါပဲ။ (အပေါ်က optional challenge ကို စမ်းကြည့်နေသူတိုင်း ဒီအချက်ကို သေချာမှတ်သားထားသင့်ပါတယ်)။</p> <p data-svelte-h="svelte-1x9uk12">ဒီကိစ္စမှာ၊ ကျွန်တော်တို့ argument ကို string နဲ့ ဘယ်နေရာမှာ သတ်မှတ်ခဲ့လဲ။ ကျွန်တော်တို့ loss ကို string နဲ့ စတင်သတ်မှတ်ခဲ့ပေမယ့် အခုတော့ အဲဒီလို မလုပ်တော့ပါဘူး။ ဒါပေမယ့် optimizer ကို string နဲ့ သတ်မှတ်နေပါတယ်။ ဒါက ကျွန်တော်တို့ဆီကနေ တစ်ခုခုကို ဝှက်ထားနိုင်မလား။ <a href="https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam" rel="nofollow">၎င်းရဲ့ arguments</a> တွေကို ကြည့်ရအောင်။</p> <p data-svelte-h="svelte-llsktq">ဒီနေရာမှာ ထူးခြားတာ တစ်ခုခုရှိလား။ မှန်ပါတယ် — learning rate! ကျွန်တော်တို့ ရိုးရိုး <code>adam</code> string ကို အသုံးပြုတဲ့အခါ၊ default learning rate ဖြစ်တဲ့ 0.001 (ဒါမှမဟုတ် 1e-3) ကို ရရှိမှာပါ။ ဒါက Transformer model တစ်ခုအတွက် အလွန်မြင့်မားပါတယ်။ ယေဘုယျအားဖြင့်၊ သင့် models တွေအတွက် 1e-5 နဲ့ 1e-4 ကြား learning rates တွေကို စမ်းသပ်ဖို့ ကျွန်တော်တို့ အကြံပြုပါတယ်၊ ဒါက ကျွန်တော်တို့ ဒီနေရာမှာ အမှန်တကယ် အသုံးပြုနေတဲ့ value ထက် ၁၀ ဆမှ ၁၀၀ ဆအထိ နည်းပါတယ်။ ဒါက အဓိကပြဿနာတစ်ခု ဖြစ်နိုင်တယ်လို့ ထင်ရတာကြောင့် ဒါကို လျှော့ချဖို့ ကြိုးစားရအောင်။ ဒါကိုလုပ်ဖို့၊ ကျွန်တော်တို့ actual <code>optimizer</code> object ကို import လုပ်ဖို့လိုပါတယ်။ အဲဒီလိုလုပ်ရင်း၊ မြင့်မားတဲ့ learning rate နဲ့ train လုပ်တာက weights တွေကို ထိခိုက်စေနိုင်တဲ့အတွက် model ကို checkpoint ကနေ reinitialize လုပ်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> tensorflow.keras.optimizers <span class="hljs-keyword">import</span> Adam

	model = TFAutoModelForSequenceClassification.from_pretrained(model_checkpoint)
	model.<span class="hljs-built_in">compile</span>(optimizer=Adam(<span class="hljs-number">5e-5</span>))<!-- HTML_TAG_END --></pre></div> <blockquote class="tip" data-svelte-h="svelte-1uq7q4t"><p>💡 သင် 🤗 Transformers ကနေ <code>create_optimizer()</code> function ကိုလည်း import လုပ်နိုင်ပါတယ်။ ဒါက သင့်ကို မှန်ကန်တဲ့ weight decay နဲ့ learning rate warmup နဲ့ decay ပါဝင်တဲ့ AdamW optimizer ကို ပေးပါလိမ့်မယ်။ ဒီ optimizer က default Adam optimizer နဲ့ ရရှိတဲ့ ရလဒ်တွေထက် အနည်းငယ် ပိုကောင်းတဲ့ ရလဒ်တွေကို မကြာခဏ ထုတ်လုပ်ပေးပါလိမ့်မယ်။</p></blockquote> <p data-svelte-h="svelte-8w0q0a">အခု၊ အသစ်၊ ပိုကောင်းမွန်တဲ့ learning rate နဲ့ model ကို fit လုပ်ကြည့်နိုင်ပါပြီ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model.fit(train_dataset)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-number">319</span>/<span class="hljs-number">24543</span> [..............................] - ETA: <span class="hljs-number">16</span>:07 - loss: <span class="hljs-number">0.9718</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1r785hf">အခု ကျွန်တော်တို့ရဲ့ loss က တကယ်ကို ကျဆင်းနေပါပြီ! Training က နောက်ဆုံးမှာ အလုပ်လုပ်နေပုံရပါတယ်။ ဒီနေရာမှာ သင်ခန်းစာတစ်ခု ရှိပါတယ်- သင့် model က run နေပေမယ့် loss က မကျဆင်းဘူးဆိုရင်၊ ပြီးတော့ သင့် data က အဆင်ပြေတယ်လို့ သင်သေချာတယ်ဆိုရင်၊ learning rate နဲ့ weight decay လိုမျိုး hyperparameters တွေကို စစ်ဆေးတာက ကောင်းပါတယ်။ အဲဒီနှစ်ခုထဲက တစ်ခုခုကို အလွန်အမင်း မြင့်မားစွာ သတ်မှတ်တာက training ကို high loss value မှာ “ရပ်တန့်” စေနိုင်ခြေ အများဆုံးပါပဲ။</p> <h2 class="relative group"><a id="other-potential-issues" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#other-potential-issues"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>အခြားဖြစ်နိုင်ခြေရှိသော ပြဿနာများ</span></h2> <p data-svelte-h="svelte-1cgenx">အပေါ်က script ထဲက ပြဿနာတွေကို ကျွန်တော်တို့ ဖော်ပြခဲ့ပြီးပါပြီ၊ ဒါပေမယ့် သင်ကြုံတွေ့ရနိုင်တဲ့ အခြား common errors အချို့ ရှိပါသေးတယ်။ (အလွန်မပြည့်စုံသေးတဲ့) စာရင်းတစ်ခုကို ကြည့်ရအောင်။</p> <h3 class="relative group"><a id="dealing-with-out-of-memory-errors" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#dealing-with-out-of-memory-errors"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Out-of-memory errors များကို ကိုင်တွယ်ဖြေရှင်းခြင်း</span></h3> <p data-svelte-h="svelte-15itctu">memory ကုန်ဆုံးနေကြောင်း ပြသတဲ့ လက္ခဏာကတော့ “OOM when allocating tensor” လိုမျိုး error ပါပဲ — OOM က “out of memory” ရဲ့ အတိုကောက်ပါ။ ဒါက large language models တွေနဲ့ အလုပ်လုပ်တဲ့အခါ အလွန်အဖြစ်များတဲ့ အန္တရာယ်တစ်ခုပါပဲ။ သင်ဒါကို ကြုံတွေ့ရရင်၊ batch size ကို တစ်ဝက်လျှော့ချပြီး ထပ်ကြိုးစားကြည့်တာက ကောင်းပါတယ်။ ဒါပေမယ့် models တချို့က <em>အလွန်</em> ကြီးမားတယ်ဆိုတာ သတိရပါ။ ဥပမာ၊ full-size GPT-2 မှာ parameters 1.5B ပါဝင်ပါတယ်၊ ဒါက model ကို သိမ်းဆည်းဖို့အတွက် 6 GB of memory လိုအပ်ပြီး၊ ၎င်းရဲ့ gradients တွေအတွက် နောက်ထပ် 6 GB လိုအပ်ပါလိမ့်မယ်! full GPT-2 model ကို train လုပ်တာက သင်ဘယ် batch size ကို အသုံးပြုပါစေ VRAM 20 GB ကျော် လိုအပ်မှာဖြစ်ပြီး၊ GPUs အနည်းငယ်သာ ဒါကို ပိုင်ဆိုင်ပါတယ်။ <code>distilbert-base-cased</code> လိုမျိုး ပိုပေါ့ပါးတဲ့ models တွေကတော့ run ရတာ အများကြီး ပိုလွယ်ကူပြီး၊ train လုပ်ရတာလည်း ပိုမြန်ဆန်ပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-1lz67us"><p>သင်တန်းရဲ့ နောက်အပိုင်းမှာ၊ memory footprint ကို လျှော့ချပြီး အကြီးဆုံး models တွေကို fine-tune လုပ်နိုင်စေမယ့် ပိုမိုအဆင့်မြင့်တဲ့ နည်းလမ်းတွေကို ကျွန်တော်တို့ ကြည့်ရှုသွားမှာပါ။</p></blockquote> <h3 class="relative group"><a id="hungry-hungry-tensorflow" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#hungry-hungry-tensorflow"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Hungry Hungry TensorFlow 🦛</span></h3> <p data-svelte-h="svelte-y1cn3q">TensorFlow ရဲ့ ထူးခြားတဲ့ အချက်တစ်ချက်ကတော့ သင် model တစ်ခု load လုပ်တာ ဒါမှမဟုတ် training လုပ်တာနဲ့ တပြိုင်နက် သင့် GPU memory အားလုံးကို သူ့ဘာသာသူ ခွဲဝေယူပြီး၊ လိုအပ်သလို အဲဒီ memory ကို ခွဲခြမ်းပေးပါတယ်။ ဒါက PyTorch လိုမျိုး အခြား frameworks တွေရဲ့ လုပ်ဆောင်ပုံနဲ့ ကွာခြားပါတယ်။ PyTorch က memory ကို CUDA နဲ့ လိုအပ်သလို ခွဲဝေယူတာမျိုး မလုပ်ပါဘူး။ TensorFlow နည်းလမ်းရဲ့ အားသာချက်တစ်ခုကတော့ memory ကုန်သွားတဲ့အခါ အသုံးဝင်တဲ့ errors တွေ ပေးတတ်ပြီး၊ CUDA kernel တစ်ခုလုံး crash မဖြစ်ဘဲ အဲဒီအခြေအနေကနေ ပြန်လည်ကောင်းမွန်လာနိုင်တာပါပဲ။ ဒါပေမယ့် အရေးကြီးတဲ့ အားနည်းချက်တစ်ခုလည်း ရှိပါတယ်- သင် TensorFlow processes နှစ်ခုကို တစ်ပြိုင်နက်တည်း run မယ်ဆိုရင်၊ <strong>သင် ဆိုးရွားတဲ့ အခြေအနေတစ်ခုနဲ့ ကြုံတွေ့ရပါလိမ့်မယ်</strong>။</p> <p data-svelte-h="svelte-p6qr73">သင် Colab ပေါ်မှာ run နေတယ်ဆိုရင် ဒါကို စိုးရိမ်စရာမလိုပါဘူး၊ ဒါပေမယ့် သင် locally run နေတယ်ဆိုရင် ဒါက သေချာပေါက် ဂရုစိုက်သင့်တဲ့အရာတစ်ခုပါ။ အထူးသဖြင့်၊ notebook tab တစ်ခုကို ပိတ်လိုက်တာနဲ့ အဲဒီ notebook က အမြဲတမ်း ပိတ်သွားတာ မဟုတ်ဘူးဆိုတာ သတိပြုပါ။ သင် run နေတဲ့ notebooks တွေကို (green icon ရှိတဲ့ ones) ရွေးပြီး directory listing မှာ ကိုယ်တိုင် ပိတ်ဖို့ လိုအပ်နိုင်ပါတယ်။ TensorFlow ကို အသုံးပြုနေတဲ့ run နေတဲ့ notebook တစ်ခုခုက သင့် GPU memory အများအပြားကို ဆက်ကိုင်ထားနိုင်ပြီး၊ ဒါက သင်စတင်တဲ့ notebook အသစ်တိုင်းမှာ အလွန်ထူးဆန်းတဲ့ ပြဿနာအချို့ ကြုံတွေ့ရနိုင်တယ်လို့ ဆိုလိုပါတယ်။</p> <p data-svelte-h="svelte-1kvqdvg">သင့် code မှာ CUDA, BLAS, ဒါမှမဟုတ် cuBLAS နဲ့ပတ်သက်တဲ့ errors တွေ အရင်က အလုပ်လုပ်ခဲ့တာကနေ ရလာပြီဆိုရင်၊ ဒါက အများအားဖြင့် တရားခံပါပဲ။ <code>nvidia-smi</code> လို command တစ်ခုကို အသုံးပြုပြီး စစ်ဆေးနိုင်ပါတယ် — သင့်လက်ရှိ notebook ကို ပိတ်လိုက်တာ ဒါမှမဟုတ် restart လုပ်လိုက်တဲ့အခါ၊ သင့် memory အများစုက လွတ်နေလား၊ ဒါမှမဟုတ် အသုံးပြုနေဆဲလား။ အသုံးပြုနေဆဲဆိုရင်၊ တခြားတစ်ခုခုက ဒါကို ကိုင်ထားတာ ဖြစ်ပါတယ်။</p> <h3 class="relative group"><a id="check-your-data-again" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#check-your-data-again"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>သင်၏ Data ကို စစ်ဆေးပါ (ထပ်မံ၍!)</span></h3> <p data-svelte-h="svelte-gt66tu">သင့် data ကနေ တစ်ခုခု သင်ယူနိုင်တယ်ဆိုမှပဲ သင်၏ model က သင်ယူပါလိမ့်မယ်။ data ကို ပျက်စီးစေတဲ့ bug တစ်ခုခုရှိနေရင် ဒါမှမဟုတ် labels တွေက ကျပန်းသတ်မှတ်ထားတယ်ဆိုရင်၊ သင်၏ dataset ပေါ်မှာ model training က ကောင်းကောင်းဖြစ်လာမှာ မဟုတ်ပါဘူး။ ဒီနေရာမှာ အသုံးဝင်တဲ့ ကိရိယာတစ်ခုက <code>tokenizer.decode()</code> ပါပဲ။ ဒါက <code>input_ids</code> တွေကို strings တွေအဖြစ် ပြန်ပြောင်းပေးတာကြောင့်၊ သင် data ကို ကြည့်ရှုပြီး သင့် training data က သင်လိုချင်တာကို သင်ပေးနေခြင်းရှိမရှိ သိနိုင်ပါတယ်။ ဥပမာ၊ အပေါ်မှာ ကျွန်တော်တို့ လုပ်ခဲ့သလို သင့် <code>tf.data.Dataset</code> ကနေ <code>batch</code> တစ်ခု ရပြီးနောက်၊ ပထမဆုံး element ကို အောက်ပါအတိုင်း decode လုပ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->input_ids = batch[<span class="hljs-string">"input_ids"</span>].numpy()
	tokenizer.decode(input_ids[<span class="hljs-number">0</span>])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-12gbzqr">ပြီးရင် ဒါကို ပထမဆုံး label နဲ့ အောက်ပါအတိုင်း နှိုင်းယှဉ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->labels = batch[<span class="hljs-string">"labels"</span>].numpy()
	label = labels[<span class="hljs-number">0</span>]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1il5hk5">သင့် data ကို ဒီလိုကြည့်ရှုနိုင်ပြီဆိုတာနဲ့၊ သင်ကိုယ်တိုင် အောက်ပါမေးခွန်းတွေကို မေးနိုင်ပါတယ်။</p> <ul data-svelte-h="svelte-1p3t5ic"><li>decode လုပ်ထားတဲ့ data က နားလည်ရလွယ်ကူလား။</li> <li>labels တွေကို သင်သဘောတူလား။</li> <li>အခြား labels တွေထက် ပိုအဖြစ်များတဲ့ label တစ်ခုခု ရှိလား။</li> <li>model က random answer/အမြဲတမ်း အဖြေတူတူကို ခန့်မှန်းရင် loss/metric က ဘယ်လောက်ဖြစ်သင့်လဲ။</li></ul> <p data-svelte-h="svelte-xtwqio">သင့် data ကို ကြည့်ပြီးနောက်၊ model ရဲ့ predictions အချို့ကို ကြည့်ပါ — သင့် model က tokens တွေကို ထုတ်လုပ်တယ်ဆိုရင် ဒါတွေကိုလည်း decode လုပ်ကြည့်ပါ။ အကယ်၍ model က အမြဲတမ်း တူညီတဲ့အရာကို ခန့်မှန်းနေတယ်ဆိုရင် ဒါက သင့် dataset က category တစ်ခုကို ဘက်လိုက်နေတာကြောင့် ဖြစ်နိုင်ပါတယ် (classification problems အတွက်)၊ ဒါကြောင့် oversampling rare classes လိုမျိုး နည်းလမ်းတွေက အကူအညီဖြစ်နိုင်ပါတယ်။ တစ်နည်းအားဖြင့်၊ ဒါက bad hyperparameter settings လိုမျိုး training ပြဿနာတွေကြောင့်လည်း ဖြစ်နိုင်ပါတယ်။</p> <p data-svelte-h="svelte-147wn6y">training မလုပ်ခင် သင့် initial model ပေါ်မှာ သင်ရတဲ့ loss/metric က random predictions တွေအတွက် သင်မျှော်လင့်ထားတဲ့ loss/metric နဲ့ အလွန်ကွာခြားနေတယ်ဆိုရင်၊ သင့် loss ဒါမှမဟုတ် metric ကို တွက်ချက်တဲ့ နည်းလမ်းကို သေချာပြန်စစ်ဆေးပါ၊ ဘာလို့လဲဆိုတော့ အဲဒီမှာ bug တစ်ခု ရှိနေနိုင်လို့ပါပဲ။ သင်နောက်ဆုံးမှာ ပေါင်းထည့်တဲ့ losses အများအပြားကို အသုံးပြုနေတယ်ဆိုရင်၊ ၎င်းတို့သည် scale တူညီကြောင်း သေချာပါစေ။</p> <p data-svelte-h="svelte-2dvb5">သင့် data က perfect ဖြစ်တယ်လို့ သင်သေချာပြီဆိုရင်၊ model က ဒါကို test တစ်ခုတည်းနဲ့ train လုပ်နိုင်လားဆိုတာ သင်ကြည့်နိုင်ပါတယ်။</p> <h3 class="relative group"><a id="overfit-your-model-on-one-batch" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#overfit-your-model-on-one-batch"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Model ကို Batch တစ်ခုတည်းနဲ့ Overfit လုပ်ခြင်း</span></h3> <p data-svelte-h="svelte-vin5dl">Overfitting က အများအားဖြင့် training လုပ်တဲ့အခါ ကျွန်တော်တို့ ရှောင်ရှားဖို့ ကြိုးစားရတဲ့အရာပါ။ ဘာလို့လဲဆိုတော့ ဒါက model က ကျွန်တော်တို့ လိုချင်တဲ့ general features တွေကို မှတ်မိဖို့ မသင်ယူဘဲ training samples တွေကိုပဲ အလွတ်ကျက်နေတာကို ဆိုလိုလို့ပါ။ သို့သော်လည်း၊ သင့် model ကို batch တစ်ခုတည်းပေါ်မှာ အကြိမ်ကြိမ်အခါခါ train လုပ်ဖို့ ကြိုးစားတာက သင်ပြဿနာကို ပုံဖော်ထားတဲ့အတိုင်း သင် train လုပ်ဖို့ ကြိုးစားနေတဲ့ model က ဖြေရှင်းနိုင်ခြင်းရှိမရှိ စစ်ဆေးဖို့ ကောင်းမွန်တဲ့ test တစ်ခုပါ။ ဒါက သင့် initial learning rate က မြင့်မားလွန်းခြင်းရှိမရှိ သိရှိဖို့လည်း ကူညီပေးပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-vv6wg0">သင် <code>model</code> ကို သတ်မှတ်ပြီးတာနဲ့ ဒါကိုလုပ်ဆောင်တာက အလွန်လွယ်ကူပါတယ်၊ training data ရဲ့ batch တစ်ခုကို ယူပြီး၊ အဲဒီ <code>batch</code> ကို သင့် dataset အားလုံးအဖြစ် သတ်မှတ်ကာ၊ epochs အများအပြားအတွက် ဒါကို fit လုပ်လိုက်ပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> train_dataset:
	<span class="hljs-keyword">break</span>

	<span class="hljs-comment"># model.compile() ကို run ပြီး သင့် optimizer ကို သတ်မှတ်ထားကြောင်း၊</span>
	<span class="hljs-comment"># ပြီးတော့ သင်အသုံးပြုနေတယ်ဆိုရင် သင့် loss/metrics တွေကို သတ်မှတ်ထားကြောင်း သေချာပါစေ။</span>

	model.fit(batch, epochs=<span class="hljs-number">20</span>)<!-- HTML_TAG_END --></pre></div> <blockquote class="tip" data-svelte-h="svelte-1qjpydf"><p>💡 သင့် training data က unbalanced ဖြစ်နေတယ်ဆိုရင်၊ labels အားလုံးပါဝင်တဲ့ training data batch တစ်ခုကို တည်ဆောက်ထားကြောင်း သေချာပါစေ။</p></blockquote> <p data-svelte-h="svelte-1t0vciv">ရရှိလာတဲ့ model ဟာ <code>batch</code> ပေါ်မှာ perfect နီးပါး ရလဒ်တွေ ရရှိသင့်ပြီး၊ loss က 0 နီးပါး (ဒါမှမဟုတ် သင်အသုံးပြုနေတဲ့ loss အတွက် အနိမ့်ဆုံးတန်ဖိုး) သို့ လျင်မြန်စွာ ကျဆင်းသင့်ပါတယ်။</p> <p data-svelte-h="svelte-uaa5lb">သင့် model ကို ဒီလို perfect ရလဒ်တွေ မရရှိနိုင်ဘူးဆိုရင်၊ သင်ပြဿနာကို ပုံဖော်ထားတဲ့ နည်းလမ်း ဒါမှမဟုတ် သင့် data မှာ တစ်ခုခု မှားနေတယ်လို့ ဆိုလိုပါတယ်၊ ဒါကြောင့် ဒါကို ပြင်ဆင်သင့်ပါတယ်။ သင် overfitting test ကို အောင်မြင်အောင် လုပ်ဆောင်နိုင်မှသာ သင့် model က တကယ်ကို သင်ယူနိုင်တယ်ဆိုတာ သေချာနိုင်ပါလိမ့်မယ်။</p> <blockquote class="warning" data-svelte-h="svelte-fcz5j0"><p>⚠️ ဒီ overfitting test ပြီးရင် သင် model ကို ပြန်လည်ဖန်တီးပြီး recompile လုပ်ရပါလိမ့်မယ်။ ဘာလို့လဲဆိုတော့ ရရှိလာတဲ့ model က သင့် full dataset ပေါ်မှာ အသုံးဝင်တဲ့အရာတစ်ခုခုကို ပြန်လည်သင်ယူနိုင်မှာ မဟုတ်လို့ပါပဲ။</p></blockquote> <h3 class="relative group"><a id="dont-tune-anything-until-you-have-a-first-baseline" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#dont-tune-anything-until-you-have-a-first-baseline"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ပထမဆုံး Baseline မရခင် ဘာမှ မညှိပါနှင့်</span></h3> <p data-svelte-h="svelte-8owivo">Intense hyperparameter tuning ကို Machine Learning ရဲ့ အခက်ခဲဆုံး အပိုင်းအဖြစ် အမြဲတမ်း အလေးပေးပြောဆိုကြပေမယ့်၊ ဒါက metric ပေါ်မှာ အနည်းငယ် တိုးတက်မှုရရှိအောင် ကူညီပေးမယ့် နောက်ဆုံးအဆင့်တစ်ခုမျှသာ ဖြစ်ပါတယ်။ သင့် hyperparameters တွေအတွက် <em>အလွန်</em> ဆိုးရွားတဲ့ တန်ဖိုးတွေ (ဥပမာ- Transformer model နဲ့ default Adam learning rate 1e-3 ကို အသုံးပြုခြင်း) က သင်ယူမှုကို အလွန်နှေးကွေးစေနိုင်ပါတယ် ဒါမှမဟုတ် လုံးဝ ရပ်တန့်သွားစေနိုင်ပါတယ်၊ ဒါပေမယ့် အချိန်အများစုမှာ “သင့်လျော်သော” hyperparameters တွေ (ဥပမာ- learning rate 1e-5 ကနေ 5e-5 အထိ) က သင့်ကို ကောင်းမွန်တဲ့ ရလဒ်တွေ ပေးဖို့ အဆင်ပြေပြေ အလုပ်လုပ်ပါလိမ့်မယ်။ ဒါကြောင့်၊ သင့် dataset ပေါ်မှာ သင်ရရှိထားတဲ့ baseline ကို ကျော်လွန်တဲ့အရာတစ်ခု မရမချင်း အချိန်ကုန်ပြီး ကုန်ကျစရိတ်များတဲ့ hyperparameter search ကို မလုပ်ဆောင်ပါနဲ့။</p> <p data-svelte-h="svelte-vunvqg">သင့်မှာ ကောင်းမွန်လုံလောက်တဲ့ model တစ်ခု ရရှိပြီဆိုတာနဲ့၊ အနည်းငယ် စတင်ပြင်ဆင်နိုင်ပါပြီ။ မတူညီတဲ့ hyperparameters တွေနဲ့ run တွေ ထောင်ပေါင်းများစွာကို လုပ်ဆောင်ဖို့ မကြိုးစားပါနဲ့၊ ဒါပေမယ့် hyperparameter တစ်ခုအတွက် မတူညီတဲ့ values နှစ်ခုနဲ့ run အချို့ကို နှိုင်းယှဉ်ပြီး ဘယ်ဟာက အကြီးမားဆုံး အကျိုးသက်ရောက်မှုရှိလဲဆိုတာ စိတ်ကူးရအောင် လုပ်ပါ။</p> <p data-svelte-h="svelte-11kzqiu">သင် model ကိုယ်တိုင်ကို ပြင်ဆင်နေတယ်ဆိုရင်၊ ရိုးရှင်းအောင်ထားပြီး သင်ကျိုးကြောင်းဆီလျော်စွာ အကြောင်းပြလို့ မရတဲ့အရာတွေကို မစမ်းသပ်ပါနဲ့။ သင့်ရဲ့ ပြောင်းလဲမှုက မရည်ရွယ်ဘဲ ဖြစ်ပေါ်လာတဲ့ အကျိုးဆက်တွေ မရှိဘူးဆိုတာ သေချာစေဖို့ overfitting test ကို အမြဲတမ်း ပြန်လုပ်ပါ။</p> <h3 class="relative group"><a id="ask-for-help" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ask-for-help"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>အကူအညီတောင်းပါ</span></h3> <p data-svelte-h="svelte-jy1ve1">မျှော်လင့်ပါတယ် ဒီအပိုင်းက သင့်ပြဿနာကို ဖြေရှင်းဖို့ ကူညီပေးမယ့် အကြံပြုချက်အချို့ကို သင်တွေ့ခဲ့ရပါလိမ့်မယ်။ ဒါပေမယ့် မဟုတ်ဘူးဆိုရင်၊ <a href="https://discuss.huggingface.co/" rel="nofollow">forums</a> မှာ community ကို အမြဲတမ်း အကူအညီတောင်းနိုင်တယ်ဆိုတာ မှတ်ထားပါ။</p> <p data-svelte-h="svelte-1b2yp99">အကူအညီဖြစ်နိုင်မယ့် နောက်ထပ် အရင်းအမြစ်အချို့ကတော့ အောက်ပါအတိုင်းပါ။</p> <ul data-svelte-h="svelte-68jx2y"><li>Joel Grus ရဲ့ <a href="https://docs.google.com/presentation/d/1yHLPvPhUs2KGI5ZWo0sU-PKU3GimAk3iTsI38Z-B5Gw/edit#slide=id.p" rel="nofollow">“Reproducibility as a vehicle for engineering best practices”</a></li> <li>Cecelia Shao ရဲ့ <a href="https://towardsdatascience.com/checklist-for-debugging-neural-networks-d8b2a9434f21" rel="nofollow">“Checklist for debugging neural networks”</a></li> <li>Chase Roberts ရဲ့ <a href="https://medium.com/@keeper6928/how-to-unit-test-machine-learning-code-57cf6fd81765" rel="nofollow">“How to unit test machine learning code”</a></li> <li>Andrej Karpathy ရဲ့ <a href="http://karpathy.github.io/2019/04/25/recipe/" rel="nofollow">“A Recipe for Training Neural Networks”</a></li></ul> <p data-svelte-h="svelte-1xsf4cd">ဟုတ်ပါတယ်၊ neural nets တွေကို train လုပ်တဲ့အခါ သင်ကြုံတွေ့ရတဲ့ ပြဿနာတိုင်းဟာ သင့်အမှားကြောင့် မဟုတ်ပါဘူး။ 🤗 Transformers ဒါမှမဟုတ် 🤗 Datasets library ထဲမှာ တစ်ခုခု မမှန်ဘူးလို့ ထင်တာနဲ့ ကြုံတွေ့ရရင်၊ သင် bug တစ်ခုနဲ့ ကြုံတွေ့ခဲ့တာ ဖြစ်နိုင်ပါတယ်။ သင်ဒါနဲ့ ပတ်သက်ပြီး အကုန်လုံး ကျွန်တော်တို့ကို သေချာပြောပြသင့်ပါတယ်၊ ပြီးတော့ နောက်အပိုင်းမှာ ဒါကို ဘယ်လိုအတိအကျ လုပ်ဆောင်ရမလဲဆိုတာ ကျွန်တော်တို့ ရှင်းပြပေးပါမယ်။</p> <h2 class="relative group"><a id="ဝဟရ-ရငလငခက-glossary" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ဝဟရ-ရငလငခက-glossary"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဝေါဟာရ ရှင်းလင်းချက် (Glossary)</span></h2> <ul data-svelte-h="svelte-1yz9s30"><li><strong>Training Pipeline</strong>: Machine Learning မော်ဒယ်တစ်ခုကို data preprocessing မှစ၍ model training, evaluation အထိ ပါဝင်သော အဆင့်များစွာရှိသည့် လုပ်ငန်းစဉ်။</li> <li><strong>Debug</strong>: ကွန်ပျူတာပရိုဂရမ်တစ်ခုရှိ အမှားများ (bugs) ကို ရှာဖွေ၊ ဖော်ထုတ်ပြီး ပြင်ဆင်ခြင်း။</li> <li><strong>Fine-tune</strong>: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်းကို ဆိုလိုပါတယ်။</li> <li><strong>Model</strong>: Artificial Intelligence (AI) နယ်ပယ်တွင် အချက်အလက်များကို လေ့လာပြီး ခန့်မှန်းချက်များ ပြုလုပ်ရန် ဒီဇိုင်းထုတ်ထားသော သင်္ချာဆိုင်ရာဖွဲ့စည်းပုံများ။</li> <li><strong><code>model.fit()</code></strong>: Keras (TensorFlow) တွင် model ကို training လုပ်ရန် အသုံးပြုသော method။</li> <li><strong>Error</strong>: ပရိုဂရမ်တစ်ခု အလုပ်လုပ်နေစဉ် ဖြစ်ပေါ်လာသော ပြဿနာတစ်ခုကြောင့် ၎င်းသည် ပုံမှန်အတိုင်း ဆက်လက်လုပ်ဆောင်နိုင်ခြင်းမရှိခြင်း။</li> <li><strong>Crappy (Model)</strong>: စွမ်းဆောင်ရည် ညံ့ဖျင်းသော သို့မဟုတ် အသုံးမကျသော model။</li> <li><strong>Dataset</strong>: AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် အသုံးပြုတဲ့ ဒေတာအစုအဝေးတစ်ခုပါ။</li> <li><strong>Batch Elements</strong>: dataset အတွင်းရှိ elements များစွာကို တစ်ပြိုင်နက်တည်း လုပ်ဆောင်နိုင်ရန် အုပ်စုဖွဲ့ခြင်း။</li> <li><strong>Loss Function</strong>: Model ၏ ခန့်မှန်းချက်များနှင့် အမှန်တကယ် labels များကြား ကွာခြားမှုကို တိုင်းတာသော function။</li> <li><strong>Optimizer</strong>: Model ၏ weights များကို training လုပ်နေစဉ်အတွင်း loss ကို လျှော့ချရန်အတွက် ချိန်ညှိပေးသော algorithm။</li> <li><strong>Evaluation</strong>: Model ၏ စွမ်းဆောင်ရည်ကို တိုင်းတာခြင်း။</li> <li><strong>Metric</strong>: Model ၏ စွမ်းဆောင်ရည်ကို တိုင်းတာရန် အသုံးပြုသော တန်ဖိုးများ (ဥပမာ- accuracy, F1 score)။</li> <li><strong><code>load_dataset()</code></strong>: Hugging Face Datasets library မှ dataset များကို download လုပ်ပြီး cache လုပ်ရန် အသုံးပြုသော function။</li> <li><strong><code>evaluate</code> Library</strong>: Model ၏ metrics များကို တွက်ချက်ရန်အတွက် Hugging Face မှ ပံ့ပိုးပေးသော library။</li> <li><strong><code>AutoTokenizer</code></strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ class တစ်ခုဖြစ်ပြီး မော်ဒယ်အမည်ကို အသုံးပြုပြီး သက်ဆိုင်ရာ tokenizer ကို အလိုအလျောက် load လုပ်ပေးသည်။</li> <li><strong><code>TFAutoModelForSequenceClassification</code></strong>: TensorFlow framework အတွက် sequence classification task အတွက် Transformer model ကို အလိုအလျောက် load လုပ်ပေးသော class။</li> <li><strong><code>raw_datasets</code></strong>: preprocessing မလုပ်ရသေးသော dataset။</li> <li><strong><code>model_checkpoint</code></strong>: pretrained model ၏ အမည် သို့မဟုတ် path။</li> <li><strong><code>tokenizer</code></strong>: စာသားကို tokens အဖြစ် ပြောင်းလဲပေးသော ကိရိယာ။</li> <li><strong><code>preprocess_function</code></strong>: dataset ကို preprocessing လုပ်ရန်အတွက် function။</li> <li><strong><code>examples["premise"]</code></strong>: MNLI dataset ၏ premise column မှ data။</li> <li><strong><code>examples["hypothesis"]</code></strong>: MNLI dataset ၏ hypothesis column မှ data။</li> <li><strong><code>truncation=True</code></strong>: Tokenizer ကို အရှည်ဆုံး sequence အထိ ဖြတ်တောက်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>tokenized_datasets</code></strong>: tokenizer ဖြင့် preprocessing လုပ်ထားသော dataset။</li> <li><strong><code>map()</code> Method</strong>: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။</li> <li><strong><code>batched=True</code></strong>: <code>map()</code> method မှာ အသုံးပြုသော argument တစ်ခုဖြစ်ပြီး function ကို dataset ရဲ့ element အများအပြားပေါ်မှာ တစ်ပြိုင်နက်တည်း အသုံးပြုစေသည်။</li> <li><strong><code>train_dataset</code></strong>: training အတွက် အသုံးပြုမည့် dataset။</li> <li><strong><code>to_tf_dataset()</code> Method</strong>: 🤗 Datasets library မှ dataset ကို TensorFlow <code>tf.data.Dataset</code> object အဖြစ် ပြောင်းလဲပေးသော method။</li> <li><strong><code>columns=["input_ids", "labels"]</code></strong>: <code>tf.data.Dataset</code> တွင် ပါဝင်မည့် columns များ။</li> <li><strong><code>batch_size=16</code></strong>: training အတွက် တစ်ကြိမ်လျှင် အသုံးပြုမည့် samples အရေအတွက်။</li> <li><strong><code>shuffle=True</code></strong>: dataset ကို training မလုပ်မီ ရောနှော (shuffle) ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>validation_dataset</code></strong>: validation အတွက် အသုံးပြုမည့် dataset။</li> <li><strong><code>model.compile()</code></strong>: Keras တွင် model ကို training အတွက် ပြင်ဆင်ရန် (optimizer, loss, metrics) အသုံးပြုသော method။</li> <li><strong><code>loss="sparse_categorical_crossentropy"</code></strong>: Multi-class classification အတွက် အသုံးပြုသော loss function။</li> <li><strong><code>optimizer="adam"</code></strong>: Adam optimizer ကို အသုံးပြုခြင်း။</li> <li><strong><code>VisibleDeprecationWarning</code></strong>: Python တွင် နောက်ပိုင်း version များတွင် ဖယ်ရှားခံရနိုင်သော feature တစ်ခုကို အသုံးပြုခြင်းကြောင့် ပေါ်ပေါက်လာသော warning။</li> <li><strong>UX Issue (User Experience Issue)</strong>: အသုံးပြုသူ အတွေ့အကြုံနှင့် ပတ်သက်သော ပြဿနာ။</li> <li><strong><code>ValueError</code></strong>: Python တွင် value မှားယွင်းစွာ ပေးပို့မိသောအခါ ဖြစ်ပေါ်လာသော error။</li> <li><strong>Gradients</strong>: Deep learning တွင် model ၏ weights များကို update လုပ်ရန်အတွက် loss function ၏ derivative (ပြောင်းလဲမှုနှုန်း)။</li> <li><strong><code>tf.data.Dataset</code></strong>: TensorFlow တွင် efficient data input pipeline များကို တည်ဆောက်ရန် အသုံးပြုသော API။</li> <li><strong><code>batch</code></strong>: <code>tf.data.Dataset</code> မှ တစ်ကြိမ်လျှင် ထုတ်ပေးသော data အစုအဝေး။</li> <li><strong><code>labels</code></strong>: model က ခန့်မှန်းရမည့် အမှန်တကယ် တန်ဖိုးများ။</li> <li><strong><code>attention_mask</code></strong>: မော်ဒယ်ကို အာရုံစိုက်သင့်သည့် tokens များနှင့် လျစ်လျူရှုသင့်သည့် (padding) tokens များကို ခွဲခြားပေးသည့် binary mask။</li> <li><strong><code>input_ids</code></strong>: Tokenizer မှ ထုတ်ပေးသော tokens တစ်ခုစီ၏ ထူးခြားသော ဂဏန်းဆိုင်ရာ ID များ။</li> <li><strong>Input Tensor</strong>: model သို့ ပေးပို့သော multi-dimensional array (tensor)။</li> <li><strong>Keras</strong>: TensorFlow တွင် deep learning models များကို တည်ဆောက်ရန် အသုံးပြုသော high-level API။</li> <li><strong>Internal Loss</strong>: Transformer models များတွင် ၎င်းတို့ကိုယ်တိုင် loss များကို တွက်ချက်နိုင်သော အင်္ဂါရပ်။</li> <li><strong><code>model.config.num_labels</code></strong>: model configuration တွင် သတ်မှတ်ထားသော output classes အရေအတွက်။</li> <li><strong><code>Adam</code> (Optimizer)</strong>: Adaptive Moment Estimation ဟုခေါ်သော optimizer algorithm တစ်ခု။</li> <li><strong>Hyperparameters</strong>: Model ကို training မလုပ်မီ သတ်မှတ်ပေးရသော parameters များ (ဥပမာ- learning rate, batch size)။</li> <li><strong><code>learning_rate</code></strong>: Training လုပ်ငန်းစဉ်အတွင်း model ၏ weights များကို မည်မျှပြောင်းလဲရမည်ကို ထိန်းချုပ်သော parameter။</li> <li><strong><code>weight_decay</code></strong>: Model ၏ weights များ အလွန်အမင်း မကြီးထွားစေရန် ထိန်းချုပ်သော regularization technique။</li> <li><strong><code>AdamW</code></strong>: Weight decay ကို မှန်ကန်စွာ ကိုင်တွယ်သော Adam optimizer ၏ ပြုပြင်ထားသော version။</li> <li><strong>Learning Rate Warmup</strong>: Training အစတွင် learning rate ကို ဖြည်းဖြည်းချင်း မြှင့်တင်ခြင်း။</li> <li><strong>Learning Rate Decay</strong>: Training လုပ်နေစဉ် learning rate ကို ဖြည်းဖြည်းချင်း လျှော့ချခြင်း။</li> <li><strong>“Stall” (Training)</strong>: Training လုပ်ငန်းစဉ် ရပ်တန့်သွားခြင်း သို့မဟုတ် တိုးတက်မှု မရှိတော့ခြင်း။</li> <li><strong>OOM (Out Of Memory) Error</strong>: ကွန်ပျူတာ၏ မှတ်ဉာဏ် (memory) မလုံလောက်ခြင်းကြောင့် ဖြစ်ပေါ်လာသော error။</li> <li><strong>Allocating Tensor</strong>: Memory တွင် tensor တစ်ခုအတွက် နေရာချထားခြင်း။</li> <li><strong>GPT-2</strong>: Generative Pre-trained Transformer 2, OpenAI မှ ဖန်တီးသော large language model။</li> <li><strong>Parameters (Model)</strong>: Model ၏ လေ့ကျင့်နိုင်သော weights နှင့် biases များ။</li> <li><strong>VRAM (Video RAM)</strong>: GPU တွင် အသုံးပြုသော memory။</li> <li><strong><code>distilbert-base-cased</code></strong>: DistilBERT model ၏ base version, cased text ပေါ်တွင် လေ့ကျင့်ထားသည်။</li> <li><strong>TensorFlow Quirk</strong>: TensorFlow ၏ ထူးခြားသော သို့မဟုတ် ပုံမှန်မဟုတ်သော လုပ်ဆောင်ပုံ။</li> <li><strong>CUDA</strong>: NVIDIA မှ GPU များပေါ်တွင် parallel computing (ပြိုင်တူတွက်ချက်မှု) အတွက် ဖန်တီးသော platform နှင့် API။</li> <li><strong>PyTorch</strong>: Facebook (ယခု Meta) က ဖန်တီးထားတဲ့ open-source machine learning library တစ်ခုဖြစ်ပြီး deep learning မော်ဒယ်တွေ တည်ဆောက်ဖို့အတွက် အသုံးပြုပါတယ်။</li> <li><strong>CUDA Kernel</strong>: GPU ပေါ်တွင် run ရန် ရေးသားထားသော function။</li> <li><strong>BLAS (Basic Linear Algebra Subprograms)</strong>: vector နှင့် matrix operations များအတွက် standard API။</li> <li><strong>cuBLAS</strong>: NVIDIA CUDA အတွက် BLAS library။</li> <li><strong><code>nvidia-smi</code></strong>: NVIDIA GPU များ၏ အခြေအနေ (ဥပမာ- memory usage) ကို စစ်ဆေးရန်အတွက် command-line utility။</li> <li><strong><code>tokenizer.decode()</code></strong>: Tokenized input IDs များကို မူရင်းစာသားအဖြစ် ပြန်ပြောင်းပေးသော tokenizer method။</li> <li><strong>Corrupt Data</strong>: ပျက်စီးနေသော သို့မဟုတ် မှားယွင်းနေသော ဒေတာ။</li> <li><strong>Randomly Attributed Labels</strong>: ကျပန်းသတ်မှတ်ထားသော labels များ။</li> <li><strong>Biased Dataset</strong>: သီးခြား category တစ်ခု သို့မဟုတ် အုပ်စုတစ်ခုကို အချိုးမညီမျှစွာ ကိုယ်စားပြုသော dataset။</li> <li><strong>Oversampling Rare Classes</strong>: dataset ထဲက နည်းပါးတဲ့ classes တွေရဲ့ samples တွေကို တိုးမြှင့်ခြင်း။</li> <li><strong>Baseline (Model)</strong>: အခြား models များကို နှိုင်းယှဉ်ရန်အတွက် စွမ်းဆောင်ရည်ကို တိုင်းတာရန် အသုံးပြုသော အခြေခံ model။</li> <li><strong>Hyperparameter Tuning</strong>: Model ၏ hyperparameters များကို အကောင်းဆုံး စွမ်းဆောင်ရည် ရရှိရန်အတွက် ချိန်ညှိခြင်း။</li> <li><strong><code>git_commit()</code> Method</strong>: <code>Repository</code> class မှ commit လုပ်ရန်အတွက် method။</li> <li><strong><code>git_pull()</code> Method</strong>: <code>Repository</code> class မှ pull လုပ်ရန်အတွက် method။</li> <li><strong><code>git_push()</code> Method</strong>: <code>Repository</code> class မှ push လုပ်ရန်အတွက် method။</li> <li><strong><code>Repository</code> Class</strong>: <code>huggingface_hub</code> library မှ Git repository များကို ကိုင်တွယ်ရန်အတွက် class။</li> <li><strong><code>merge</code></strong>: Git တွင် မတူညီသော branches များမှ ပြောင်းလဲမှုများကို ပေါင်းစပ်ခြင်း။</li> <li><strong>API (Application Programming Interface)</strong>: ဆော့ဖ်ဝဲလ် နှစ်ခုကြား အပြန်အလှန် ချိတ်ဆက်ဆောင်ရွက်နိုင်ရန် လမ်းကြောင်းဖွင့်ပေးသော အစုအဝေး (set of rules) များ။</li> <li><strong>TensorFlow</strong>: Google က ဖန်တီးထားတဲ့ open-source machine learning library တစ်ခုဖြစ်ပြီး deep learning မော်ဒယ်တွေ တည်ဆောက်ဖို့အတွက် အသုံးပြုပါတယ်။</li> <li><strong>Python</strong>: အသုံးများသော programming language တစ်ခု။</li> <li><strong>Markdown Files</strong>: Plain text format တစ်ခုဖြစ်ပြီး formatting syntax ကို အသုံးပြု၍ စာသားကို ပုံစံချခြင်း။</li> <li><strong>Callback</strong>: Keras မှာ training လုပ်နေစဉ် သတ်မှတ်ထားတဲ့ အဆင့်တွေမှာ အလိုအလျောက် run ဖို့ သတ်မှတ်ထားတဲ့ function တစ်ခု။</li> <li><strong>CLI (Command Line Interface)</strong>: ကွန်ပျူတာကို စာသား command တွေနဲ့ ထိန်းချုပ်တဲ့ interface။</li> <li><strong><code>huggingface_hub</code></strong>: Hugging Face Hub နဲ့ ချိတ်ဆက်ဖို့အတွက် Python client library။</li> <li><strong>Logits</strong>: Neural network ရဲ့ final output layer ကနေ ထွက်လာတဲ့ raw, unnormalized prediction scores တွေ။</li> <li><strong><code>sparse_categorical_crossentropy</code></strong>: Multi-class classification အတွက် အသုံးပြုသော loss function (labels တွေကို integer indices အဖြစ် ပေးတဲ့အခါ)။</li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/my/chapter8/4_tf.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p>

	<script>
	{
	__sveltekit_5q47hu = {
	assets: "/docs/course/pr_1095/my",
	base: "/docs/course/pr_1095/my",
	env: {}
	};

	const element = document.currentScript.parentElement;

	const data = [null,null];

	Promise.all([
	import("/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"),
	import("/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js")
	]).then(([kit, app]) => {
	kit.start(app, element, {
	node_ids: [0, 90],
	data,
	form: null,
	error: null
	});
	});
	}
	</script>

Xet Storage Details

Size:: 183 kB
Xet hash:: e6eebd75315e898a7cd1a73a28a611c9d1cf0774b49bf48df42089f5dec401f1

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.