Buckets:

rtrm's picture
download
raw
210 kB
<meta charset="utf-8" /><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Training Pipeline ကို Debug လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;debugging-the-training-pipeline&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Training Pipeline ကို Debug လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;debugging-the-training-pipeline&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;သင့် Data ကို စစ်ဆေးပါ&quot;,&quot;local&quot;:&quot;check-your-data&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Datasets တွေကနေ Dataloaders တွေဆီသို့&quot;,&quot;local&quot;:&quot;from-datasets-to-dataloaders&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို ဖြတ်သန်းခြင်း&quot;,&quot;local&quot;:&quot;going-through-the-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Optimization Step တစ်ခု လုပ်ဆောင်ခြင်း&quot;,&quot;local&quot;:&quot;performing-one-optimization-step&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;CUDA Out-of-Memory Errors များကို ကိုင်တွယ်ဖြေရှင်းခြင်း&quot;,&quot;local&quot;:&quot;dealing-with-cuda-out-of-memory-errors&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို Evaluation လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;evaluating-the-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Training လုပ်နေစဉ် Silent Errors များကို Debug လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;debugging-silent-errors-during-training&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;သင့် Data ကို စစ်ဆေးပါ (ထပ်မံပြီး!)&quot;,&quot;local&quot;:&quot;check-your-data-again&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို Batch တစ်ခုတည်းပေါ်မှာ Overfit လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;overfit-your-model-on-one-batch&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;ပထမဆုံး Baseline တစ်ခုရသည်အထိ ဘာမှ မညှိပါနှင့်&quot;,&quot;local&quot;:&quot;dont-tune-anything-until-you-have-a-first-baseline&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;အကူအညီတောင်းပါ&quot;,&quot;local&quot;:&quot;ask-for-help&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;ဝေါဟာရ ရှင်းလင်းချက် (Glossary)&quot;,&quot;local&quot;:&quot;ဝဟရ-ရငလငခက-glossary&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}">
<link href="/docs/course/pr_1095/my/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/scheduler.893fe8c9.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/singletons.ba455c5c.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.bce52c8a.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/paths.9a7be869.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/preload-helper.b5ee8f74.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.b1df2166.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/0.77c840e7.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/each.e59479a4.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/89.84bb688b.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.e6d31e72.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/Youtube.ec5d7916.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CodeBlock.abb4f40e.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CourseFloatingBanner.c1c08878.js">
<link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/FrameworkSwitchCourse.4480e339.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{&quot;title&quot;:&quot;Training Pipeline ကို Debug လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;debugging-the-training-pipeline&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;Training Pipeline ကို Debug လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;debugging-the-training-pipeline&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;သင့် Data ကို စစ်ဆေးပါ&quot;,&quot;local&quot;:&quot;check-your-data&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Datasets တွေကနေ Dataloaders တွေဆီသို့&quot;,&quot;local&quot;:&quot;from-datasets-to-dataloaders&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို ဖြတ်သန်းခြင်း&quot;,&quot;local&quot;:&quot;going-through-the-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Optimization Step တစ်ခု လုပ်ဆောင်ခြင်း&quot;,&quot;local&quot;:&quot;performing-one-optimization-step&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;CUDA Out-of-Memory Errors များကို ကိုင်တွယ်ဖြေရှင်းခြင်း&quot;,&quot;local&quot;:&quot;dealing-with-cuda-out-of-memory-errors&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို Evaluation လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;evaluating-the-model&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;Training လုပ်နေစဉ် Silent Errors များကို Debug လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;debugging-silent-errors-during-training&quot;,&quot;sections&quot;:[{&quot;title&quot;:&quot;သင့် Data ကို စစ်ဆေးပါ (ထပ်မံပြီး!)&quot;,&quot;local&quot;:&quot;check-your-data-again&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;Model ကို Batch တစ်ခုတည်းပေါ်မှာ Overfit လုပ်ခြင်း&quot;,&quot;local&quot;:&quot;overfit-your-model-on-one-batch&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;ပထမဆုံး Baseline တစ်ခုရသည်အထိ ဘာမှ မညှိပါနှင့်&quot;,&quot;local&quot;:&quot;dont-tune-anything-until-you-have-a-first-baseline&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3},{&quot;title&quot;:&quot;အကူအညီတောင်းပါ&quot;,&quot;local&quot;:&quot;ask-for-help&quot;,&quot;sections&quot;:[],&quot;depth&quot;:3}],&quot;depth&quot;:2},{&quot;title&quot;:&quot;ဝေါဟာရ ရှင်းလင်းချက် (Glossary)&quot;,&quot;local&quot;:&quot;ဝဟရ-ရငလငခက-glossary&quot;,&quot;sections&quot;:[],&quot;depth&quot;:2}],&quot;depth&quot;:1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="bg-white leading-none border border-gray-100 rounded-lg flex p-0.5 w-56 text-sm mb-4"><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-l bg-red-50 dark:bg-transparent text-red-600" href="?fw=pt"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><defs><clipPath id="a"><rect x="3.05" y="0.5" width="25.73" height="31" fill="none"></rect></clipPath></defs><g clip-path="url(#a)"><path d="M24.94,9.51a12.81,12.81,0,0,1,0,18.16,12.68,12.68,0,0,1-18,0,12.81,12.81,0,0,1,0-18.16l9-9V5l-.84.83-6,6a9.58,9.58,0,1,0,13.55,0ZM20.44,9a1.68,1.68,0,1,1,1.67-1.67A1.68,1.68,0,0,1,20.44,9Z" fill="#ee4c2c"></path></g></svg> Pytorch </a><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-r text-gray-500 filter grayscale" href="?fw=tf"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="0.94em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 274"><path d="M145.726 42.065v42.07l72.861 42.07v-42.07l-72.86-42.07zM0 84.135v42.07l36.43 21.03V105.17L0 84.135zm109.291 21.035l-36.43 21.034v126.2l36.43 21.035v-84.135l36.435 21.035v-42.07l-36.435-21.034V105.17z" fill="#E55B2D"></path><path d="M145.726 42.065L36.43 105.17v42.065l72.861-42.065v42.065l36.435-21.03v-84.14zM255.022 63.1l-36.435 21.035v42.07l36.435-21.035V63.1zm-72.865 84.135l-36.43 21.035v42.07l36.43-21.036v-42.07zm-36.43 63.104l-36.436-21.035v84.135l36.435-21.035V210.34z" fill="#ED8E24"></path><path d="M145.726 0L0 84.135l36.43 21.035l109.296-63.105l72.861 42.07L255.022 63.1L145.726 0zm0 126.204l-36.435 21.03l36.435 21.036l36.43-21.035l-36.43-21.03z" fill="#F8BF3C"></path></svg> TensorFlow </a></div> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 max-sm:gap-0.5 h-6 max-sm:h-5 px-2 max-sm:px-1.5 text-[11px] max-sm:text-[9px] font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0"><svg class="w-3 h-3 max-sm:w-2.5 max-sm:h-2.5" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-6 max-sm:h-5 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible w-3 h-3 max-sm:w-2.5 max-sm:h-2.5 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="debugging-the-training-pipeline" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#debugging-the-training-pipeline"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training Pipeline ကို Debug လုပ်ခြင်း</span></h1> <div class="flex space-x-1 absolute z-10 right-0 top-0" style=""><a href="https://discuss.huggingface.co/t/chapter-8-questions" target="_blank"><img alt="Ask a Question" class="!m-0" src="https://img.shields.io/badge/Ask%20a%20question-ffcb4c.svg?logo=data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHZpZXdCb3g9IjAgLTEgMTA0IDEwNiI+PGRlZnM+PHN0eWxlPi5jbHMtMXtmaWxsOiMyMzFmMjA7fS5jbHMtMntmaWxsOiNmZmY5YWU7fS5jbHMtM3tmaWxsOiMwMGFlZWY7fS5jbHMtNHtmaWxsOiMwMGE5NGY7fS5jbHMtNXtmaWxsOiNmMTVkMjI7fS5jbHMtNntmaWxsOiNlMzFiMjM7fTwvc3R5bGU+PC9kZWZzPjx0aXRsZT5EaXNjb3Vyc2VfbG9nbzwvdGl0bGU+PGcgaWQ9IkxheWVyXzIiPjxnIGlkPSJMYXllcl8zIj48cGF0aCBjbGFzcz0iY2xzLTEiIGQ9Ik01MS44NywwQzIzLjcxLDAsMCwyMi44MywwLDUxYzAsLjkxLDAsNTIuODEsMCw1Mi44MWw1MS44Ni0uMDVjMjguMTYsMCw1MS0yMy43MSw1MS01MS44N1M4MCwwLDUxLjg3LDBaIi8+PHBhdGggY2xhc3M9ImNscy0yIiBkPSJNNTIuMzcsMTkuNzRBMzEuNjIsMzEuNjIsMCwwLDAsMjQuNTgsNjYuNDFsLTUuNzIsMTguNEwzOS40LDgwLjE3YTMxLjYxLDMxLjYxLDAsMSwwLDEzLTYwLjQzWiIvPjxwYXRoIGNsYXNzPSJjbHMtMyIgZD0iTTc3LjQ1LDMyLjEyYTMxLjYsMzEuNiwwLDAsMS0zOC4wNSw0OEwxOC44Niw4NC44MmwyMC45MS0yLjQ3QTMxLjYsMzEuNiwwLDAsMCw3Ny40NSwzMi4xMloiLz48cGF0aCBjbGFzcz0iY2xzLTQiIGQ9Ik03MS42MywyNi4yOUEzMS42LDMxLjYsMCwwLDEsMzguOCw3OEwxOC44Niw4NC44MiwzOS40LDgwLjE3QTMxLjYsMzEuNiwwLDAsMCw3MS42MywyNi4yOVoiLz48cGF0aCBjbGFzcz0iY2xzLTUiIGQ9Ik0yNi40Nyw2Ny4xMWEzMS42MSwzMS42MSwwLDAsMSw1MS0zNUEzMS42MSwzMS42MSwwLDAsMCwyNC41OCw2Ni40MWwtNS43MiwxOC40WiIvPjxwYXRoIGNsYXNzPSJjbHMtNiIgZD0iTTI0LjU4LDY2LjQxQTMxLjYxLDMxLjYxLDAsMCwxLDcxLjYzLDI2LjI5YTMxLjYxLDMxLjYxLDAsMCwwLTQ5LDM5LjYzbC0zLjc2LDE4LjlaIi8+PC9nPjwvZz48L3N2Zz4="></a> <a href="https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter8/section4.ipynb" target="_blank"><img alt="Open In Colab" class="!m-0" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter8/section4.ipynb" target="_blank"><img alt="Open In Studio Lab" class="!m-0" src="https://studiolab.sagemaker.aws/studiolab.svg"></a></div> <p data-svelte-h="svelte-cqamlx"><a href="/course/chapter7">Chapter 7</a> က အကြံပြုချက်တွေကို လိုက်နာပြီး သတ်မှတ်ထားတဲ့ task တစ်ခုပေါ်မှာ model တစ်ခုကို train ဒါမှမဟုတ် fine-tune လုပ်ဖို့အတွက် လှပတဲ့ script တစ်ခုကို သင်ရေးခဲ့ပါပြီ။ ဒါပေမယ့် <code>trainer.train()</code> command ကို run လိုက်တဲ့အခါ ဆိုးဝါးတဲ့အရာတစ်ခု ဖြစ်သွားပါတယ်- သင် error ရပါပြီ 😱! ဒါမှမဟုတ် ပိုဆိုးတာကတော့၊ အရာအားလုံး အဆင်ပြေနေပြီး training က error မရှိဘဲ run နေပေမယ့်၊ ရရှိလာတဲ့ model က အသုံးမဝင်ပါဘူး။ ဒီအပိုင်းမှာ၊ ဒီလိုပြဿနာတွေကို debug လုပ်ဖို့ ဘာတွေလုပ်ဆောင်နိုင်လဲဆိုတာ ကျွန်တော်တို့ ပြသပေးပါမယ်။</p> <h2 class="relative group"><a id="debugging-the-training-pipeline" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#debugging-the-training-pipeline"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training Pipeline ကို Debug လုပ်ခြင်း</span></h2> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/L-WSwUWde1U" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-hsklwa"><code>trainer.train()</code> မှာ error ကြုံတွေ့ရတဲ့အခါ ပြဿနာက source မျိုးစုံကနေ လာနိုင်ပါတယ်။ ဘာလို့လဲဆိုတော့ <code>Trainer</code> က အများအားဖြင့် အရာများစွာကို ပေါင်းစပ်ထားလို့ပါပဲ။ ၎င်းက datasets တွေကို dataloaders တွေအဖြစ် ပြောင်းလဲပေးတာကြောင့်၊ ပြဿနာက သင့် dataset မှာ တစ်ခုခု မှားယွင်းတာ ဒါမှမဟုတ် datasets ရဲ့ elements တွေကို batch လုပ်တဲ့အခါ ပြဿနာတစ်ခုခု ဖြစ်နေတာ ဖြစ်နိုင်ပါတယ်။ ပြီးရင် data batch တစ်ခုကို ယူပြီး model ကို ပေးပို့တဲ့အခါ၊ ပြဿနာက model code ထဲမှာ ဖြစ်နိုင်ပါတယ်။ အဲဒီနောက်၊ gradients တွေကို တွက်ချက်ပြီး optimization step ကို လုပ်ဆောင်တာကြောင့်၊ ပြဿနာက သင့် optimizer ထဲမှာလည်း ဖြစ်နိုင်ပါတယ်။ ပြီးတော့ training အတွက် အရာအားလုံး အဆင်ပြေသွားရင်တောင်၊ သင့် metric မှာ ပြဿနာရှိရင် evaluation လုပ်နေစဉ် တစ်ခုခု မှားယွင်းသွားနိုင်ပါသေးတယ်။</p> <p data-svelte-h="svelte-gfnv7q"><code>trainer.train()</code> မှာ ပေါ်လာတဲ့ error တစ်ခုကို debug လုပ်ဖို့ အကောင်းဆုံးနည်းလမ်းကတော့ အရာတွေ ဘယ်နေရာမှာ မှားယွင်းသွားလဲဆိုတာ သိဖို့ ဒီ pipeline တစ်ခုလုံးကို ကိုယ်တိုင်ဖြတ်သန်းကြည့်ဖို့ပါပဲ။ အဲဒီအခါ error က မကြာခဏဆိုသလို အလွန်လွယ်ကူစွာ ဖြေရှင်းနိုင်ပါတယ်။</p> <p data-svelte-h="svelte-1tjv2zz">ဒါကို သရုပ်ပြဖို့အတွက်၊ <a href="https://huggingface.co/datasets/glue" rel="nofollow">MNLI dataset</a> ပေါ်မှာ DistilBERT model တစ်ခုကို fine-tune လုပ်ဖို့ ကြိုးစားတဲ့ အောက်ပါ script ကို ကျွန်တော်တို့ အသုံးပြုပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
<span class="hljs-keyword">import</span> evaluate
<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> (
AutoTokenizer,
AutoModelForSequenceClassification,
TrainingArguments,
Trainer,
)
raw_datasets = load_dataset(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
model_checkpoint = <span class="hljs-string">&quot;distilbert-base-uncased&quot;</span>
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_function</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">&quot;premise&quot;</span>], examples[<span class="hljs-string">&quot;hypothesis&quot;</span>], truncation=<span class="hljs-literal">True</span>)
tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(preprocess_function, batched=<span class="hljs-literal">True</span>)
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint)
args = TrainingArguments(
<span class="hljs-string">f&quot;distilbert-finetuned-mnli&quot;</span>,
evaluation_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
save_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
learning_rate=<span class="hljs-number">2e-5</span>,
num_train_epochs=<span class="hljs-number">3</span>,
weight_decay=<span class="hljs-number">0.01</span>,
)
metric = evaluate.load(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">eval_pred</span>):
predictions, labels = eval_pred
<span class="hljs-keyword">return</span> metric.compute(predictions=predictions, references=labels)
trainer = Trainer(
model,
args,
train_dataset=raw_datasets[<span class="hljs-string">&quot;train&quot;</span>],
eval_dataset=raw_datasets[<span class="hljs-string">&quot;validation_matched&quot;</span>],
compute_metrics=compute_metrics,
)
trainer.train()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-e2mxej">သင် ဒါကို run ဖို့ ကြိုးစားရင်၊ နားမလည်နိုင်တဲ့ error တစ်ခုနဲ့ ကြုံတွေ့ရပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">&#x27;ValueError: You have to specify either input_ids or inputs_embeds&#x27;</span><!-- HTML_TAG_END --></pre></div> <h3 class="relative group"><a id="check-your-data" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#check-your-data"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>သင့် Data ကို စစ်ဆေးပါ</span></h3> <p data-svelte-h="svelte-1nmgcdj">ဒါက ပြောစရာမလိုပါဘူး၊ ဒါပေမယ့် သင့် data က ပျက်စီးနေတယ်ဆိုရင်၊ <code>Trainer</code> က batches တွေ ဖန်တီးနိုင်မှာ မဟုတ်ပါဘူး၊ သင့် model ကို train လုပ်ဖို့ဆို ဝေးသေးတာပေါ့။ ဒါကြောင့် ပထမဆုံးအနေနဲ့၊ သင့် training set ထဲမှာ ဘာတွေပါလဲဆိုတာ ကြည့်ရပါမယ်။</p> <p data-svelte-h="svelte-1a9e0n8">bug ရဲ့ source မဟုတ်တဲ့အရာတစ်ခုကို ပြင်ဆင်ဖို့ ကြိုးစားရင်း အချိန်တွေ အများကြီး မကုန်စေဖို့၊ သင့်စစ်ဆေးမှုတွေအတွက် <code>trainer.train_dataset</code> ကိုပဲ အသုံးပြုဖို့ ကျွန်တော်တို့ အကြံပြုပါတယ်။ ဒါကြောင့် ဒီနေရာမှာ လုပ်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.train_dataset[<span class="hljs-number">0</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;hypothesis&#x27;</span>: <span class="hljs-string">&#x27;Product and geography are what make cream skimming work. &#x27;</span>,
<span class="hljs-string">&#x27;idx&#x27;</span>: <span class="hljs-number">0</span>,
<span class="hljs-string">&#x27;label&#x27;</span>: <span class="hljs-number">1</span>,
<span class="hljs-string">&#x27;premise&#x27;</span>: <span class="hljs-string">&#x27;Conceptually cream skimming has two basic dimensions - product and geography.&#x27;</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1b495qp">တစ်ခုခု မှားယွင်းနေတာကို သတိထားမိပါသလား။ ဒါက <code>input_ids</code> ပျောက်ဆုံးနေတာနဲ့ ပတ်သက်တဲ့ error message နဲ့ ပေါင်းစပ်လိုက်တဲ့အခါ၊ ဒါတွေက text တွေဖြစ်ပြီး model က နားလည်နိုင်တဲ့ ဂဏန်းတွေ မဟုတ်ဘူးဆိုတာ သင်သိလာပါလိမ့်မယ်။ ဒီနေရာမှာ၊ မူရင်း error က အလွန်ထင်ယောင်ထင်မှားဖြစ်စေပါတယ်။ ဘာလို့လဲဆိုတော့ <code>Trainer</code> က model signature (ဆိုလိုတာက model က မျှော်လင့်ထားတဲ့ arguments) နဲ့ မကိုက်ညီတဲ့ columns တွေကို အလိုအလျောက် ဖယ်ရှားလိုက်လို့ပါပဲ။ ဒါက ဒီနေရာမှာ labels တွေကလွဲပြီး ကျန်တာအားလုံး ဖယ်ရှားခံခဲ့ရတယ်လို့ ဆိုလိုပါတယ်။ ဒါကြောင့် batches တွေ ဖန်တီးရာမှာ ပြဿနာမရှိခဲ့ဘဲ၊ ပြီးမှ model ကို ပေးပို့တဲ့အခါ model က သင့်လျော်တဲ့ input ကို မရရှိခဲ့ဘူးလို့ ညည်းညူခဲ့တာပါ။</p> <p data-svelte-h="svelte-1f6lpme">Data ကို ဘာကြောင့် processing မလုပ်ခဲ့တာလဲ။ ကျွန်တော်တို့ <code>Dataset.map()</code> method ကို datasets တွေပေါ်မှာ sample တစ်ခုစီမှာ tokenizer ကို အသုံးပြုဖို့ လုပ်ခဲ့ပါတယ်။ ဒါပေမယ့် code ကို သေချာကြည့်မယ်ဆိုရင်၊ training နဲ့ evaluation sets တွေကို <code>Trainer</code> ကို ပေးတဲ့အခါ အမှားလုပ်မိခဲ့တာကို တွေ့ရပါလိမ့်မယ်။ ဒီနေရာမှာ <code>tokenized_datasets</code> ကို အသုံးပြုမယ့်အစား၊ <code>raw_datasets</code> ကို ကျွန်တော်တို့ အသုံးပြုခဲ့ပါတယ် 🤦။ ဒါကြောင့် ဒါကို ပြင်ဆင်လိုက်ရအောင်!</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
<span class="hljs-keyword">import</span> evaluate
<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> (
AutoTokenizer,
AutoModelForSequenceClassification,
TrainingArguments,
Trainer,
)
raw_datasets = load_dataset(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
model_checkpoint = <span class="hljs-string">&quot;distilbert-base-uncased&quot;</span>
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_function</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">&quot;premise&quot;</span>], examples[<span class="hljs-string">&quot;hypothesis&quot;</span>], truncation=<span class="hljs-literal">True</span>)
tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(preprocess_function, batched=<span class="hljs-literal">True</span>)
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint)
args = TrainingArguments(
<span class="hljs-string">f&quot;distilbert-finetuned-mnli&quot;</span>,
evaluation_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
save_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
learning_rate=<span class="hljs-number">2e-5</span>,
num_train_epochs=<span class="hljs-number">3</span>,
weight_decay=<span class="hljs-number">0.01</span>,
)
metric = evaluate.load(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">eval_pred</span>):
predictions, labels = eval_pred
<span class="hljs-keyword">return</span> metric.compute(predictions=predictions, references=labels)
trainer = Trainer(
model,
args,
train_dataset=tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>],
eval_dataset=tokenized_datasets[<span class="hljs-string">&quot;validation_matched&quot;</span>],
compute_metrics=compute_metrics,
)
trainer.train()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-d6rx8r">ဒီ code အသစ်က အခုဆိုရင် မတူညီတဲ့ error တစ်ခု ပေးပါလိမ့်မယ် (တိုးတက်မှုပါပဲ!)</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">&#x27;ValueError: expected sequence of length 43 at dim 1 (got 37)&#x27;</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1oe5lso">traceback ကို ကြည့်လိုက်တဲ့အခါ၊ error က data collation step မှာ ဖြစ်ပေါ်နေတာကို ကျွန်တော်တို့ တွေ့နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->~/git/transformers/src/transformers/data/data_collator.py <span class="hljs-keyword">in</span> torch_default_data_collator(features)
<span class="hljs-number">105</span> batch[k] = torch.stack([f[k] <span class="hljs-keyword">for</span> f <span class="hljs-keyword">in</span> features])
<span class="hljs-number">106</span> <span class="hljs-keyword">else</span>:
--&gt; <span class="hljs-number">107</span> batch[k] = torch.tensor([f[k] <span class="hljs-keyword">for</span> f <span class="hljs-keyword">in</span> features])
<span class="hljs-number">108</span>
<span class="hljs-number">109</span> <span class="hljs-keyword">return</span> batch<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-fwp80t">ဒါကြောင့်၊ အဲဒီကို ဆက်သွားသင့်ပါတယ်။ ဒါပေမယ့် မလုပ်ခင်မှာ၊ ကျွန်တော်တို့ data ကို စစ်ဆေးတာကို အမှန်တကယ် မှန်ကန်ကြောင်း ၁၀၀% သေချာစေဖို့ အဆုံးသတ်လိုက်ကြပါစို့။</p> <p data-svelte-h="svelte-homp1j">training session တစ်ခုကို debug လုပ်တဲ့အခါ သင်အမြဲလုပ်သင့်တာက သင့် model ရဲ့ decoded inputs တွေကို ကြည့်ဖို့ပါပဲ။ ကျွန်တော်တို့ ပေးပို့တဲ့ ဂဏန်းတွေကို တိုက်ရိုက်နားမလည်နိုင်တာကြောင့်၊ အဲဒီဂဏန်းတွေက ဘာကို ကိုယ်စားပြုလဲဆိုတာ ကြည့်သင့်ပါတယ်။ ဥပမာ၊ computer vision မှာ၊ ဒါက သင်ပေးပို့တဲ့ pixels တွေရဲ့ decoded pictures တွေကို ကြည့်တာကို ဆိုလိုပါတယ်၊ speech မှာဆိုရင် decoded audio samples တွေကို နားထောင်တာကို ဆိုလိုပါတယ်၊ ပြီးတော့ ကျွန်တော်တို့ရဲ့ NLP ဥပမာမှာ ဒါက ကျွန်တော်တို့ရဲ့ tokenizer ကို အသုံးပြုပြီး inputs တွေကို decode လုပ်တာကို ဆိုလိုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->tokenizer.decode(trainer.train_dataset[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;input_ids&quot;</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">&#x27;[CLS] conceptually cream skimming has two basic dimensions - product and geography. [SEP] product and geography are what make cream skimming work. [SEP]&#x27;</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-d3so4n">ဒါကြောင့် ဒါက မှန်ကန်ပုံရပါတယ်။ inputs ထဲက keys အားလုံးအတွက် ဒါကို လုပ်ဆောင်သင့်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.train_dataset[<span class="hljs-number">0</span>].keys()<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->dict_keys([<span class="hljs-string">&#x27;attention_mask&#x27;</span>, <span class="hljs-string">&#x27;hypothesis&#x27;</span>, <span class="hljs-string">&#x27;idx&#x27;</span>, <span class="hljs-string">&#x27;input_ids&#x27;</span>, <span class="hljs-string">&#x27;label&#x27;</span>, <span class="hljs-string">&#x27;premise&#x27;</span>])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-sku4gc">model က လက်ခံတဲ့ inputs နဲ့ မကိုက်ညီတဲ့ keys တွေကို အလိုအလျောက် ဖယ်ရှားပစ်မှာဖြစ်တာကြောင့်၊ ဒီနေရာမှာ ကျွန်တော်တို့ <code>input_ids</code>, <code>attention_mask</code> နဲ့ <code>label</code> (ဒါကို <code>labels</code> လို့ နာမည်ပြောင်းပါလိမ့်မယ်) တွေကိုပဲ ထားရှိမှာပါ။ model signature ကို ထပ်မံစစ်ဆေးဖို့အတွက်၊ သင့် model ရဲ့ class ကို print ထုတ်ပြီး ၎င်းရဲ့ documentation ကို သွားစစ်ဆေးနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">type</span>(trainer.model)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->transformers.models.distilbert.modeling_distilbert.DistilBertForSequenceClassification<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1mhozl4">ဒါကြောင့် ကျွန်တော်တို့ရဲ့ ကိစ္စမှာ၊ <a href="https://huggingface.co/transformers/model_doc/distilbert.html#distilbertforsequenceclassification" rel="nofollow">ဒီစာမျက်နှာ</a> မှာ လက်ခံတဲ့ parameters တွေကို စစ်ဆေးနိုင်ပါတယ်။ <code>Trainer</code> က ဖယ်ရှားနေတဲ့ columns တွေကိုလည်း log လုပ်ပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-1sidgi4">input IDs တွေ မှန်ကန်ကြောင်း decoded လုပ်ခြင်းဖြင့် စစ်ဆေးခဲ့ပါပြီ။ နောက်တစ်ခုကတော့ <code>attention_mask</code> ပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.train_dataset[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;attention_mask&quot;</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1wwgxh">ကျွန်တော်တို့ preprocessing မှာ padding ကို အသုံးပြုမထားတာကြောင့်၊ ဒါက လုံးဝပုံမှန်ပါပဲ။ အဲဒီ attention mask မှာ ပြဿနာမရှိကြောင်း သေချာစေဖို့၊ ကျွန်တော်တို့ input IDs တွေနဲ့ အရှည်တူညီလားဆိုတာ စစ်ဆေးကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">len</span>(trainer.train_dataset[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;attention_mask&quot;</span>]) == <span class="hljs-built_in">len</span>(
trainer.train_dataset[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;input_ids&quot;</span>]
)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-literal">True</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-nrhc3v">ဒါကောင်းပါပြီ! နောက်ဆုံးအနေနဲ့၊ ကျွန်တော်တို့ရဲ့ label ကို စစ်ဆေးကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.train_dataset[<span class="hljs-number">0</span>][<span class="hljs-string">&quot;label&quot;</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-number">1</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1hptrd1">input IDs တွေလိုပဲ၊ ဒါကလည်း သူ့ဘာသာသူ အဓိပ္ပာယ်မရှိတဲ့ ဂဏန်းတစ်ခုပါ။ ကျွန်တော်တို့ အရင်က တွေ့ခဲ့ရတဲ့အတိုင်း၊ integers တွေနဲ့ label names တွေကြားက map ကို dataset ရဲ့ သက်ဆိုင်ရာ <em>feature</em> ရဲ့ <code>names</code> attribute ထဲမှာ သိမ်းဆည်းထားပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.train_dataset.features[<span class="hljs-string">&quot;label&quot;</span>].names<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[<span class="hljs-string">&#x27;entailment&#x27;</span>, <span class="hljs-string">&#x27;neutral&#x27;</span>, <span class="hljs-string">&#x27;contradiction&#x27;</span>]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-903orv">ဒါကြောင့် <code>1</code> က <code>neutral</code> ကို ဆိုလိုပါတယ်၊ ဆိုလိုတာက အပေါ်မှာ ကျွန်တော်တို့ တွေ့ခဲ့ရတဲ့ စာကြောင်းနှစ်ကြောင်းက contradiction မဟုတ်ဘဲ၊ ပထမစာကြောင်းက ဒုတိယစာကြောင်းကို အဓိပ္ပာယ်မဆောင်ပါဘူး။ ဒါက မှန်ကန်ပုံရပါတယ်!</p> <p data-svelte-h="svelte-ezshob">ဒီနေရာမှာ token type IDs တွေ မရှိပါဘူး၊ ဘာလို့လဲဆိုတော့ DistilBERT က ၎င်းတို့ကို မျှော်လင့်မထားလို့ပါ။ သင့် model မှာ ဒါတွေရှိတယ်ဆိုရင်၊ ၎င်းတို့က input မှာ ပထမနဲ့ ဒုတိယစာကြောင်းတွေ ဘယ်နေရာမှာ ရှိလဲဆိုတာကို မှန်ကန်စွာ ကိုက်ညီမှုရှိမရှိလည်း သေချာစစ်ဆေးသင့်ပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-1ihjzg6"><p>✏️ <strong>သင့်အလှည့်!</strong> training dataset ရဲ့ ဒုတိယ element နဲ့ အရာအားလုံး မှန်ကန်ပုံရမလားဆိုတာ စစ်ဆေးပါ။</p></blockquote> <p data-svelte-h="svelte-1apz7vm">ကျွန်တော်တို့ training set ပေါ်မှာပဲ စစ်ဆေးတာဖြစ်ပေမယ့်၊ validation နဲ့ test sets တွေကိုလည်း ဒီအတိုင်းပဲ ထပ်မံစစ်ဆေးသင့်ပါတယ်။</p> <p data-svelte-h="svelte-1ripcpu">ကျွန်တော်တို့ datasets တွေ ကောင်းမွန်ကြောင်း သိပြီဆိုတော့၊ training pipeline ရဲ့ နောက်တစ်ဆင့်ကို စစ်ဆေးဖို့ အချိန်တန်ပါပြီ။</p> <h3 class="relative group"><a id="from-datasets-to-dataloaders" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#from-datasets-to-dataloaders"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Datasets တွေကနေ Dataloaders တွေဆီသို့</span></h3> <p data-svelte-h="svelte-199miz6">training pipeline မှာ မှားယွင်းနိုင်တဲ့ နောက်တစ်ချက်ကတော့ <code>Trainer</code> က training ဒါမှမဟုတ် validation set ကနေ batches တွေ ဖန်တီးဖို့ ကြိုးစားတဲ့အခါပါပဲ။ <code>Trainer</code> ရဲ့ datasets တွေ မှန်ကန်ကြောင်း သင်သေချာပြီဆိုတာနဲ့၊ အောက်ပါအတိုင်း run ခြင်းဖြင့် batch တစ်ခုကို ကိုယ်တိုင်ဖန်တီးဖို့ ကြိုးစားနိုင်ပါတယ် (<code>train</code> ကို validation dataloader အတွက် <code>eval</code> နဲ့ အစားထိုးပါ)။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> trainer.get_train_dataloader():
<span class="hljs-keyword">break</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-29v4dc">ဒီ code က training dataloader ကို ဖန်တီးပြီး၊ ပြီးရင် ၎င်းကို iteration လုပ်ပြီး ပထမဆုံး iteration မှာ ရပ်တန့်ပါတယ်။ code က error မရှိဘဲ run တယ်ဆိုရင်၊ သင်စစ်ဆေးနိုင်တဲ့ ပထမဆုံး training batch ကို ရရှိမှာဖြစ်ပြီး၊ code က error ဖြစ်ရင်တော့ ပြဿနာက dataloader ထဲမှာ အမှန်တကယ်ရှိနေတယ်ဆိုတာ သင်သေချာသိနိုင်ပါတယ်။ ဒီနေရာမှာလည်း ဒီလိုပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->~/git/transformers/src/transformers/data/data_collator.py <span class="hljs-keyword">in</span> torch_default_data_collator(features)
<span class="hljs-number">105</span> batch[k] = torch.stack([f[k] <span class="hljs-keyword">for</span> f <span class="hljs-keyword">in</span> features])
<span class="hljs-number">106</span> <span class="hljs-keyword">else</span>:
--&gt; <span class="hljs-number">107</span> batch[k] = torch.tensor([f[k] <span class="hljs-keyword">for</span> f <span class="hljs-keyword">in</span> features])
<span class="hljs-number">108</span>
<span class="hljs-number">109</span> <span class="hljs-keyword">return</span> batch
ValueError: expected sequence of length <span class="hljs-number">45</span> at dim <span class="hljs-number">1</span> (got <span class="hljs-number">76</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-dcu4g0">traceback ရဲ့ နောက်ဆုံး frame ကို စစ်ဆေးတာက သင့်ကို clue တစ်ခုပေးဖို့ လုံလောက်သင့်ပေမယ့်၊ နည်းနည်းထပ်တူးဆွကြည့်ရအောင်။ batch creation လုပ်နေစဉ် ပြဿနာအများစုက examples တွေကို single batch အဖြစ် collation လုပ်ခြင်းကြောင့် ဖြစ်ပေါ်တာကြောင့်၊ သံသယရှိတဲ့အခါ စစ်ဆေးသင့်တဲ့ ပထမဆုံးအရာကတော့ သင့် <code>DataLoader</code> က ဘယ် <code>collate_fn</code> ကို အသုံးပြုနေလဲဆိုတာပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->data_collator = trainer.get_train_dataloader().collate_fn
data_collator<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->&lt;function transformers.data.data_collator.default_data_collator(features: <span class="hljs-type">List</span>[InputDataClass], return_tensors=<span class="hljs-string">&#x27;pt&#x27;</span>) -&gt; <span class="hljs-type">Dict</span>[<span class="hljs-built_in">str</span>, <span class="hljs-type">Any</span>]&gt;<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1kr1blq">ဒါကြောင့် ဒါက <code>default_data_collator</code> ဖြစ်ပါတယ်။ ဒါပေမယ့် ဒီကိစ္စမှာ ကျွန်တော်တို့ လိုချင်တာ မဟုတ်ပါဘူး။ ကျွန်တော်တို့ရဲ့ examples တွေကို batch ထဲက အရှည်ဆုံး sentence အထိ padding လုပ်ချင်တာဖြစ်ပြီး၊ ဒါကို <code>DataCollatorWithPadding</code> collator က လုပ်ဆောင်ပေးပါတယ်။ ပြီးတော့ ဒီ data collator ကို <code>Trainer</code> က default အားဖြင့် အသုံးပြုသင့်တာကြောင့်၊ ဘာကြောင့် ဒီနေရာမှာ မသုံးတာလဲ။</p> <p data-svelte-h="svelte-z4tux">အဖြေကတော့ ကျွန်တော်တို့ <code>tokenizer</code> ကို <code>Trainer</code> ကို မပေးခဲ့လို့ပါပဲ၊ ဒါကြောင့် ကျွန်တော်တို့ လိုချင်တဲ့ <code>DataCollatorWithPadding</code> ကို ဖန်တီးနိုင်ခြင်းမရှိခဲ့ပါဘူး။ လက်တွေ့မှာတော့၊ ဒီလို error မျိုးတွေ မဖြစ်စေဖို့အတွက် သင်အသုံးပြုချင်တဲ့ data collator ကို အမြဲတမ်း ရှင်းရှင်းလင်းလင်း ပေးပို့ဖို့ တုံ့ဆိုင်းမနေသင့်ပါဘူး။ ဒါကို လုပ်ဆောင်ဖို့အတွက် ကျွန်တော်တို့ရဲ့ code ကို လိုက်လျောညီထွေဖြစ်အောင် ပြင်ဆင်လိုက်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
<span class="hljs-keyword">import</span> evaluate
<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> (
AutoTokenizer,
AutoModelForSequenceClassification,
DataCollatorWithPadding,
TrainingArguments,
Trainer,
)
raw_datasets = load_dataset(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
model_checkpoint = <span class="hljs-string">&quot;distilbert-base-uncased&quot;</span>
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_function</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">&quot;premise&quot;</span>], examples[<span class="hljs-string">&quot;hypothesis&quot;</span>], truncation=<span class="hljs-literal">True</span>)
tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(preprocess_function, batched=<span class="hljs-literal">True</span>)
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint)
args = TrainingArguments(
<span class="hljs-string">f&quot;distilbert-finetuned-mnli&quot;</span>,
evaluation_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
save_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
learning_rate=<span class="hljs-number">2e-5</span>,
num_train_epochs=<span class="hljs-number">3</span>,
weight_decay=<span class="hljs-number">0.01</span>,
)
metric = evaluate.load(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">eval_pred</span>):
predictions, labels = eval_pred
<span class="hljs-keyword">return</span> metric.compute(predictions=predictions, references=labels)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
trainer = Trainer(
model,
args,
train_dataset=tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>],
eval_dataset=tokenized_datasets[<span class="hljs-string">&quot;validation_matched&quot;</span>],
compute_metrics=compute_metrics,
data_collator=data_collator,
tokenizer=tokenizer,
)
trainer.train()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-lmd88e">သတင်းကောင်းလား? ကျွန်တော်တို့ အရင်လို error တူတူ မရတော့ပါဘူး၊ ဒါက တိုးတက်မှု အမှန်ပါပဲ။ သတင်းဆိုးလား? ကျွန်တော်တို့ နာမည်ဆိုးနဲ့ ကျော်ကြားတဲ့ CUDA error တစ်ခုကို ရပါပြီ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->RuntimeError: CUDA error: CUBLAS_STATUS_ALLOC_FAILED when calling `cublasCreate(handle)`<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-c1fp7a">ဒါက မကောင်းပါဘူး၊ ဘာလို့လဲဆိုတော့ CUDA errors တွေကို debug လုပ်ရတာ ယေဘုယျအားဖြင့် အလွန်ခက်ခဲလို့ပါပဲ။ ဒီပြဿနာကို ဘယ်လိုဖြေရှင်းရမလဲဆိုတာ တစ်မိနစ်အတွင်းမှာ ကျွန်တော်တို့ ကြည့်ရမှာဖြစ်ပေမယ့်၊ ပထမဆုံး batch creation ရဲ့ ကျွန်တော်တို့ရဲ့ ခွဲခြမ်းစိတ်ဖြာမှုကို အဆုံးသတ်လိုက်ရအောင်။</p> <p data-svelte-h="svelte-lnafem">သင့် data collator က မှန်ကန်တယ်ဆိုတာ သင်သေချာပြီဆိုရင်၊ သင့် dataset ရဲ့ samples အချို့ပေါ်မှာ အဲဒါကို အသုံးပြုကြည့်သင့်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->data_collator = trainer.get_train_dataloader().collate_fn
batch = data_collator([trainer.train_dataset[i] <span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">4</span>)])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-7j2enj">ဒီ code က အလုပ်လုပ်မှာ မဟုတ်ပါဘူး၊ ဘာလို့လဲဆိုတော့ <code>train_dataset</code> မှာ string columns တွေ ပါဝင်ပြီး ဒါတွေကို <code>Trainer</code> က ပုံမှန်အားဖြင့် ဖယ်ရှားလိုက်လို့ပါပဲ။ သင်ကိုယ်တိုင် ဖယ်ရှားနိုင်ပါတယ်၊ ဒါမှမဟုတ် <code>Trainer</code> က နောက်ကွယ်မှာ ဘာလုပ်နေလဲဆိုတာကို အတိအကျ ပုံတူကူးချင်တယ်ဆိုရင်၊ ဒါကို လုပ်ဆောင်ပေးတဲ့ private <code>Trainer._remove_unused_columns()</code> method ကို ခေါ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->data_collator = trainer.get_train_dataloader().collate_fn
actual_train_set = trainer._remove_unused_columns(trainer.train_dataset)
batch = data_collator([actual_train_set[i] <span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">4</span>)])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-ujec2z">error က ဆက်ရှိနေသေးတယ်ဆိုရင် data collator ထဲမှာ ဘာတွေဖြစ်ပျက်နေလဲဆိုတာကို ကိုယ်တိုင် debug လုပ်နိုင်ပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-190ktto">batch creation လုပ်ငန်းစဉ်ကို debug လုပ်ပြီးပြီဆိုတော့၊ model ထဲကို တစ်ခု ပေးပို့ဖို့ အချိန်တန်ပါပြီ!</p> <h3 class="relative group"><a id="going-through-the-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#going-through-the-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Model ကို ဖြတ်သန်းခြင်း</span></h3> <p data-svelte-h="svelte-zhlpef">အောက်ပါ command ကို run ခြင်းဖြင့် batch တစ်ခုကို ရရှိနိုင်ပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> trainer.get_train_dataloader():
<span class="hljs-keyword">break</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-nu82au">သင် ဒီ code ကို notebook တစ်ခုမှာ run နေတယ်ဆိုရင်၊ ကျွန်တော်တို့ အရင်က တွေ့ခဲ့ရတဲ့ error နဲ့ ဆင်တူတဲ့ CUDA error တစ်ခု ရနိုင်ပါတယ်။ ဒီလိုဖြစ်ရင် သင့် notebook ကို restart လုပ်ပြီး <code>trainer.train()</code> line မပါဘဲ နောက်ဆုံး snippet ကို ပြန် run ဖို့ လိုအပ်ပါတယ်။ ဒါက CUDA errors တွေရဲ့ ဒုတိယအ annoying ဆုံးအရာပါပဲ- ၎င်းတို့က သင့် kernel ကို ပြန်ပြင်လို့ မရအောင် ပျက်စီးစေပါတယ်။ အ annoyance ဆုံးအရာကတော့ ဒါတွေကို debug လုပ်ရတာ ခက်ခဲတာပါပဲ။</p> <p data-svelte-h="svelte-1l6xov0">ဘာကြောင့်လဲ? ဒါက GPUs တွေ အလုပ်လုပ်ပုံနဲ့ ဆက်စပ်နေပါတယ်။ ၎င်းတို့ဟာ operations များစွာကို တစ်ပြိုင်နက်တည်း လုပ်ဆောင်ရာမှာ အလွန်ထိရောက်ပါတယ်၊ ဒါပေမယ့် အားနည်းချက်ကတော့ အဲဒီ instructions တွေထဲက တစ်ခုခုက error ဖြစ်သွားတဲ့အခါ၊ သင်ချက်ချင်း မသိနိုင်ပါဘူး။ program က GPU ပေါ်ရှိ multiple processes တွေကို synchronization လုပ်ဖို့ ခေါ်ဆိုတဲ့အခါမှ တစ်ခုခု မှားယွင်းသွားတယ်ဆိုတာ သိမှာဖြစ်တာကြောင့်၊ error က အမှန်တကယ်တော့ ဒါကို ဖန်တီးတဲ့အရာနဲ့ လုံးဝမသက်ဆိုင်တဲ့ နေရာမှာ ပေါ်လာတာပါ။ ဥပမာ၊ ကျွန်တော်တို့ရဲ့ ယခင် traceback ကို ကြည့်ရင်၊ error က backward pass မှာ ပေါ်လာခဲ့ပါတယ်၊ ဒါပေမယ့် ဒါက forward pass ကနေ အမှန်တကယ် ပေါက်ဖွားလာတယ်ဆိုတာ တစ်မိနစ်အတွင်းမှာ ကျွန်တော်တို့ တွေ့ရပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-wtkbcr">ဒါဆို ဒီ errors တွေကို ဘယ်လို debug လုပ်မလဲ? အဖြေက လွယ်ပါတယ်- ကျွန်တော်တို့ မလုပ်ပါဘူး။ သင့် CUDA error က out-of-memory error (ဆိုလိုတာက သင့် GPU မှာ memory မလုံလောက်ခြင်း) မဟုတ်ရင်၊ ဒါကို debug လုပ်ဖို့အတွက် CPU ကို အမြဲတမ်း ပြန်သွားသင့်ပါတယ်။</p> <p data-svelte-h="svelte-v9nayd">ဒီကိစ္စမှာ ဒါကိုလုပ်ဖို့၊ ကျွန်တော်တို့ model ကို CPU ပေါ်ကို ပြန်တင်ပြီး ကျွန်တော်တို့ရဲ့ batch ပေါ်မှာ ခေါ်လိုက်ရုံပါပဲ — <code>DataLoader</code> က ပြန်ပေးတဲ့ batch ကို GPU ကို မရွှေ့ရသေးပါဘူး။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->outputs = trainer.model.cpu()(**batch)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->~/.pyenv/versions/<span class="hljs-number">3.7</span><span class="hljs-number">.9</span>/envs/base/lib/python3<span class="hljs-number">.7</span>/site-packages/torch/nn/functional.py <span class="hljs-keyword">in</span> nll_loss(<span class="hljs-built_in">input</span>, target, weight, size_average, ignore_index, reduce, reduction)
<span class="hljs-number">2386</span> )
<span class="hljs-number">2387</span> <span class="hljs-keyword">if</span> dim == <span class="hljs-number">2</span>:
-&gt; <span class="hljs-number">2388</span> ret = torch._C._nn.nll_loss(<span class="hljs-built_in">input</span>, target, weight, _Reduction.get_enum(reduction), ignore_index)
<span class="hljs-number">2389</span> <span class="hljs-keyword">elif</span> dim == <span class="hljs-number">4</span>:
<span class="hljs-number">2390</span> ret = torch._C._nn.nll_loss2d(<span class="hljs-built_in">input</span>, target, weight, _Reduction.get_enum(reduction), ignore_index)
IndexError: Target <span class="hljs-number">2</span> <span class="hljs-keyword">is</span> out of bounds.<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-6sf75x">ဒါဆို ပုံက ပိုရှင်းလာပါပြီ။ CUDA error ရမယ့်အစား၊ အခု ကျွန်တော်တို့ loss computation မှာ <code>IndexError</code> ရပါပြီ (ဒါကြောင့် အရင်က ပြောခဲ့သလို backward pass နဲ့ ဘာမှမဆိုင်ပါဘူး)။ ပိုတိကျစွာပြောရရင်၊ target 2 က error ကို ဖန်တီးတာကို တွေ့ရပါတယ်၊ ဒါကြောင့် ဒါက ကျွန်တော်တို့ model ရဲ့ labels အရေအတွက်ကို စစ်ဆေးဖို့ အလွန်ကောင်းတဲ့အချိန်ပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.model.config.num_labels<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-number">2</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1wd9g81">labels နှစ်ခုနဲ့ဆိုရင်၊ targets အနေနဲ့ 0s နဲ့ 1s တွေကိုပဲ ခွင့်ပြုပါတယ်။ ဒါပေမယ့် error message အရ ကျွန်တော်တို့ 2 ကို ရရှိခဲ့ပါတယ်။ 2 ကို ရတာက တကယ်တော့ ပုံမှန်ပါပဲ- ကျွန်တော်တို့ အရင်က ထုတ်ယူခဲ့တဲ့ label names တွေကို မှတ်မိရင်၊ သုံးခုရှိခဲ့တာကြောင့် ကျွန်တော်တို့ dataset မှာ indices 0, 1, နဲ့ 2 ရှိပါတယ်။ ပြဿနာကတော့ ကျွန်တော်တို့ model ကို ဒါကို မပြောခဲ့တာပါ၊ ဒါကို labels သုံးခုနဲ့ ဖန်တီးခဲ့သင့်ပါတယ်။ ဒါကြောင့် ဒါကို ပြင်ဆင်လိုက်ရအောင်!</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
<span class="hljs-keyword">import</span> evaluate
<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> (
AutoTokenizer,
AutoModelForSequenceClassification,
DataCollatorWithPadding,
TrainingArguments,
Trainer,
)
raw_datasets = load_dataset(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
model_checkpoint = <span class="hljs-string">&quot;distilbert-base-uncased&quot;</span>
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_function</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">&quot;premise&quot;</span>], examples[<span class="hljs-string">&quot;hypothesis&quot;</span>], truncation=<span class="hljs-literal">True</span>)
tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(preprocess_function, batched=<span class="hljs-literal">True</span>)
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=<span class="hljs-number">3</span>)
args = TrainingArguments(
<span class="hljs-string">f&quot;distilbert-finetuned-mnli&quot;</span>,
evaluation_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
save_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
learning_rate=<span class="hljs-number">2e-5</span>,
num_train_epochs=<span class="hljs-number">3</span>,
weight_decay=<span class="hljs-number">0.01</span>,
)
metric = evaluate.load(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">eval_pred</span>):
predictions, labels = eval_pred
<span class="hljs-keyword">return</span> metric.compute(predictions=predictions, references=labels)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
trainer = Trainer(
model,
args,
train_dataset=tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>],
eval_dataset=tokenized_datasets[<span class="hljs-string">&quot;validation_matched&quot;</span>],
compute_metrics=compute_metrics,
data_collator=data_collator,
tokenizer=tokenizer,
)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1ylwkj9"><code>trainer.train()</code> line ကို ကျွန်တော်တို့ မထည့်သေးပါဘူး၊ အရာအားလုံး အဆင်ပြေလားဆိုတာ စစ်ဆေးဖို့ အချိန်ယူထားတာပါ။ batch တစ်ခုကို တောင်းခံပြီး ကျွန်တော်တို့ model ကို ပေးပို့လိုက်တဲ့အခါ၊ အခုဆိုရင် error မရှိဘဲ အလုပ်လုပ်ပါပြီ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> trainer.get_train_dataloader():
<span class="hljs-keyword">break</span>
outputs = trainer.model.cpu()(**batch)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1c8wthr">နောက်တစ်ဆင့်ကတော့ GPU ကို ပြန်သွားပြီး အရာအားလုံး ဆက်အလုပ်လုပ်လားဆိုတာ စစ်ဆေးဖို့ပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> torch
device = torch.device(<span class="hljs-string">&quot;cuda&quot;</span>) <span class="hljs-keyword">if</span> torch.cuda.is_available() <span class="hljs-keyword">else</span> torch.device(<span class="hljs-string">&quot;cpu&quot;</span>)
batch = {k: v.to(device) <span class="hljs-keyword">for</span> k, v <span class="hljs-keyword">in</span> batch.items()}
outputs = trainer.model.to(device)(**batch)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-tv5tgo">error ဆက်ရနေသေးတယ်ဆိုရင်၊ သင့် notebook ကို restart လုပ်ပြီး script ရဲ့ နောက်ဆုံး version ကိုပဲ run ဖို့ သေချာပါစေ။</p> <h3 class="relative group"><a id="performing-one-optimization-step" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#performing-one-optimization-step"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Optimization Step တစ်ခု လုပ်ဆောင်ခြင်း</span></h3> <p data-svelte-h="svelte-1h4cr69">အခုဆိုရင် model ကို အမှန်တကယ် ဖြတ်သန်းနိုင်တဲ့ batches တွေ တည်ဆောက်နိုင်ပြီဆိုတာ သိပြီဖြစ်လို့၊ training pipeline ရဲ့ နောက်တစ်ဆင့်ဖြစ်တဲ့ gradients တွေ တွက်ချက်ခြင်းနဲ့ optimization step တစ်ခု လုပ်ဆောင်ခြင်းအတွက် အဆင်သင့်ပါပဲ။</p> <p data-svelte-h="svelte-150devl">ပထမအပိုင်းကတော့ loss ပေါ်မှာ <code>backward()</code> method ကို ခေါ်လိုက်ရုံပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->loss = outputs.loss
loss.backward()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-96e3p8">ဒီအဆင့်မှာ error ရတာ ရှားပါတယ်၊ ဒါပေမယ့် ရခဲ့တယ်ဆိုရင်တော့ အထောက်အကူဖြစ်မယ့် error message တစ်ခုရဖို့ CPU ကို ပြန်သွားဖို့ သေချာပါစေ။</p> <p data-svelte-h="svelte-1e8ylye">optimization step ကို လုပ်ဆောင်ဖို့အတွက်၊ ကျွန်တော်တို့ <code>optimizer</code> ကို ဖန်တီးပြီး ၎င်းရဲ့ <code>step()</code> method ကို ခေါ်လိုက်ရုံပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.create_optimizer()
trainer.optimizer.step()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-16qd6hz">ထပ်မံပြီးတော့၊ <code>Trainer</code> မှာ default optimizer ကို အသုံးပြုနေတယ်ဆိုရင်၊ ဒီအဆင့်မှာ error မရသင့်ပါဘူး။ ဒါပေမယ့် သင့်မှာ custom optimizer ရှိတယ်ဆိုရင်၊ ဒီနေရာမှာ debug လုပ်စရာ ပြဿနာအချို့ ရှိနိုင်ပါတယ်။ ဒီအဆင့်မှာ ထူးဆန်းတဲ့ CUDA error တစ်ခုရခဲ့ရင် CPU ကို ပြန်သွားဖို့ မမေ့ပါနဲ့။ CUDA errors တွေအကြောင်း ပြောရရင်၊ အရင်က ကျွန်တော်တို့ special case တစ်ခုကို ပြောခဲ့ပါတယ်။ အခု ဒါကို ကြည့်ရအောင်။</p> <h3 class="relative group"><a id="dealing-with-cuda-out-of-memory-errors" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#dealing-with-cuda-out-of-memory-errors"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>CUDA Out-of-Memory Errors များကို ကိုင်တွယ်ဖြေရှင်းခြင်း</span></h3> <p data-svelte-h="svelte-1l0dym8"><code>RuntimeError: CUDA out of memory</code> နဲ့ စတင်တဲ့ error message တစ်ခုခု ရတဲ့အခါ၊ ဒါက သင့် GPU memory ကုန်သွားပြီဆိုတာကို ညွှန်ပြပါတယ်။ ဒါက သင့် code နဲ့ တိုက်ရိုက်ဆက်စပ်တာ မဟုတ်ဘဲ၊ ကောင်းကောင်း run နိုင်တဲ့ script တစ်ခုမှာလည်း ဖြစ်နိုင်ပါတယ်။ ဒီ error က သင့် GPU ရဲ့ internal memory ထဲကို ပစ္စည်းအများကြီး ထည့်ဖို့ ကြိုးစားခဲ့ပြီး၊ ဒါက error ဖြစ်ပေါ်လာတယ်လို့ ဆိုလိုပါတယ်။ တခြား CUDA errors တွေလိုပဲ၊ သင့် training ကို ပြန် run နိုင်ဖို့ သင့် kernel ကို restart လုပ်ဖို့ လိုအပ်ပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-1wagpld">ဒီပြဿနာကို ဖြေရှင်းဖို့အတွက်၊ သင် GPU space နည်းနည်းပဲ အသုံးပြုဖို့ လိုအပ်ပါတယ် — ဒါက ပြောရတာထက် လုပ်ရတာ ပိုခက်ပါတယ်။ ပထမဆုံး၊ သင် GPU ပေါ်မှာ models နှစ်ခုကို တစ်ပြိုင်နက်တည်း မထားရှိဘူးဆိုတာ သေချာပါစေ (သင့်ပြဿနာအတွက် မလိုအပ်ဘူးဆိုရင်ပေါ့)။ ပြီးရင်၊ သင့် batch size ကို လျှော့ချသင့်ပါတယ်၊ ဘာလို့လဲဆိုတော့ ဒါက model ရဲ့ ကြားခံ outputs တွေအားလုံးရဲ့ sizes နဲ့ ၎င်းတို့ရဲ့ gradients တွေကို တိုက်ရိုက်သက်ရောက်မှုရှိလို့ပါပဲ။ ပြဿနာဆက်ရှိနေသေးရင်၊ သင့် model ရဲ့ သေးငယ်တဲ့ version တစ်ခုကို အသုံးပြုဖို့ စဉ်းစားပါ။</p> <blockquote class="tip" data-svelte-h="svelte-173oaka"><p>သင်တန်းရဲ့ နောက်အပိုင်းမှာ၊ သင့်ရဲ့ memory footprint ကို လျှော့ချနိုင်ပြီး အကြီးဆုံး models တွေကို fine-tune လုပ်နိုင်စေမယ့် ပိုမိုအဆင့်မြင့်တဲ့ နည်းလမ်းတွေကို ကျွန်တော်တို့ လေ့လာသွားမှာပါ။</p></blockquote> <h3 class="relative group"><a id="evaluating-the-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#evaluating-the-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Model ကို Evaluation လုပ်ခြင်း</span></h3> <p data-svelte-h="svelte-jhbxpq">အခုဆိုရင် ကျွန်တော်တို့ code ထဲက ပြဿနာအားလုံးကို ဖြေရှင်းခဲ့ပြီဆိုတော့၊ အရာအားလုံး ပြီးပြည့်စုံပြီး training က ချောချောမွေ့မွေ့ run သွားသင့်တယ်၊ မှန်တယ်မလား? မြန်မြန်ဆန်ဆန် မဟုတ်သေးပါဘူး! သင် <code>trainer.train()</code> command ကို run ရင်၊ အရာအားလုံးက ပထမတော့ ကောင်းကောင်း ကြည့်ကောင်းနေပါလိမ့်မယ်၊ ဒါပေမယ့် ခဏအကြာမှာ အောက်ပါအတိုင်း ရပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-comment"># This will take a long time and error out, so you shouldn&#x27;t run this cell</span>
trainer.train()<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->TypeError: only size-<span class="hljs-number">1</span> arrays can be converted to Python scalars<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-2uf1je">ဒီ error က evaluation phase မှာ ပေါ်လာတာကို သင်သိပါလိမ့်မယ်၊ ဒါကြောင့် ဒါက ကျွန်တော်တို့ debug လုပ်ရမယ့် နောက်ဆုံးအရာပါပဲ။</p> <p data-svelte-h="svelte-1o8d6mu">training နဲ့ သီးခြားစီ <code>Trainer</code> ရဲ့ evaluation loop ကို အခုလို run နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.evaluate()<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->TypeError: only size-<span class="hljs-number">1</span> arrays can be converted to Python scalars<!-- HTML_TAG_END --></pre></div> <blockquote class="tip" data-svelte-h="svelte-rmgug2"><p>💡 error ကြုံတွေ့ရပြီး compute resources အများကြီး မကုန်ခင်မှာ <code>trainer.evaluate()</code> ကို run နိုင်ကြောင်း အမြဲတမ်း သေချာအောင် လုပ်သင့်ပါတယ်။</p></blockquote> <p data-svelte-h="svelte-pzn41e">evaluation loop မှာ ပြဿနာတစ်ခုကို debug လုပ်ဖို့ ကြိုးစားမယ့်အစား၊ သင်ဟာ data ကို ကြည့်ပြီးပြီ၊ batch တစ်ခုကို မှန်ကန်စွာ ဖန်တီးနိုင်ပြီ၊ ပြီးတော့ သင့် model ကို ဒါပေါ်မှာ run နိုင်ပြီဆိုတာကို အရင်ဆုံး သေချာအောင် လုပ်သင့်ပါတယ်။ ကျွန်တော်တို့ အဲဒီအဆင့်အားလုံးကို ပြီးဆုံးခဲ့ပြီဖြစ်လို့၊ အောက်ပါ code ကို error မရှိဘဲ run နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> trainer.get_eval_dataloader():
<span class="hljs-keyword">break</span>
batch = {k: v.to(device) <span class="hljs-keyword">for</span> k, v <span class="hljs-keyword">in</span> batch.items()}
<span class="hljs-keyword">with</span> torch.no_grad():
outputs = trainer.model(**batch)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-e0628n">error က နောက်ပိုင်း၊ evaluation phase အဆုံးမှာ ပေါ်လာတာဖြစ်ပြီး၊ traceback ကို ကြည့်လိုက်ရင် ဒါကို တွေ့ရပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->~/git/datasets/src/datasets/metric.py <span class="hljs-keyword">in</span> add_batch(self, predictions, references)
<span class="hljs-number">431</span> <span class="hljs-string">&quot;&quot;&quot;
432 batch = {&quot;predictions&quot;: predictions, &quot;references&quot;: references}
--&gt; 433 batch = self.info.features.encode_batch(batch)
434 if self.writer is None:
435 self._init_writer()</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1c9je4l">ဒါက error က <code>datasets/metric.py</code> module ကနေ ပေါက်ဖွားလာတယ်လို့ ကျွန်တော်တို့ကို ပြောပါတယ် — ဒါကြောင့် ဒါက ကျွန်တော်တို့ရဲ့ <code>compute_metrics()</code> function နဲ့ ပတ်သက်တဲ့ ပြဿနာပါ။ ဒါက logits နဲ့ labels တွေကို NumPy arrays အဖြစ် tuple တစ်ခုနဲ့ ယူပါတယ်၊ ဒါကြောင့် ဒါကို ပေးပို့ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->predictions = outputs.logits.cpu().numpy()
labels = batch[<span class="hljs-string">&quot;labels&quot;</span>].cpu().numpy()
compute_metrics((predictions, labels))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->TypeError: only size-<span class="hljs-number">1</span> arrays can be converted to Python scalars<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1aygzvl">ကျွန်တော်တို့ error တူတူ ရရှိပါတယ်၊ ဒါကြောင့် ပြဿနာက အဲဒီ function မှာ အမှန်တကယ် ရှိနေပါတယ်။ ကျွန်တော်တို့ရဲ့ code ကို ပြန်ကြည့်လိုက်ရင်၊ ဒါက <code>predictions</code> နဲ့ <code>labels</code> တွေကို <code>metric.compute()</code> ကိုပဲ forwarding လုပ်နေတာကို တွေ့ရပါတယ်။ ဒါဆို အဲဒီ method မှာ ပြဿနာရှိလား? တကယ်တော့ မရှိပါဘူး။ shapes တွေကို မြန်မြန်လေး ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->predictions.shape, labels.shape<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->((<span class="hljs-number">8</span>, <span class="hljs-number">3</span>), (<span class="hljs-number">8</span>,))<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-lz3go9">ကျွန်တော်တို့ရဲ့ predictions တွေက logit တွေပဲ ရှိပါသေးတယ်၊ အမှန်တကယ် predictions တွေ မဟုတ်သေးပါဘူး။ ဒါကြောင့် metric က ဒီ (အနည်းငယ် မရှင်းလင်းတဲ့) error ကို ပြန်ပေးတာပါ။ ပြင်ဆင်တာက အတော်လေး လွယ်ပါတယ်၊ ကျွန်တော်တို့ <code>compute_metrics()</code> function ထဲမှာ argmax တစ်ခု ထည့်လိုက်ရုံပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> numpy <span class="hljs-keyword">as</span> np
<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">eval_pred</span>):
predictions, labels = eval_pred
predictions = np.argmax(predictions, axis=<span class="hljs-number">1</span>)
<span class="hljs-keyword">return</span> metric.compute(predictions=predictions, references=labels)
compute_metrics((predictions, labels))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;accuracy&#x27;</span>: <span class="hljs-number">0.625</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1wnvgrv">အခု ကျွန်တော်တို့ရဲ့ error ပြင်ဆင်ပြီးပါပြီ! ဒါက နောက်ဆုံးတစ်ခုပါ၊ ဒါကြောင့် ကျွန်တော်တို့ရဲ့ script က model တစ်ခုကို မှန်ကန်စွာ train လုပ်ပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-wszxps">ရည်ညွှန်းချက်အနေနဲ့၊ ဒီနေရာမှာ လုံးဝပြင်ဆင်ပြီးသား script ပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> numpy <span class="hljs-keyword">as</span> np
<span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset
<span class="hljs-keyword">import</span> evaluate
<span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> (
AutoTokenizer,
AutoModelForSequenceClassification,
DataCollatorWithPadding,
TrainingArguments,
Trainer,
)
raw_datasets = load_dataset(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
model_checkpoint = <span class="hljs-string">&quot;distilbert-base-uncased&quot;</span>
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_function</span>(<span class="hljs-params">examples</span>):
<span class="hljs-keyword">return</span> tokenizer(examples[<span class="hljs-string">&quot;premise&quot;</span>], examples[<span class="hljs-string">&quot;hypothesis&quot;</span>], truncation=<span class="hljs-literal">True</span>)
tokenized_datasets = raw_datasets.<span class="hljs-built_in">map</span>(preprocess_function, batched=<span class="hljs-literal">True</span>)
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=<span class="hljs-number">3</span>)
args = TrainingArguments(
<span class="hljs-string">f&quot;distilbert-finetuned-mnli&quot;</span>,
evaluation_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
save_strategy=<span class="hljs-string">&quot;epoch&quot;</span>,
learning_rate=<span class="hljs-number">2e-5</span>,
num_train_epochs=<span class="hljs-number">3</span>,
weight_decay=<span class="hljs-number">0.01</span>,
)
metric = evaluate.load(<span class="hljs-string">&quot;glue&quot;</span>, <span class="hljs-string">&quot;mnli&quot;</span>)
<span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">eval_pred</span>):
predictions, labels = eval_pred
predictions = np.argmax(predictions, axis=<span class="hljs-number">1</span>)
<span class="hljs-keyword">return</span> metric.compute(predictions=predictions, references=labels)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
trainer = Trainer(
model,
args,
train_dataset=tokenized_datasets[<span class="hljs-string">&quot;train&quot;</span>],
eval_dataset=tokenized_datasets[<span class="hljs-string">&quot;validation_matched&quot;</span>],
compute_metrics=compute_metrics,
data_collator=data_collator,
tokenizer=tokenizer,
)
trainer.train()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1e7q33">ဒီကိစ္စမှာ၊ ပြဿနာတွေ နောက်ထပ်မရှိတော့ပါဘူး၊ ကျွန်တော်တို့ရဲ့ script က ကျိုးကြောင်းဆီလျော်တဲ့ ရလဒ်တွေပေးသင့်တဲ့ model တစ်ခုကို fine-tune လုပ်ပါလိမ့်မယ်။ ဒါပေမယ့် training က error တစ်ခုမှမရှိဘဲ ပြီးသွားပြီး၊ train လုပ်ထားတဲ့ model က လုံးဝစွမ်းဆောင်ရည်မကောင်းဘူးဆိုရင် ဘာလုပ်နိုင်မလဲ။ ဒါက machine learning ရဲ့ အခက်ခဲဆုံးအပိုင်းပါပဲ၊ ပြီးတော့ အကူအညီဖြစ်စေနိုင်မယ့် နည်းလမ်းအချို့ကို ကျွန်တော်တို့ ပြသပေးပါမယ်။</p> <blockquote class="tip" data-svelte-h="svelte-1kmet52"><p>💡 သင် manual training loop ကို အသုံးပြုနေတယ်ဆိုရင်၊ တူညီတဲ့အဆင့်တွေက သင့် training pipeline ကို debug လုပ်ဖို့ သက်ဆိုင်ပါတယ်၊ ဒါပေမယ့် ဒါတွေကို ခွဲခြားရတာ ပိုလွယ်ပါတယ်။ သင့် <code>model.eval()</code> ဒါမှမဟုတ် <code>model.train()</code> ကို မှန်ကန်တဲ့နေရာတွေမှာ ထည့်ဖို့၊ ဒါမှမဟုတ် step တစ်ခုစီမှာ <code>zero_grad()</code> ကို ထည့်ဖို့ မမေ့ပါနဲ့!</p></blockquote> <h2 class="relative group"><a id="debugging-silent-errors-during-training" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#debugging-silent-errors-during-training"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training လုပ်နေစဉ် Silent Errors များကို Debug လုပ်ခြင်း</span></h2> <p data-svelte-h="svelte-ol52f5">error မရှိဘဲ ပြီးဆုံးသွားပေမယ့် ရလဒ်ကောင်းတွေ မရတဲ့ training တစ်ခုကို debug လုပ်ဖို့ ဘာလုပ်နိုင်မလဲ။ ဒီနေရာမှာ အကြံပြုချက်အချို့ကို ကျွန်တော်တို့ ပေးပါမယ်၊ ဒါပေမယ့် ဒီလို debug လုပ်တာက machine learning ရဲ့ အခက်ခဲဆုံးအပိုင်းဖြစ်ပြီး၊ မှော်ဆန်တဲ့အဖြေ မရှိပါဘူးဆိုတာ သတိထားပါ။</p> <h3 class="relative group"><a id="check-your-data-again" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#check-your-data-again"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>သင့် Data ကို စစ်ဆေးပါ (ထပ်မံပြီး!)</span></h3> <p data-svelte-h="svelte-62bxn">သင့် data ကနေ တစ်ခုခု သင်ယူဖို့ တကယ်ဖြစ်နိုင်မှသာ သင့် model က တစ်ခုခု သင်ယူပါလိမ့်မယ်။ data ကို ပျက်စီးစေတဲ့ bug တစ်ခုရှိရင် ဒါမှမဟုတ် labels တွေကို ကျပန်းပေးထားရင်၊ သင့် dataset ပေါ်မှာ model training တစ်ခုမှ ရမှာမဟုတ်ပါဘူး။ ဒါကြောင့် သင့် decoded inputs နဲ့ labels တွေကို အမြဲတမ်း နှစ်ခါစစ်ဆေးပြီး အောက်ပါမေးခွန်းတွေကို သင့်ကိုယ်သင် မေးပါ။</p> <ul data-svelte-h="svelte-lh1l3j"><li>decoded data က နားလည်နိုင်လား။</li> <li>labels တွေနဲ့ သင်သဘောတူလား။</li> <li>တခြား labels တွေထက် ပိုအဖြစ်များတဲ့ label တစ်ခုခု ရှိလား။</li> <li>model က random answer/အမြဲတမ်း အဖြေတူတူကို ခန့်မှန်းရင် loss/metric က ဘာဖြစ်သင့်လဲ။</li></ul> <blockquote class="warning" data-svelte-h="svelte-g4okb"><p>⚠️ သင် distributed training လုပ်နေတယ်ဆိုရင်၊ process တစ်ခုစီမှာ သင့် dataset ရဲ့ samples တွေကို print ထုတ်ပြီး တူညီတဲ့အရာ ရမရ သုံးခါစစ်ဆေးပါ။ common bug တစ်ခုကတော့ data creation မှာ randomness source အချို့ရှိတာကြောင့် process တစ်ခုစီမှာ dataset ရဲ့ version မတူတာပါပဲ။</p></blockquote> <p data-svelte-h="svelte-trx7jc">သင့် data ကို ကြည့်ပြီးနောက်၊ model ရဲ့ predictions အချို့ကို ဖြတ်သန်းပြီး ၎င်းတို့ကိုပါ decode လုပ်ပါ။ model က အမြဲတမ်း အဖြေတူတူကို ခန့်မှန်းနေတယ်ဆိုရင်၊ ဒါက သင့် dataset က category တစ်ခုဆီ ဘက်လိုက်နေလို့ (classification problem တွေအတွက်) ဖြစ်နိုင်ပါတယ်။ rare classes တွေကို oversampling လုပ်တာလို နည်းလမ်းတွေက အကူအညီဖြစ်နိုင်ပါတယ်။</p> <p data-svelte-h="svelte-avk0ok">သင့် initial model မှာ ရရှိတဲ့ loss/metric က random predictions တွေအတွက် မျှော်လင့်ထားတဲ့ loss/metric နဲ့ အလွန်ကွာခြားနေတယ်ဆိုရင်၊ သင့် loss သို့မဟုတ် metric ကို တွက်ချက်ပုံကို နှစ်ခါစစ်ဆေးပါ၊ ဘာလို့လဲဆိုတော့ အဲဒီမှာ bug ရှိနိုင်လို့ပါပဲ။ သင်နောက်ဆုံးမှာ ပေါင်းထည့်တဲ့ losses များစွာကို အသုံးပြုနေတယ်ဆိုရင်၊ ၎င်းတို့က scale တူညီကြောင်း သေချာပါစေ။</p> <p data-svelte-h="svelte-xjrcl">သင့် data က ပြီးပြည့်စုံကြောင်း သေချာပြီဆိုတာနဲ့၊ model က ဒါပေါ်မှာ train လုပ်နိုင်လားဆိုတာကို ရိုးရှင်းတဲ့ test တစ်ခုနဲ့ စစ်ဆေးနိုင်ပါတယ်။</p> <h3 class="relative group"><a id="overfit-your-model-on-one-batch" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#overfit-your-model-on-one-batch"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Model ကို Batch တစ်ခုတည်းပေါ်မှာ Overfit လုပ်ခြင်း</span></h3> <p data-svelte-h="svelte-1nlj9ln">Overfitting က training လုပ်တဲ့အခါ ကျွန်တော်တို့ ရှောင်ရှားဖို့ ကြိုးစားလေ့ရှိတဲ့ အရာတစ်ခုပါ၊ ဘာလို့လဲဆိုတော့ ဒါက model က ကျွန်တော်တို့ လိုချင်တဲ့ general features တွေကို အသိအမှတ်ပြုဖို့ သင်ယူတာမဟုတ်ဘဲ training samples တွေကိုပဲ အလွတ်ကျက်နေတာကို ဆိုလိုလို့ပါပဲ။ သို့သော်လည်း၊ သင့် model ကို batch တစ်ခုတည်းပေါ်မှာ အကြိမ်ကြိမ် train လုပ်ဖို့ ကြိုးစားတာက၊ သင်ဖန်တီးထားတဲ့ ပြဿနာကို သင် train လုပ်ဖို့ ကြိုးစားနေတဲ့ model က ဖြေရှင်းနိုင်လားဆိုတာ စစ်ဆေးဖို့ ကောင်းတဲ့ test တစ်ခုပါ။ ဒါက သင့် initial learning rate က မြင့်မားလွန်းလားဆိုတာကိုလည်း မြင်အောင် ကူညီပေးပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-140xxlc"><code>Trainer</code> ကို သတ်မှတ်ပြီးတာနဲ့ ဒါကို လုပ်ဆောင်ရတာ အလွန်လွယ်ကူပါတယ်၊ training data batch တစ်ခုကို ယူပြီး၊ အဲဒီ batch တစ်ခုတည်းကိုပဲ 20 steps လောက်အတွက် manual training loop သေးသေးလေးတစ်ခု run ပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> trainer.get_train_dataloader():
<span class="hljs-keyword">break</span>
batch = {k: v.to(device) <span class="hljs-keyword">for</span> k, v <span class="hljs-keyword">in</span> batch.items()}
trainer.create_optimizer()
<span class="hljs-keyword">for</span> _ <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">20</span>):
outputs = trainer.model(**batch)
loss = outputs.loss
loss.backward()
trainer.optimizer.step()
trainer.optimizer.zero_grad()<!-- HTML_TAG_END --></pre></div> <blockquote class="tip" data-svelte-h="svelte-m0218"><p>💡 သင့် training data က မညီမျှဘူးဆိုရင်၊ labels အားလုံးပါဝင်တဲ့ training data batch တစ်ခုကို တည်ဆောက်ဖို့ သေချာပါစေ။</p></blockquote> <p data-svelte-h="svelte-wif82c">ရရှိလာတဲ့ model က တူညီတဲ့ <code>batch</code> ပေါ်မှာ perfect နီးပါး ရလဒ်တွေ ရရှိသင့်ပါတယ်။ ရရှိလာတဲ့ predictions တွေပေါ်မှာ metric ကို တွက်ချက်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">with</span> torch.no_grad():
outputs = trainer.model(**batch)
preds = outputs.logits
labels = batch[<span class="hljs-string">&quot;labels&quot;</span>]
compute_metrics((preds.cpu().numpy(), labels.cpu().numpy()))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">&#x27;accuracy&#x27;</span>: <span class="hljs-number">1.0</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1xc2fsq">100% accuracy၊ ဒါက overfitting ရဲ့ ကောင်းမွန်တဲ့ ဥပမာတစ်ခုပါပဲ (ဆိုလိုတာက သင်ရဲ့ model ကို တခြားစာကြောင်းတစ်ခုခုနဲ့ စမ်းကြည့်ရင်၊ ဒါက မှားယွင်းတဲ့ အဖြေကို ပေးနိုင်ခြေများပါတယ်)!</p> <p data-svelte-h="svelte-1p5cdr3">သင်ဒီလို perfect ရလဒ်တွေရဖို့ သင့် model ကို မလုပ်ဆောင်နိုင်ဘူးဆိုရင်၊ ဒါက သင်ပြဿနာကို ဖန်တီးထားပုံ ဒါမှမဟုတ် သင့် data မှာ တစ်ခုခု မှားယွင်းနေတယ်လို့ ဆိုလိုတာကြောင့်၊ ဒါကို ပြင်ဆင်သင့်ပါတယ်။ overfitting test ကို အောင်မြင်စွာ ဖြတ်သန်းနိုင်မှသာ သင့် model က တကယ်တစ်ခုခု သင်ယူနိုင်တယ်ဆိုတာ သေချာနိုင်ပါတယ်။</p> <blockquote class="warning" data-svelte-h="svelte-1yfek81"><p>⚠️ ဒီ test ပြီးနောက် သင့် model နဲ့ <code>Trainer</code> ကို ပြန်လည်ဖန်တီးရပါလိမ့်မယ်၊ ဘာလို့လဲဆိုတော့ ရရှိတဲ့ model က သင့် full dataset ပေါ်မှာ အသုံးဝင်တဲ့အရာတစ်ခုကို ပြန်လည်သင်ယူနိုင်တော့မှာ မဟုတ်လို့ပါပဲ။</p></blockquote> <h3 class="relative group"><a id="dont-tune-anything-until-you-have-a-first-baseline" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#dont-tune-anything-until-you-have-a-first-baseline"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ပထမဆုံး Baseline တစ်ခုရသည်အထိ ဘာမှ မညှိပါနှင့်</span></h3> <p data-svelte-h="svelte-1dv81rb">Hyperparameter tuning ကို machine learning ရဲ့ အခက်ခဲဆုံးအပိုင်းအဖြစ် အမြဲတမ်း အလေးပေးပြောဆိုလေ့ရှိပေမယ့်၊ ဒါက metric မှာ နည်းနည်းလေးသာ အကျိုးကျေးဇူးရရှိစေမယ့် နောက်ဆုံးအဆင့်ပါပဲ။ အချိန်အများစုမှာ၊ <code>Trainer</code> ရဲ့ default hyperparameters တွေက ကောင်းမွန်တဲ့ ရလဒ်တွေပေးဖို့ အဆင်ပြေမှာဖြစ်တာကြောင့်၊ သင့် dataset ပေါ်မှာရှိတဲ့ baseline ကို အနိုင်ယူနိုင်တဲ့အရာတစ်ခု မရမချင်း၊ အချိန်ကုန်ပြီး ကုန်ကျစရိတ်များတဲ့ hyperparameter search ကို မစတင်ပါနဲ့။</p> <p data-svelte-h="svelte-1mjn3pd">ကောင်းမွန်တဲ့ model တစ်ခုရပြီဆိုတာနဲ့၊ နည်းနည်းချင်း စတင်ညှိနှိုင်းနိုင်ပါပြီ။ မတူညီတဲ့ hyperparameters တွေနဲ့ run တွေ အများကြီး မစတင်ပါနဲ့၊ ဒါပေမယ့် hyperparameter တစ်ခုအတွက် မတူညီတဲ့ values တွေနဲ့ run အနည်းငယ်ကို နှိုင်းယှဉ်ပြီး ဘယ်ဟာက အကြီးမားဆုံး သက်ရောက်မှုရှိလဲဆိုတာ စိတ်ကူးရယူပါ။</p> <p data-svelte-h="svelte-zfwn37">သင် model ကိုယ်တိုင်ကို ညှိနှိုင်းနေတယ်ဆိုရင်၊ ရိုးရှင်းအောင်ထားပြီး ကျိုးကြောင်းဆီလျော်အောင် ရှင်းပြလို့မရတဲ့ အရာတစ်ခုခုကို မစမ်းသပ်ပါနဲ့။ သင့်ပြောင်းလဲမှုက မရည်ရွယ်ဘဲ အကျိုးဆက်တွေ မဖြစ်စေဘူးဆိုတာကို စစ်ဆေးဖို့ overfitting test ကို အမြဲတမ်း ပြန်သွားဖို့ သေချာပါစေ။</p> <h3 class="relative group"><a id="ask-for-help" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ask-for-help"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>အကူအညီတောင်းပါ</span></h3> <p data-svelte-h="svelte-reatmw">မျှော်လင့်တာကတော့ ဒီအပိုင်းမှာ သင့်ပြဿနာကို ဖြေရှင်းဖို့ ကူညီပေးမယ့် အကြံပြုချက်အချို့ကို သင်တွေ့ရှိခဲ့ပါပြီ။ ဒါပေမယ့် မဟုတ်ဘူးဆိုရင်၊ <a href="https://discuss.huggingface.co/" rel="nofollow">forums</a> မှာ community ကို အမြဲတမ်း အကူအညီတောင်းနိုင်တယ်ဆိုတာ သတိရပါ။</p> <p data-svelte-h="svelte-1v59zgb">ဒီနေရာမှာ အထောက်အကူဖြစ်နိုင်မယ့် နောက်ထပ် အရင်းအမြစ်အချို့ပါ-</p> <ul data-svelte-h="svelte-1updw3s"><li>Joel Grus ရဲ့ “Reproducibility as a vehicle for engineering best practices” (<a href="https://docs.google.com/presentation/d/1yHLPvPhUs2KGI5ZWo0sU-PKU3GimAk3iTsI38Z-B5Gw/edit#slide=id.p" rel="nofollow">https://docs.google.com/presentation/d/1yHLPvPhUs2KGI5ZWo0sU-PKU3GimAk3iTsI38Z-B5Gw/edit#slide=id.p</a>)</li> <li>Cecelia Shao ရဲ့ “Checklist for debugging neural networks” (<a href="https://towardsdatascience.com/checklist-for-debugging-neural-networks-d8b2a9434f21" rel="nofollow">https://towardsdatascience.com/checklist-for-debugging-neural-networks-d8b2a9434f21</a>)</li> <li>Chase Roberts ရဲ့ “How to unit test machine learning code” (<a href="https://medium.com/@keeper6928/how-to-unit-test-machine-learning-code-57cf6fd81765" rel="nofollow">https://medium.com/@keeper6928/how-to-unit-test-machine-learning-code-57cf6fd81765</a>)</li> <li>Andrej Karpathy ရဲ့ “A Recipe for Training Neural Networks” (<a href="http://karpathy.github.io/2019/04/25/recipe/" rel="nofollow">http://karpathy.github.io/2019/04/25/recipe/</a>)</li></ul> <p data-svelte-h="svelte-srh4wf">ဟုတ်ပါတယ်၊ neural nets တွေကို train လုပ်တဲ့အခါ သင်ကြုံတွေ့ရတဲ့ ပြဿနာတိုင်းက သင့်အမှားမဟုတ်ပါဘူး! 🤗 Transformers ဒါမှမဟုတ် 🤗 Datasets library ထဲမှာ တစ်ခုခု မမှန်ဘူးလို့ ထင်ရတာ ကြုံတွေ့ရရင်၊ သင် bug တစ်ခုနဲ့ ကြုံတွေ့ရတာ ဖြစ်နိုင်ပါတယ်။ ဒါကို ကျွန်တော်တို့ကို အသေးစိတ် ပြောပြသင့်ပါတယ်၊ ပြီးတော့ နောက်အပိုင်းမှာ ဒါကို ဘယ်လိုလုပ်ရမယ်ဆိုတာကို အတိအကျ ရှင်းပြပါမယ်။</p> <h2 class="relative group"><a id="ဝဟရ-ရငလငခက-glossary" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ဝဟရ-ရငလငခက-glossary"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဝေါဟာရ ရှင်းလင်းချက် (Glossary)</span></h2> <ul data-svelte-h="svelte-fhowvn"><li><strong>Training Pipeline</strong>: Machine Learning မော်ဒယ်တစ်ခုကို data preprocessing မှစ၍ model training, evaluation အထိ ပါဝင်သော အဆင့်များစွာရှိသည့် လုပ်ငန်းစဉ်။</li> <li><strong>Debug</strong>: ကွန်ပျူတာပရိုဂရမ်တစ်ခုရှိ အမှားများ (bugs) ကို ရှာဖွေ၊ ဖော်ထုတ်ပြီး ပြင်ဆင်ခြင်း။</li> <li><strong>Fine-tune</strong>: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်းကို ဆိုလိုပါတယ်။</li> <li><strong>Model</strong>: Artificial Intelligence (AI) နယ်ပယ်တွင် အချက်အလက်များကို လေ့လာပြီး ခန့်မှန်းချက်များ ပြုလုပ်ရန် ဒီဇိုင်းထုတ်ထားသော သင်္ချာဆိုင်ရာဖွဲ့စည်းပုံများ။</li> <li><strong>Task</strong>: Artificial Intelligence (AI) သို့မဟုတ် Machine Learning (ML) မော်ဒယ်တစ်ခုက လုပ်ဆောင်ရန် ဒီဇိုင်းထုတ်ထားသော သီးခြားအလုပ်။</li> <li><strong><code>trainer.train()</code> Command</strong>: Hugging Face Transformers library ၏ <code>Trainer</code> class မှ model ကို လေ့ကျင့်ရန်အတွက် အသုံးပြုသော method။</li> <li><strong>Error</strong>: ပရိုဂရမ်တစ်ခု အလုပ်လုပ်နေစဉ် ဖြစ်ပေါ်လာသော ပြဿနာတစ်ခုကြောင့် ၎င်းသည် ပုံမှန်အတိုင်း ဆက်လက်လုပ်ဆောင်နိုင်ခြင်းမရှိခြင်း။</li> <li><strong>Crappy (Model)</strong>: စွမ်းဆောင်ရည် နိမ့်ကျသော သို့မဟုတ် အသုံးမဝင်သော model။</li> <li><strong>Datasets</strong>: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။</li> <li><strong>Dataloaders</strong>: dataset ကနေ data တွေကို batch အလိုက် load လုပ်ပေးတဲ့ PyTorch utility class (သို့မဟုတ် TensorFlow မှာ ဆင်တူ)။</li> <li><strong>Batch</strong>: မတူညီသော input များစွာကို တစ်ပြိုင်နက်တည်း လုပ်ဆောင်နိုင်ရန် အုပ်စုဖွဲ့ခြင်း။</li> <li><strong>Model Code</strong>: model ကို တည်ဆောက်ပြီး အကောင်အထည်ဖော်ရန် ရေးသားထားသော code။</li> <li><strong>Gradients</strong>: neural network ၏ weights များကို loss function ကို အနည်းဆုံးဖြစ်အောင် ချိန်ညှိရန်အတွက် လမ်းညွှန်ပေးသော တန်ဖိုးများ။</li> <li><strong>Optimization Step</strong>: gradients များကို အသုံးပြုပြီး model ၏ parameters များကို update လုပ်ခြင်း။</li> <li><strong>Optimizer</strong>: model ၏ weights များကို training လုပ်နေစဉ် ချိန်ညှိပေးသော algorithm (ဥပမာ- AdamW, SGD)။</li> <li><strong>Evaluation</strong>: Model ၏ စွမ်းဆောင်ရည်ကို တိုင်းတာခြင်း။</li> <li><strong>Metric</strong>: Model ၏ စွမ်းဆောင်ရည်ကို တိုင်းတာရန် အသုံးပြုသော တန်ဖိုးများ (ဥပမာ- accuracy, F1 score)။</li> <li><strong>MNLI Dataset (Multi-Genre Natural Language Inference)</strong>: GLUE benchmark ထဲက text entailment task တစ်ခု။</li> <li><strong>DistilBERT Model</strong>: BERT model ၏ ပိုမိုသေးငယ်ပြီး မြန်ဆန်သော version။</li> <li><strong><code>load_dataset()</code> Function</strong>: Hugging Face Datasets library မှ dataset များကို download လုပ်ပြီး cache လုပ်ရန် အသုံးပြုသော function။</li> <li><strong><code>evaluate</code> Library</strong>: Hugging Face မှ metrics များကို load လုပ်ပြီး တွက်ချက်ရန်အတွက် library။</li> <li><strong><code>AutoTokenizer</code></strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ class တစ်ခုဖြစ်ပြီး မော်ဒယ်အမည်ကို အသုံးပြုပြီး သက်ဆိုင်ရာ tokenizer ကို အလိုအလျောက် load လုပ်ပေးသည်။</li> <li><strong><code>AutoModelForSequenceClassification</code></strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ class တစ်ခုဖြစ်ပြီး sequence classification task အတွက် model ကို အလိုအလျောက် load လုပ်ပေးသည်။</li> <li><strong><code>TrainingArguments</code></strong>: Hugging Face Transformers library မှ <code>Trainer</code> အတွက် training arguments များကို သတ်မှတ်ရန် အသုံးပြုသော class။</li> <li><strong><code>Trainer</code></strong>: Hugging Face Transformers library မှ model များကို ထိရောက်စွာ လေ့ကျင့်ရန်အတွက် ဒီဇိုင်းထုတ်ထားသော မြင့်မားသောအဆင့် API။</li> <li><strong><code>raw_datasets</code></strong>: Preprocessing မလုပ်ရသေးသော dataset။</li> <li><strong><code>model_checkpoint</code></strong>: pretrained model ၏ အမည် သို့မဟုတ် path။</li> <li><strong><code>preprocess_function()</code></strong>: data ကို preprocessing လုပ်ရန်အတွက် function။</li> <li><strong><code>premise</code></strong>: MNLI dataset တွင် ပထမဆုံး စာကြောင်း။</li> <li><strong><code>hypothesis</code></strong>: MNLI dataset တွင် ဒုတိယ စာကြောင်း။</li> <li><strong><code>truncation=True</code></strong>: input sequence များကို model ၏ maximum length အထိ ဖြတ်တောက်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>tokenized_datasets</code></strong>: Tokenizer ဖြင့် preprocessing လုပ်ထားသော dataset။</li> <li><strong><code>Dataset.map()</code> Method</strong>: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။</li> <li><strong><code>batched=True</code></strong>: <code>map()</code> method မှာ အသုံးပြုသော argument တစ်ခုဖြစ်ပြီး function ကို dataset ရဲ့ element အများအပြားပေါ်မှာ တစ်ပြိုင်နက်တည်း အသုံးပြုစေသည်။</li> <li><strong><code>evaluation_strategy=&quot;epoch&quot;</code></strong>: evaluation ကို epoch တစ်ခုစီတိုင်းမှာ လုပ်ဆောင်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>save_strategy=&quot;epoch&quot;</code></strong>: model ကို epoch တစ်ခုစီတိုင်းမှာ save လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>learning_rate</code></strong>: training လုပ်ငန်းစဉ်အတွင်း model ၏ weights များကို မည်မျှပြောင်းလဲရမည်ကို ထိန်းချုပ်သော parameter။</li> <li><strong><code>num_train_epochs</code></strong>: model ကို training dataset တစ်ခုလုံးဖြင့် လေ့ကျင့်သည့် အကြိမ်အရေအတွက်။</li> <li><strong><code>weight_decay</code></strong>: overfitting ကို လျှော့ချရန်အတွက် regularization technique တစ်မျိုး။</li> <li><strong><code>metric.load()</code></strong>: <code>evaluate</code> library မှ metric တစ်ခုကို load လုပ်ရန် function။</li> <li><strong><code>compute_metrics()</code> Function</strong>: evaluation အတွက် metrics များကို တွက်ချက်သော function။</li> <li><strong><code>eval_pred</code></strong>: evaluation လုပ်နေစဉ် model မှ ထုတ်ပေးသော predictions နှင့် labels များပါဝင်သော tuple။</li> <li><strong><code>predictions</code></strong>: model မှ ထုတ်ပေးသော ခန့်မှန်းချက်များ။</li> <li><strong><code>references</code></strong>: အမှန်တကယ် labels များ။</li> <li><strong><code>raw_datasets[&quot;train&quot;]</code></strong>: preprocessing မလုပ်ရသေးသော training set။</li> <li><strong><code>tokenized_datasets[&quot;train&quot;]</code></strong>: preprocessing လုပ်ထားသော training set။</li> <li><strong><code>tokenized_datasets[&quot;validation_matched&quot;]</code></strong>: preprocessing လုပ်ထားသော validation set။</li> <li><strong><code>ValueError</code></strong>: Python တွင် value သည် မှန်ကန်ခြင်းမရှိသည့်အခါ ဖြစ်ပေါ်သော error။</li> <li><strong><code>input_ids</code></strong>: Tokenizer မှ ထုတ်ပေးသော tokens တစ်ခုစီ၏ ထူးခြားသော ဂဏန်းဆိုင်ရာ ID များ။</li> <li><strong><code>inputs_embeds</code></strong>: input tokens များ၏ embeddings များကို တိုက်ရိုက်ပေးပို့ခြင်း။</li> <li><strong>Corrupted Data</strong>: ပျက်စီးနေသော သို့မဟုတ် မမှန်ကန်သော ဒေတာ။</li> <li><strong>Model Signature</strong>: model တစ်ခုက မျှော်လင့်ထားသော input arguments များ။</li> <li><strong>Labels</strong>: AI model ကို လေ့ကျင့်ရန်အတွက် အသုံးပြုသော မှန်ကန်သော အဖြေများ သို့မဟုတ် အမျိုးအစားများ။</li> <li><strong><code>Dataset.map()</code> Method</strong>: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။</li> <li><strong>Traceback</strong>: error တစ်ခု ဖြစ်ပေါ်လာသည့်အခါ code execution path ကို ပြသသော မှတ်တမ်း။</li> <li><strong>Data Collation Step</strong>: batch တစ်ခုအတွင်း samples များကို စုစည်းပေးသည့် လုပ်ငန်းစဉ်။</li> <li><strong>Decoded Inputs</strong>: model ၏ input IDs များကို လူသားဖတ်နိုင်သော စာသားအဖြစ် ပြန်ပြောင်းခြင်း။</li> <li><strong>Pixels</strong>: digital image တစ်ခု၏ အသေးငယ်ဆုံး အစိတ်အပိုင်း။</li> <li><strong>Audio Samples</strong>: digital audio တွင် အသံ၏ တန်ဖိုးများ။</li> <li><strong><code>tokenizer.decode()</code> Method</strong>: input IDs များကို tokens များအဖြစ် ပြန်ပြောင်းပေးသော tokenizer method။</li> <li><strong><code>[CLS]</code> Token</strong>: BERT model တွင် sequence ၏ အစကို ကိုယ်စားပြုသော special token။</li> <li><strong><code>[SEP]</code> Token</strong>: BERT model တွင် sentence တစ်ခု၏ အဆုံး သို့မဟုတ် sentence နှစ်ခုကြား ပိုင်းခြားရန် အသုံးပြုသော special token။</li> <li><strong><code>attention_mask</code></strong>: မော်ဒယ်ကို အာရုံစိုက်သင့်သည့် tokens များနှင့် လျစ်လျူရှုသင့်သည့် (padding) tokens များကို ခွဲခြားပေးသည့် binary mask။</li> <li><strong>Padding</strong>: sequence များ၏ အရှည်ကို တူညီစေရန်အတွက် အပို tokens များ ထည့်သွင်းခြင်း။</li> <li><strong>Token Type IDs</strong>: Sentence pair လုပ်ငန်းများတွင် input sequence တစ်ခုစီမှ token တစ်ခုစီသည် မည်သည့် sentence (ပထမ သို့မဟုတ် ဒုတိယ) နှင့် သက်ဆိုင်သည်ကို ဖော်ပြပေးသော IDs များ။</li> <li><strong>DistilBERT</strong>: BERT model ၏ ပိုမိုသေးငယ်ပြီး မြန်ဆန်သော version။</li> <li><strong><code>get_train_dataloader()</code></strong>: <code>Trainer</code> မှ training dataloader ကို ရယူရန် method။</li> <li><strong><code>get_eval_dataloader()</code></strong>: <code>Trainer</code> မှ evaluation dataloader ကို ရယူရန် method။</li> <li><strong>Collate_fn</strong>: <code>DataLoader</code> တစ်ခုမှာ အသုံးပြုတဲ့ function တစ်ခုဖြစ်ပြီး batch တစ်ခုအတွင်း samples တွေကို စုစည်းပေးသည်။</li> <li><strong><code>default_data_collator</code></strong>: 🤗 Transformers library မှ default data collator။</li> <li><strong><code>DataCollatorWithPadding</code></strong>: Hugging Face Transformers library မှ ပံ့ပိုးပေးသော class တစ်ခုဖြစ်ပြီး dynamic padding ကို အသုံးပြု၍ batch တစ်ခုအတွင်း samples များကို စုစည်းပေးသည်။</li> <li><strong><code>DataCollatorWithPadding(tokenizer=tokenizer)</code></strong>: tokenizer ကို အသုံးပြု၍ dynamic padding လုပ်ဆောင်သော data collator ကို ဖန်တီးခြင်း။</li> <li><strong>CUDA Error</strong>: NVIDIA GPU များတွင် GPU computation လုပ်နေစဉ် ဖြစ်ပေါ်လာသော error။</li> <li><strong><code>CUBLAS_STATUS_ALLOC_FAILED</code></strong>: CUDA BLAS (Basic Linear Algebra Subprograms) မှ memory ခွဲဝေမှု (allocation) မအောင်မြင်ခြင်း။</li> <li><strong><code>Trainer._remove_unused_columns()</code></strong>: <code>Trainer</code> ၏ private method တစ်ခုဖြစ်ပြီး model က လက်မခံသော columns များကို dataset မှ ဖယ်ရှားရန်။</li> <li><strong><code>torch.stack()</code></strong>: PyTorch tensor များစွာကို dimension အသစ်တစ်ခုတွင် ပေါင်းစည်းခြင်း။</li> <li><strong><code>torch.tensor()</code></strong>: PyTorch မှာ data များကို သိမ်းဆည်းရန် အသုံးပြုတဲ့ multi-dimensional array (tensor) တစ်ခုကို ဖန်တီးသော function။</li> <li><strong>Kernel</strong>: operating system ၏ အဓိကအစိတ်အပိုင်း။ Jupyter/Colab တွင် code များကို run ရန်အတွက် backend process။</li> <li><strong>GPU (Graphics Processing Unit)</strong>: ဂရပ်ဖစ်လုပ်ဆောင်မှုအတွက် အထူးဒီဇိုင်းထုတ်ထားသော processor တစ်မျိုးဖြစ်သော်လည်း AI/ML လုပ်ငန်းများတွင် အရှိန်မြှင့်ရန် အသုံးများသည်။</li> <li><strong>Parallel (Computing)</strong>: လုပ်ငန်းများစွာကို တစ်ပြိုင်နက်တည်း လုပ်ဆောင်ခြင်း။</li> <li><strong>Synchronization</strong>: multiple processes များကြား ဒေတာကို တူညီအောင် ထိန်းသိမ်းခြင်း။</li> <li><strong>Backward Pass</strong>: Neural network ၏ training လုပ်ငန်းစဉ်တွင် loss function မှ gradients များကို တွက်ချက်ခြင်း။</li> <li><strong>Forward Pass</strong>: Neural network ၏ training လုပ်ငန်းစဉ်တွင် input data ကို network ကို ဖြတ်သန်းစေပြီး output ကို တွက်ချက်ခြင်း။</li> <li><strong>Out-of-Memory Error (OOM)</strong>: စက်၏ memory မလုံလောက်ခြင်းကြောင့် ဖြစ်ပေါ်သော error။</li> <li><strong>`trainer.model.cpu()(</strong>batch)`**: model ကို CPU သို့ ရွှေ့ပြီး batch ပေါ်တွင် ခေါ်ဆိုခြင်း။</li> <li><strong>`outputs = trainer.model.cpu()(</strong>batch)`**: model မှ output များကို ရရှိခြင်း။</li> <li><strong><code>IndexError</code></strong>: Python တွင် sequence index သည် bounds ပြင်ပ ဖြစ်နေသည့်အခါ ဖြစ်ပေါ်သော error။</li> <li><strong>Loss Computation</strong>: model ၏ ခန့်မှန်းချက်များနှင့် အမှန်တကယ် labels များကြား ကွာခြားမှုကို တွက်ချက်ခြင်း။</li> <li><strong><code>trainer.model.config.num_labels</code></strong>: model ၏ configuration ထဲမှ labels အရေအတွက်။</li> <li><strong><code>DataCollatorWithPadding</code></strong>: Hugging Face Transformers library မှ ပံ့ပိုးပေးသော class တစ်ခုဖြစ်ပြီး dynamic padding ကို အသုံးပြု၍ batch တစ်ခုအတွင်း samples များကို စုစည်းပေးသည်။</li> <li><strong>`trainer.model.to(device)(</strong>batch)`**: model ကို သတ်မှတ်ထားသော device (CPU/GPU) သို့ ရွှေ့ပြီး batch ပေါ်တွင် ခေါ်ဆိုခြင်း။</li> <li><strong><code>torch.no_grad()</code></strong>: PyTorch တွင် gradient တွက်ချက်မှုကို ပိတ်ထားရန် (evaluation သို့မဟုတ် inference အတွက်)။</li> <li><strong><code>outputs.logits.cpu().numpy()</code></strong>: model output မှ logits များကို CPU သို့ ရွှေ့ပြီး NumPy array အဖြစ် ပြောင်းလဲခြင်း။</li> <li><strong><code>batch[&quot;labels&quot;].cpu().numpy()</code></strong>: batch မှ labels များကို CPU သို့ ရွှေ့ပြီး NumPy array အဖြစ် ပြောင်းလဲခြင်း။</li> <li><strong><code>np.argmax(predictions, axis=1)</code></strong>: predictions array ၏ axis 1 (column) အလိုက် အမြင့်ဆုံးတန်ဖိုး၏ index ကို ရယူခြင်း။</li> <li><strong>Accuracy</strong>: classification model ၏ မှန်ကန်သော ခန့်မှန်းချက်များ၏ ရာခိုင်နှုန်း။</li> <li><strong>Silent Errors</strong>: error message များမပြသဘဲ ဖြစ်ပေါ်သော မှားယွင်းမှုများ။</li> <li><strong>Corrupts the Data</strong>: ဒေတာများကို ပျက်စီးစေခြင်း။</li> <li><strong>Labels are Attributed Randomly</strong>: labels များကို ကျပန်းပေးထားခြင်း။</li> <li><strong>Biased toward One Category</strong>: dataset သည် သီးခြား category တစ်ခုဆီသို့ ဘက်လိုက်နေခြင်း။</li> <li><strong>Oversampling Rare Classes</strong>: dataset ထဲရှိ ရှားပါးသော classes များကို ပိုမိုအသုံးပြုခြင်း။</li> <li><strong>Loss/Metric on Initial Model</strong>: မလေ့ကျင့်ရသေးသော model ၏ loss သို့မဟုတ် metric တန်ဖိုး။</li> <li><strong>Scale (of Losses)</strong>: losses များ၏ တန်ဖိုးအပိုင်းအခြား။</li> <li><strong>Distributed Training</strong>: training လုပ်ငန်းစဉ်ကို ကွန်ပျူတာများစွာ သို့မဟုတ် GPU များစွာဖြင့် ဖြန့်ခွဲလုပ်ဆောင်ခြင်း။</li> <li><strong>Randomness</strong>: ကျပန်းဖြစ်ခြင်း။</li> <li><strong>Overfit</strong>: Model သည် training data ကို အလွန်အကျွံ သင်ယူသွားခြင်းကြောင့် test data တွင် စွမ်းဆောင်ရည် နိမ့်ကျခြင်း။</li> <li><strong>Memorizing Training Samples</strong>: training samples များကို အလွတ်ကျက်မှတ်ခြင်း။</li> <li><strong>General Features</strong>: training data ၏ အခြေခံသဘောတရားများ။</li> <li><strong>Initial Learning Rate</strong>: training စတင်ချိန်တွင် learning rate တန်ဖိုး။</li> <li><strong><code>trainer.create_optimizer()</code></strong>: <code>Trainer</code> မှ optimizer ကို ဖန်တီးရန် method။</li> <li><strong><code>trainer.optimizer.step()</code></strong>: optimizer မှ optimization step ကို လုပ်ဆောင်ရန် method။</li> <li><strong><code>trainer.optimizer.zero_grad()</code></strong>: optimizer မှ gradients များကို သုညသို့ ပြန်လည်သတ်မှတ်ရန် method။</li> <li><strong>Unbalanced Data</strong>: dataset ထဲတွင် classes များ၏ samples အရေအတွက် မညီမျှခြင်း။</li> <li><strong>Accuracy</strong>: classification model ၏ မှန်ကန်သော ခန့်မှန်းချက်များ၏ ရာခိုင်နှုန်း။</li> <li><strong>Hyperparameter Tuning</strong>: model ၏ စွမ်းဆောင်ရည်ကို အကောင်းဆုံးဖြစ်အောင် hyperparameters များကို ချိန်ညှိခြင်း။</li> <li><strong>Baseline</strong>: model တစ်ခု၏ စွမ်းဆောင်ရည်ကို နှိုင်းယှဉ်ရန်အတွက် အခြေခံရည်ညွှန်းတန်ဖိုး။</li> <li><strong>Hyperparameters</strong>: model ၏ architecture သို့မဟုတ် training လုပ်ငန်းစဉ်ကို ထိန်းချုပ်သော parameters များ (ဥပမာ- learning rate, batch size)။</li> <li><strong>Unintended Consequences</strong>: မရည်ရွယ်ဘဲ ဖြစ်ပေါ်လာသော ရလဒ်များ။</li> <li><strong>Forums</strong>: အွန်လိုင်းဆွေးနွေးပွဲ ဖိုရမ်များ။</li> <li><strong>Neural Networks</strong>: deep learning တွင် အသုံးပြုသော computational model တစ်မျိုး။</li> <li><strong>Unit Test</strong>: ဆော့ဖ်ဝဲလ်တစ်ခု၏ သေးငယ်သော အစိတ်အပိုင်း (unit) တစ်ခုကို သီးခြားစီ စမ်းသပ်ခြင်း။</li> <li><strong>🤗 Datasets Library</strong>: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။</li> <li><strong>Bug</strong>: ဆော့ဖ်ဝဲလ်တစ်ခု၏ code ထဲတွင်ရှိသော အမှားတစ်ခုကြောင့် ပရိုဂရမ်သည် မျှော်လင့်ထားသည့်အတိုင်း အလုပ်မလုပ်ခြင်း။</li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/my/chapter8/4.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p>
<script>
{
__sveltekit_5q47hu = {
assets: "/docs/course/pr_1095/my",
base: "/docs/course/pr_1095/my",
env: {}
};
const element = document.currentScript.parentElement;
const data = [null,null];
Promise.all([
import("/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"),
import("/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js")
]).then(([kit, app]) => {
kit.start(app, element, {
node_ids: [0, 89],
data,
form: null,
error: null
});
});
}
</script>

Xet Storage Details

Size:
210 kB
·
Xet hash:
af02eb3a4f4b147b8b7d3cd7d5f7d4820b1e1fb07ed8844db1943ea514c49731

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.