Buckets:
| <meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"မေးခွန်းဖြေဆိုခြင်း","local":"question-answering","sections":[{"title":"Data ကို ပြင်ဆင်ခြင်း","local":"preparing-the-data","sections":[{"title":"SQuAD Dataset","local":"the-squad-dataset","sections":[],"depth":3},{"title":"Training Data ကို စီမံဆောင်ရွက်ခြင်း","local":"processing-the-training-data","sections":[],"depth":3},{"title":"Validation Data ကို စီမံဆောင်ရွက်ခြင်း","local":"processing-the-validation-data","sections":[],"depth":3}],"depth":2},{"title":"Trainer API ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း","local":"fine-tuning-the-model-with-the-trainer-api","sections":[],"depth":2},{"title":"Keras ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း","local":"fine-tuning-the-model-with-keras","sections":[{"title":"Post-processing","local":"post-processing","sections":[],"depth":3},{"title":"Model ကို Fine-tuning လုပ်ခြင်း","local":"fine-tuning-the-model","sections":[],"depth":3}],"depth":2},{"title":"Custom Training Loop တစ်ခု","local":"a-custom-training-loop","sections":[{"title":"Training အတွက် အားလုံးကို ပြင်ဆင်ခြင်း","local":"preparing-everything-for-training","sections":[],"depth":3}],"depth":2},{"title":"Training Loop","local":"training-loop","sections":[],"depth":2},{"title":"Fine-tuned Model ကို အသုံးပြုခြင်း","local":"using-the-fine-tuned-model","sections":[],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"> | |
| <link href="/docs/course/pr_1095/my/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/scheduler.893fe8c9.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/singletons.ba455c5c.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.bce52c8a.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/paths.9a7be869.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/preload-helper.b5ee8f74.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/index.b1df2166.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/0.77c840e7.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/each.e59479a4.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/nodes/83.da3fe696.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.e6d31e72.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/Youtube.ec5d7916.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CodeBlock.abb4f40e.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/CourseFloatingBanner.c1c08878.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1095/my/_app/immutable/chunks/FrameworkSwitchCourse.4480e339.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"မေးခွန်းဖြေဆိုခြင်း","local":"question-answering","sections":[{"title":"Data ကို ပြင်ဆင်ခြင်း","local":"preparing-the-data","sections":[{"title":"SQuAD Dataset","local":"the-squad-dataset","sections":[],"depth":3},{"title":"Training Data ကို စီမံဆောင်ရွက်ခြင်း","local":"processing-the-training-data","sections":[],"depth":3},{"title":"Validation Data ကို စီမံဆောင်ရွက်ခြင်း","local":"processing-the-validation-data","sections":[],"depth":3}],"depth":2},{"title":"Trainer API ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း","local":"fine-tuning-the-model-with-the-trainer-api","sections":[],"depth":2},{"title":"Keras ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း","local":"fine-tuning-the-model-with-keras","sections":[{"title":"Post-processing","local":"post-processing","sections":[],"depth":3},{"title":"Model ကို Fine-tuning လုပ်ခြင်း","local":"fine-tuning-the-model","sections":[],"depth":3}],"depth":2},{"title":"Custom Training Loop တစ်ခု","local":"a-custom-training-loop","sections":[{"title":"Training အတွက် အားလုံးကို ပြင်ဆင်ခြင်း","local":"preparing-everything-for-training","sections":[],"depth":3}],"depth":2},{"title":"Training Loop","local":"training-loop","sections":[],"depth":2},{"title":"Fine-tuned Model ကို အသုံးပြုခြင်း","local":"using-the-fine-tuned-model","sections":[],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="bg-white leading-none border border-gray-100 rounded-lg flex p-0.5 w-56 text-sm mb-4"><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-l bg-red-50 dark:bg-transparent text-red-600" href="?fw=pt"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><defs><clipPath id="a"><rect x="3.05" y="0.5" width="25.73" height="31" fill="none"></rect></clipPath></defs><g clip-path="url(#a)"><path d="M24.94,9.51a12.81,12.81,0,0,1,0,18.16,12.68,12.68,0,0,1-18,0,12.81,12.81,0,0,1,0-18.16l9-9V5l-.84.83-6,6a9.58,9.58,0,1,0,13.55,0ZM20.44,9a1.68,1.68,0,1,1,1.67-1.67A1.68,1.68,0,0,1,20.44,9Z" fill="#ee4c2c"></path></g></svg> Pytorch </a><a class="flex justify-center flex-1 py-1.5 px-2.5 focus:outline-none !no-underline rounded-r text-gray-500 filter grayscale" href="?fw=tf"><svg class="mr-1.5" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" focusable="false" role="img" width="0.94em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 274"><path d="M145.726 42.065v42.07l72.861 42.07v-42.07l-72.86-42.07zM0 84.135v42.07l36.43 21.03V105.17L0 84.135zm109.291 21.035l-36.43 21.034v126.2l36.43 21.035v-84.135l36.435 21.035v-42.07l-36.435-21.034V105.17z" fill="#E55B2D"></path><path d="M145.726 42.065L36.43 105.17v42.065l72.861-42.065v42.065l36.435-21.03v-84.14zM255.022 63.1l-36.435 21.035v42.07l36.435-21.035V63.1zm-72.865 84.135l-36.43 21.035v42.07l36.43-21.036v-42.07zm-36.43 63.104l-36.436-21.035v84.135l36.435-21.035V210.34z" fill="#ED8E24"></path><path d="M145.726 0L0 84.135l36.43 21.035l109.296-63.105l72.861 42.07L255.022 63.1L145.726 0zm0 126.204l-36.435 21.03l36.435 21.036l36.43-21.035l-36.43-21.03z" fill="#F8BF3C"></path></svg> TensorFlow </a></div> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 max-sm:gap-0.5 h-6 max-sm:h-5 px-2 max-sm:px-1.5 text-[11px] max-sm:text-[9px] font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0"><svg class="w-3 h-3 max-sm:w-2.5 max-sm:h-2.5" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-6 max-sm:h-5 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible w-3 h-3 max-sm:w-2.5 max-sm:h-2.5 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="question-answering" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#question-answering"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>မေးခွန်းဖြေဆိုခြင်း</span></h1> <div class="flex space-x-1 absolute z-10 right-0 top-0" style=""><a href="https://discuss.huggingface.co/t/chapter-7-questions" target="_blank"><img alt="Ask a Question" class="!m-0" src="https://img.shields.io/badge/Ask%20a%20question-ffcb4c.svg?logo=data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHZpZXdCb3g9IjAgLTEgMTA0IDEwNiI+PGRlZnM+PHN0eWxlPi5jbHMtMXtmaWxsOiMyMzFmMjA7fS5jbHMtMntmaWxsOiNmZmY5YWU7fS5jbHMtM3tmaWxsOiMwMGFlZWY7fS5jbHMtNHtmaWxsOiMwMGE5NGY7fS5jbHMtNXtmaWxsOiNmMTVkMjI7fS5jbHMtNntmaWxsOiNlMzFiMjM7fTwvc3R5bGU+PC9kZWZzPjx0aXRsZT5EaXNjb3Vyc2VfbG9nbzwvdGl0bGU+PGcgaWQ9IkxheWVyXzIiPjxnIGlkPSJMYXllcl8zIj48cGF0aCBjbGFzcz0iY2xzLTEiIGQ9Ik01MS44NywwQzIzLjcxLDAsMCwyMi44MywwLDUxYzAsLjkxLDAsNTIuODEsMCw1Mi44MWw1MS44Ni0uMDVjMjguMTYsMCw1MS0yMy43MSw1MS01MS44N1M4MCwwLDUxLjg3LDBaIi8+PHBhdGggY2xhc3M9ImNscy0yIiBkPSJNNTIuMzcsMTkuNzRBMzEuNjIsMzEuNjIsMCwwLDAsMjQuNTgsNjYuNDFsLTUuNzIsMTguNEwzOS40LDgwLjE3YTMxLjYxLDMxLjYxLDAsMSwwLDEzLTYwLjQzWiIvPjxwYXRoIGNsYXNzPSJjbHMtMyIgZD0iTTc3LjQ1LDMyLjEyYTMxLjYsMzEuNiwwLDAsMS0zOC4wNSw0OEwxOC44Niw4NC44MmwyMC45MS0yLjQ3QTMxLjYsMzEuNiwwLDAsMCw3Ny40NSwzMi4xMloiLz48cGF0aCBjbGFzcz0iY2xzLTQiIGQ9Ik03MS42MywyNi4yOUEzMS42LDMxLjYsMCwwLDEsMzguOCw3OEwxOC44Niw4NC44MiwzOS40LDgwLjE3QTMxLjYsMzEuNiwwLDAsMCw3MS42MywyNi4yOVoiLz48cGF0aCBjbGFzcz0iY2xzLTUiIGQ9Ik0yNi40Nyw2Ny4xMWEzMS42MSwzMS42MSwwLDAsMSw1MS0zNUEzMS42MSwzMS42MSwwLDAsMCwyNC41OCw2Ni40MWwtNS43MiwxOC40WiIvPjxwYXRoIGNsYXNzPSJjbHMtNiIgZD0iTTI0LjU4LDY2LjQxQTMxLjYxLDMxLjYxLDAsMCwxLDcxLjYzLDI2LjI5YTMxLjYxLDMxLjYxLDAsMCwwLTQ5LDM5LjYzbC0zLjc2LDE4LjlaIi8+PC9nPjwvZz48L3N2Zz4="></a> <a href="https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter7/section7_pt.ipynb" target="_blank"><img alt="Open In Colab" class="!m-0" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter7/section7_pt.ipynb" target="_blank"><img alt="Open In Studio Lab" class="!m-0" src="https://studiolab.sagemaker.aws/studiolab.svg"></a></div> <p data-svelte-h="svelte-j8xr76">မေးခွန်းဖြေဆိုခြင်းကို ကြည့်ရအောင်။ ဒီ task မှာ ပုံစံအမျိုးမျိုးရှိပေမယ့်၊ ဒီအပိုင်းမှာ ကျွန်တော်တို့ အာရုံစိုက်မယ့် ပုံစံကို <em>extractive</em> question answering လို့ ခေါ်ပါတယ်။ ဒါက document တစ်ခုအကြောင်း မေးခွန်းတွေမေးပြီး အဖြေတွေကို document ထဲက <em>စာသားအပိုင်းများ (spans of text)</em> အဖြစ် ဖော်ထုတ်တာကို ဆိုလိုပါတယ်။</p> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/ajPx5LwJD-I" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-z6gal5">Wikipedia ဆောင်းပါးများအစုအဝေးပေါ်တွင် crowdworkers များက မေးထားသော မေးခွန်းများပါဝင်သည့် <a href="https://rajpurkar.github.io/SQuAD-explorer/" rel="nofollow">SQuAD dataset</a> ပေါ်မှာ BERT model တစ်ခုကို ကျွန်တော်တို့ fine-tune လုပ်ပါမယ်။ ဒါက အခုလိုမျိုး predictions တွေကို တွက်ချက်နိုင်တဲ့ model တစ်ခုကို ရရှိစေပါလိမ့်မယ်။</p> <iframe src="https://course-demos-bert-finetuned-squad.hf.space" frameborder="0" height="450" title="Gradio app" class="block dark:hidden container p-0 flex-grow space-iframe" allow="accelerometer; ambient-light-sensor; autoplay; battery; camera; document-domain; encrypted-media; fullscreen; geolocation; gyroscope; layout-animations; legacy-image-formats; magnetometer; microphone; midi; oversized-images; payment; picture-in-picture; publickey-credentials-get; sync-xhr; usb; vr ; wake-lock; xr-spatial-tracking" sandbox="allow-forms allow-modals allow-popups allow-popups-to-escape-sandbox allow-same-origin allow-scripts allow-downloads"></iframe> <p data-svelte-h="svelte-1jzqz7b">ဒါက ဒီအပိုင်းမှာ ပြထားတဲ့ code ကို အသုံးပြုပြီး Hub ကို train လုပ်ပြီး upload လုပ်ထားတဲ့ model ကို လက်တွေ့ပြသနေတာပါ။ သင် ဒါကို <a href="https://huggingface.co/huggingface-course/bert-finetuned-squad?context=%F0%9F%A4%97+Transformers+is+backed+by+the+three+most+popular+deep+learning+libraries+%E2%80%94+Jax%2C+PyTorch+and+TensorFlow+%E2%80%94+with+a+seamless+integration+between+them.+It%27s+straightforward+to+train+your+models+with+one+before+loading+them+for+inference+with+the+other.&question=Which+deep+learning+libraries+back+%F0%9F%A4%97+Transformers%3F" rel="nofollow">ဒီမှာ</a> ရှာဖွေပြီး predictions တွေကို ထပ်မံစစ်ဆေးနိုင်ပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-orghln"><p>💡 BERT လို Encoder-only models တွေက “Transformer architecture ကို ဘယ်သူ တီထွင်ခဲ့တာလဲ” လို factoid မေးခွန်းတွေရဲ့ အဖြေတွေကို ထုတ်ယူရာမှာ အထူးကောင်းမွန်ပေမယ့် “ကောင်းကင်က ဘာလို့ အပြာရောင်ဖြစ်တာလဲ” လို open-ended မေးခွန်းတွေအတွက်တော့ အလုပ်ဖြစ်တာ နည်းပါတယ်။ ဒီလို ပိုမိုခက်ခဲတဲ့ အခြေအနေတွေမှာတော့ T5 နဲ့ BART လို encoder-decoder models တွေကို အချက်အလက်တွေကို စုစည်းရာမှာ ပုံမှန်အားဖြင့် အသုံးပြုပြီး <a href="/course/chapter7/5">text summarization</a> နဲ့ အတော်လေး ဆင်တူပါတယ်။ ဒီလို <em>generative</em> question answering အမျိုးအစားကို စိတ်ဝင်စားတယ်ဆိုရင်၊ <a href="https://huggingface.co/datasets/eli5" rel="nofollow">ELI5 dataset</a> ပေါ်အခြေခံထားတဲ့ ကျွန်တော်တို့ရဲ့ <a href="https://yjernite.github.io/lfqa.html" rel="nofollow">demo</a> ကို ကြည့်ရှုဖို့ ကျွန်တော်တို့ အကြံပြုပါတယ်။</p></blockquote> <h2 class="relative group"><a id="preparing-the-data" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#preparing-the-data"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Data ကို ပြင်ဆင်ခြင်း</span></h2> <p data-svelte-h="svelte-uajtfq">extractive question answering အတွက် academic benchmark အဖြစ် အများဆုံး အသုံးပြုတဲ့ dataset က <a href="https://rajpurkar.github.io/SQuAD-explorer/" rel="nofollow">SQuAD</a> ဖြစ်ပါတယ်။ ဒါကြောင့် ဒီနေရာမှာ အဲဒါကိုပဲ ကျွန်တော်တို့ အသုံးပြုပါမယ်။ SQuAD v2 benchmark <a href="https://huggingface.co/datasets/squad_v2" rel="nofollow">ပိုမိုခက်ခဲတဲ့ SQuAD v2</a> လည်း ရှိပြီး၊ အဖြေမရှိတဲ့ မေးခွန်းတွေ ပါဝင်ပါတယ်။ သင့်ရဲ့ dataset မှာ contexts အတွက် column တစ်ခု၊ questions အတွက် column တစ်ခုနဲ့ answers အတွက် column တစ်ခု ပါဝင်နေသရွေ့ အောက်ပါအဆင့်တွေကို အသုံးပြုနိုင်ပါလိမ့်မယ်။</p> <h3 class="relative group"><a id="the-squad-dataset" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#the-squad-dataset"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>SQuAD Dataset</span></h3> <p data-svelte-h="svelte-10j424e">ပုံမှန်အတိုင်းပါပဲ၊ <code>load_dataset()</code> ကြောင့် dataset ကို တစ်ဆင့်တည်း download လုပ်ပြီး cache လုပ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset | |
| raw_datasets = load_dataset(<span class="hljs-string">"squad"</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1avvu63">ပြီးရင် SQuAD dataset အကြောင်း ပိုမိုသိရှိနိုင်ဖို့ ဒီ object ကို ကြည့်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->raw_datasets<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->DatasetDict({ | |
| train: Dataset({ | |
| features: [<span class="hljs-string">'id'</span>, <span class="hljs-string">'title'</span>, <span class="hljs-string">'context'</span>, <span class="hljs-string">'question'</span>, <span class="hljs-string">'answers'</span>], | |
| num_rows: <span class="hljs-number">87599</span> | |
| }) | |
| validation: Dataset({ | |
| features: [<span class="hljs-string">'id'</span>, <span class="hljs-string">'title'</span>, <span class="hljs-string">'context'</span>, <span class="hljs-string">'question'</span>, <span class="hljs-string">'answers'</span>], | |
| num_rows: <span class="hljs-number">10570</span> | |
| }) | |
| })<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-loze8z"><code>context</code>, <code>question</code>, နဲ့ <code>answers</code> fields တွေနဲ့ ကျွန်တော်တို့ လိုအပ်သမျှ အားလုံးရှိနေပုံရပါတယ်။ ဒါကြောင့် training set ရဲ့ ပထမဆုံး element အတွက် ဒါတွေကို print ထုတ်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">print</span>(<span class="hljs-string">"Context: "</span>, raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>][<span class="hljs-string">"context"</span>]) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">"Question: "</span>, raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>][<span class="hljs-string">"question"</span>]) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">"Answer: "</span>, raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>][<span class="hljs-string">"answers"</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->Context: <span class="hljs-string">'Architecturally, the school has a Catholic character. Atop the Main Building\'s gold dome is a golden statue of the Virgin Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend "Venite Ad Me Omnes". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858. At the end of the main drive (and in a direct line that connects through 3 statues and the Gold Dome), is a simple, modern stone statue of Mary.'</span> | |
| Question: <span class="hljs-string">'To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?'</span> | |
| Answer: {<span class="hljs-string">'text'</span>: [<span class="hljs-string">'Saint Bernadette Soubirous'</span>], <span class="hljs-string">'answer_start'</span>: [<span class="hljs-number">515</span>]}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-qiwrlv"><code>context</code> နဲ့ <code>question</code> fields တွေက အသုံးပြုရတာ အလွန်ရိုးရှင်းပါတယ်။ <code>answers</code> field ကတော့ အနည်းငယ် ပိုရှုပ်ထွေးပါတယ်။ ဘာလို့လဲဆိုတော့ fields နှစ်ခုစလုံးက lists တွေပါဝင်တဲ့ dictionary တစ်ခု ပါဝင်နေလို့ပါ။ ဒါက evaluation လုပ်နေစဉ် <code>squad</code> metric က မျှော်လင့်ထားတဲ့ format ဖြစ်ပါတယ်၊ သင်ကိုယ်ပိုင် data ကို အသုံးပြုနေတယ်ဆိုရင် အဖြေတွေကို ဒီ format အတိုင်း ထည့်စရာမလိုပါဘူး။ <code>text</code> field ကတော့ ရှင်းပါတယ်၊ <code>answer_start</code> field ကတော့ context ထဲက အဖြေတစ်ခုစီရဲ့ စတင်တဲ့ character index ကို ပါဝင်ပါတယ်။</p> <p data-svelte-h="svelte-kw4g95">training လုပ်နေစဉ်မှာ၊ ဖြစ်နိုင်တဲ့ အဖြေတစ်ခုပဲ ရှိပါတယ်။ ဒါကို <code>Dataset.filter()</code> method ကို အသုံးပြုပြီး ထပ်မံစစ်ဆေးနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->raw_datasets[<span class="hljs-string">"train"</span>].<span class="hljs-built_in">filter</span>(<span class="hljs-keyword">lambda</span> x: <span class="hljs-built_in">len</span>(x[<span class="hljs-string">"answers"</span>][<span class="hljs-string">"text"</span>]) != <span class="hljs-number">1</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->Dataset({ | |
| features: [<span class="hljs-string">'id'</span>, <span class="hljs-string">'title'</span>, <span class="hljs-string">'context'</span>, <span class="hljs-string">'question'</span>, <span class="hljs-string">'answers'</span>], | |
| num_rows: <span class="hljs-number">0</span> | |
| })<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-rp46k9">သို့သော်လည်း၊ evaluation အတွက်၊ sample တစ်ခုစီအတွက် ဖြစ်နိုင်တဲ့ အဖြေများစွာရှိနိုင်ပြီး၊ ဒါတွေက တူညီနိုင်သလို ကွဲပြားနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">print</span>(raw_datasets[<span class="hljs-string">"validation"</span>][<span class="hljs-number">0</span>][<span class="hljs-string">"answers"</span>]) | |
| <span class="hljs-built_in">print</span>(raw_datasets[<span class="hljs-string">"validation"</span>][<span class="hljs-number">2</span>][<span class="hljs-string">"answers"</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'text'</span>: [<span class="hljs-string">'Denver Broncos'</span>, <span class="hljs-string">'Denver Broncos'</span>, <span class="hljs-string">'Denver Broncos'</span>], <span class="hljs-string">'answer_start'</span>: [<span class="hljs-number">177</span>, <span class="hljs-number">177</span>, <span class="hljs-number">177</span>]} | |
| {<span class="hljs-string">'text'</span>: [<span class="hljs-string">'Santa Clara, California'</span>, <span class="hljs-string">"Levi's Stadium"</span>, <span class="hljs-string">"Levi's Stadium in the San Francisco Bay Area at Santa Clara, California."</span>], <span class="hljs-string">'answer_start'</span>: [<span class="hljs-number">403</span>, <span class="hljs-number">355</span>, <span class="hljs-number">355</span>]}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-b87973">evaluation script ကို ကျွန်တော်တို့ နက်နက်နဲနဲ လေ့လာသွားမှာ မဟုတ်ပါဘူး၊ ဘာလို့လဲဆိုတော့ 🤗 Datasets metric က ဒါတွေအားလုံးကို ကျွန်တော်တို့အတွက် လုပ်ဆောင်ပေးမှာမို့လို့ပါ။ ဒါပေမယ့် အတိုချုပ်ပြောရရင် မေးခွန်းအချို့မှာ ဖြစ်နိုင်တဲ့ အဖြေများစွာရှိနိုင်ပြီး၊ ဒီ script က ခန့်မှန်းထားတဲ့ အဖြေကို လက်ခံနိုင်တဲ့ အဖြေအားလုံးနဲ့ နှိုင်းယှဉ်ပြီး အကောင်းဆုံး score ကို ရယူမှာပါ။ ဥပမာ၊ index 2 မှာရှိတဲ့ sample ကို ကြည့်မယ်ဆိုရင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">print</span>(raw_datasets[<span class="hljs-string">"validation"</span>][<span class="hljs-number">2</span>][<span class="hljs-string">"context"</span>]) | |
| <span class="hljs-built_in">print</span>(raw_datasets[<span class="hljs-string">"validation"</span>][<span class="hljs-number">2</span>][<span class="hljs-string">"question"</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'Super Bowl 50 was an American football game to determine the champion of the National Football League (NFL) for the 2015 season. The American Football Conference (AFC) champion Denver Broncos defeated the National Football Conference (NFC) champion Carolina Panthers 24–10 to earn their third Super Bowl title. The game was played on February 7, 2016, at Levi\'s Stadium in the San Francisco Bay Area at Santa Clara, California. As this was the 50th Super Bowl, the league emphasized the "golden anniversary" with various gold-themed initiatives, as well as temporarily suspending the tradition of naming each Super Bowl game with Roman numerals (under which the game would have been known as "Super Bowl L"), so that the logo could prominently feature the Arabic numerals 50.'</span> | |
| <span class="hljs-string">'Where did Super Bowl 50 take place?'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1w4da94">အဖြေက ကျွန်တော်တို့ အရင်ကတွေ့ခဲ့ရတဲ့ ဖြစ်နိုင်တဲ့ အဖြေသုံးခုထဲက တစ်ခု ဖြစ်နိုင်တယ်ဆိုတာ တွေ့ရပါတယ်။</p> <h3 class="relative group"><a id="processing-the-training-data" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#processing-the-training-data"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training Data ကို စီမံဆောင်ရွက်ခြင်း</span></h3> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/qgaM0weJHpA" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-1763wto">training data ကို preprocessing လုပ်ခြင်းဖြင့် စတင်ကြရအောင်။ အခက်ခဲဆုံး အပိုင်းကတော့ question ရဲ့ အဖြေအတွက် labels တွေကို ဖန်တီးဖို့ပါပဲ။ အဲဒီ labels တွေက context ထဲက အဖြေနဲ့ ကိုက်ညီတဲ့ tokens တွေရဲ့ စတင်တဲ့နဲ့ အဆုံးသတ်တဲ့ position တွေ ဖြစ်ပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-13p6o7z">ဒါပေမယ့် အလျင်စလို မလုပ်ပါနဲ့။ ပထမဆုံး၊ input ထဲက text ကို model က နားလည်နိုင်တဲ့ IDs တွေအဖြစ် tokenizer ကို အသုံးပြုပြီး ပြောင်းလဲဖို့ လိုအပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer | |
| model_checkpoint = <span class="hljs-string">"bert-base-cased"</span> | |
| tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1gwzvv9">ယခင်က ဖော်ပြခဲ့တဲ့အတိုင်း၊ ကျွန်တော်တို့ BERT model တစ်ခုကို fine-tuning လုပ်မှာဖြစ်ပေမယ့်၊ fast tokenizer ကို အကောင်အထည်ဖော်ထားသရွေ့ မည်သည့် model type ကိုမဆို အသုံးပြုနိုင်ပါတယ်။ fast version ပါရှိတဲ့ architectures အားလုံးကို <a href="https://huggingface.co/transformers/#supported-frameworks" rel="nofollow">ဒီဇယားကြီးမှာ</a> ကြည့်နိုင်ပြီး၊ သင်အသုံးပြုနေတဲ့ <code>tokenizer</code> object က 🤗 Tokenizers က ထောက်ပံ့ပေးထားခြင်းရှိမရှိ စစ်ဆေးဖို့အတွက် ၎င်းရဲ့ <code>is_fast</code> attribute ကို ကြည့်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->tokenizer.is_fast<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-literal">True</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1nb63kw">ကျွန်တော်တို့ရဲ့ tokenizer ကို question နဲ့ context ကို အတူတကွ ပေးနိုင်ပြီး၊ အဲဒါက အခုလိုမျိုး sentence တစ်ခုကို ဖန်တီးဖို့ special tokens တွေကို မှန်ကန်စွာ ထည့်သွင်းပေးပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-selector-attr">[CLS]</span> question <span class="hljs-selector-attr">[SEP]</span> context <span class="hljs-selector-attr">[SEP]</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-xr5ri2">ထပ်မံစစ်ဆေးကြည့်ရအောင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->context = raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>][<span class="hljs-string">"context"</span>] | |
| question = raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">0</span>][<span class="hljs-string">"question"</span>] | |
| inputs = tokenizer(question, context) | |
| tokenizer.decode(inputs[<span class="hljs-string">"input_ids"</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'[CLS] To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France? [SEP] Architecturally, '</span> | |
| <span class="hljs-string">'the school has a Catholic character. Atop the Main Building\'s gold dome is a golden statue of the Virgin '</span> | |
| <span class="hljs-string">'Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms '</span> | |
| <span class="hljs-string">'upraised with the legend " Venite Ad Me Omnes ". Next to the Main Building is the Basilica of the Sacred '</span> | |
| <span class="hljs-string">'Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a '</span> | |
| <span class="hljs-string">'replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette '</span> | |
| <span class="hljs-string">'Soubirous in 1858. At the end of the main drive ( and in a direct line that connects through 3 statues '</span> | |
| <span class="hljs-string">'and the Gold Dome ), is a simple, modern stone statue of Mary. [SEP]'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1npasl0">labels တွေကတော့ အဖြေစတင်တဲ့နဲ့ အဆုံးသတ်တဲ့ tokens တွေရဲ့ index တွေ ဖြစ်ပါလိမ့်မယ်။ model က input ထဲက token တစ်ခုစီအတွက် start နဲ့ end logit တစ်ခုကို ခန့်မှန်းဖို့ တာဝန်ပေးခံရမှာဖြစ်ပြီး၊ သီအိုရီအရ labels တွေက အောက်ပါအတိုင်း ဖြစ်ပါလိမ့်မယ်။</p> <div class="flex justify-center" data-svelte-h="svelte-cxbodn"><img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter7/qa_labels.svg" alt="One-hot encoded labels for question answering."> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface-course/documentation-images/resolve/main/en/chapter7/qa_labels-dark.svg" alt="One-hot encoded labels for question answering."></div> <p data-svelte-h="svelte-1fxhbty">ဒီကိစ္စမှာ context က မရှည်လွန်းပါဘူး၊ ဒါပေမယ့် dataset ထဲက ဥပမာအချို့မှာ အလွန်ရှည်လျားတဲ့ contexts တွေ ပါဝင်ပြီး ကျွန်တော်တို့ သတ်မှတ်ထားတဲ့ maximum length (ဒီကိစ္စမှာ 384) ကို ကျော်လွန်သွားပါလိမ့်မယ်။ <a href="/course/chapter6/4">Chapter 6</a> မှာ <code>question-answering</code> pipeline ရဲ့ အတွင်းပိုင်းကို လေ့လာခဲ့တုန်းက တွေ့ခဲ့ရတဲ့အတိုင်း၊ ရှည်လျားတဲ့ contexts တွေကို dataset ရဲ့ sample တစ်ခုကနေ training features များစွာ ဖန်တီးခြင်းဖြင့် ကိုင်တွယ်ဖြေရှင်းပါမယ်။ features တွေကြားမှာ sliding window တစ်ခု ထားရှိပါမယ်။</p> <p data-svelte-h="svelte-6jux69">လက်ရှိဥပမာကို အသုံးပြုပြီး ဒါဘယ်လိုအလုပ်လုပ်လဲဆိုတာ ကြည့်ဖို့အတွက်၊ length ကို 100 အထိ ကန့်သတ်ပြီး 50 tokens ရဲ့ sliding window တစ်ခုကို အသုံးပြုနိုင်ပါတယ်။ အမှတ်ရစေဖို့အတွက်၊ ကျွန်တော်တို့ အသုံးပြုတာက…</p> <ul data-svelte-h="svelte-z4ggn7"><li><code>max_length</code> က maximum length ကို သတ်မှတ်ဖို့ (ဒီနေရာမှာ 100)</li> <li><code>truncation="only_second"</code> က question နဲ့ context က အတူတူရှည်လွန်းတဲ့အခါ context (ဒုတိယနေရာမှာရှိတာ) ကို truncate လုပ်ဖို့</li> <li><code>stride</code> က ဆက်တိုက် chunks နှစ်ခုကြား ထပ်နေတဲ့ tokens အရေအတွက်ကို သတ်မှတ်ဖို့ (ဒီနေရာမှာ 50)</li> <li><code>return_overflowing_tokens=True</code> က tokenizer ကို overflowing tokens တွေ လိုချင်တယ်လို့ သိစေဖို့</li></ul> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->inputs = tokenizer( | |
| question, | |
| context, | |
| max_length=<span class="hljs-number">100</span>, | |
| truncation=<span class="hljs-string">"only_second"</span>, | |
| stride=<span class="hljs-number">50</span>, | |
| return_overflowing_tokens=<span class="hljs-literal">True</span>, | |
| ) | |
| <span class="hljs-keyword">for</span> ids <span class="hljs-keyword">in</span> inputs[<span class="hljs-string">"input_ids"</span>]: | |
| <span class="hljs-built_in">print</span>(tokenizer.decode(ids))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'[CLS] To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France? [SEP] Architecturally, the school has a Catholic character. Atop the Main Building\'s gold dome is a golden statue of the Virgin Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend " Venite Ad Me Omnes ". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basi [SEP]'</span> | |
| <span class="hljs-string">'[CLS] To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France? [SEP] the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend " Venite Ad Me Omnes ". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a replica of the grotto at Lourdes, France where the Virgin [SEP]'</span> | |
| <span class="hljs-string">'[CLS] To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France? [SEP] Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grotto, a Marian place of prayer and reflection. It is a replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858. At the end of the main drive ( and in a direct line that connects through 3 [SEP]'</span> | |
| <span class="hljs-string">'[CLS] To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France? [SEP]. It is a replica of the grotto at Lourdes, France where the Virgin Mary reputedly appeared to Saint Bernadette Soubirous in 1858. At the end of the main drive ( and in a direct line that connects through 3 statues and the Gold Dome ), is a simple, modern stone statue of Mary. [SEP]'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1yqnhrl">ကျွန်တော်တို့ တွေ့ရတဲ့အတိုင်း၊ ကျွန်တော်တို့ရဲ့ ဥပမာကို inputs လေးခုအဖြစ် ပိုင်းဖြတ်ထားပြီး၊ တစ်ခုစီမှာ question နဲ့ context ရဲ့ အစိတ်အပိုင်းအချို့ ပါဝင်ပါတယ်။ question ရဲ့ အဖြေ (“Bernadette Soubirous”) ဟာ တတိယနဲ့ နောက်ဆုံး inputs တွေမှာပဲ ပေါ်လာတယ်ဆိုတာ သတိပြုပါ။ ဒါကြောင့် ဒီနည်းလမ်းနဲ့ ရှည်လျားတဲ့ contexts တွေကို ကိုင်တွယ်ခြင်းက context ထဲမှာ အဖြေမပါဝင်တဲ့ training examples အချို့ကို ဖန်တီးပေးပါလိမ့်မယ်။ အဲဒီ examples တွေအတွက် labels တွေက <code>start_position = end_position = 0</code> (ဒါကြောင့် ကျွန်တော်တို့ <code>[CLS]</code> token ကို ခန့်မှန်းတာ) ဖြစ်ပါလိမ့်မယ်။ အဖြေကို truncate လုပ်ထားတာကြောင့် အစ (သို့မဟုတ် အဆုံး) ပဲ ကျန်တော့တဲ့ ကံမကောင်းတဲ့ အခြေအနေမှာလည်း အဲဒီ labels တွေကို သတ်မှတ်ပေးပါမယ်။ အဖြေက context ထဲမှာ အပြည့်အစုံပါဝင်တဲ့ examples တွေအတွက်တော့ labels တွေက အဖြေစတင်တဲ့ token ရဲ့ index နဲ့ အဖြေဆုံးသတ်တဲ့ token ရဲ့ index ဖြစ်ပါလိမ့်မယ်။</p> <p data-svelte-h="svelte-yl3egw">dataset က ကျွန်တော်တို့ကို context ထဲက အဖြေစတင်တဲ့ character ကို ပေးထားပြီး၊ အဖြေရဲ့ အရှည်ကို ပေါင်းထည့်ခြင်းဖြင့် context ထဲက အဆုံးသတ်တဲ့ character ကို ရှာဖွေနိုင်ပါတယ်။ ဒါတွေကို token indices တွေနဲ့ map လုပ်ဖို့အတွက်၊ <a href="/course/chapter6/4">Chapter 6</a> မှာ ကျွန်တော်တို့ လေ့လာခဲ့တဲ့ offset mappings တွေကို အသုံးပြုဖို့ လိုအပ်ပါလိမ့်မယ်။ <code>return_offsets_mapping=True</code> ကို ပေးပို့ခြင်းဖြင့် ကျွန်တော်တို့ရဲ့ tokenizer ကို ဒါတွေ ပြန်ပေးနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->inputs = tokenizer( | |
| question, | |
| context, | |
| max_length=<span class="hljs-number">100</span>, | |
| truncation=<span class="hljs-string">"only_second"</span>, | |
| stride=<span class="hljs-number">50</span>, | |
| return_overflowing_tokens=<span class="hljs-literal">True</span>, | |
| return_offsets_mapping=<span class="hljs-literal">True</span>, | |
| ) | |
| inputs.keys()<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->dict_keys([<span class="hljs-string">'input_ids'</span>, <span class="hljs-string">'token_type_ids'</span>, <span class="hljs-string">'attention_mask'</span>, <span class="hljs-string">'offset_mapping'</span>, <span class="hljs-string">'overflow_to_sample_mapping'</span>])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-93mdbi">ကျွန်တော်တို့ တွေ့ရတဲ့အတိုင်း၊ ပုံမှန် input IDs, token type IDs, နဲ့ attention mask တွေအပြင်၊ ကျွန်တော်တို့ လိုအပ်တဲ့ offset mapping နဲ့ အပို key ဖြစ်တဲ့ <code>overflow_to_sample_mapping</code> တို့ကို ပြန်ရပါတယ်။ သက်ဆိုင်ရာ value ကတော့ ကျွန်တော်တို့ texts များစွာကို တစ်ပြိုင်နက်တည်း tokenize လုပ်တဲ့အခါ အသုံးဝင်ပါလိမ့်မယ် (ကျွန်တော်တို့ရဲ့ tokenizer က Rust က ထောက်ပံ့ထားတာဖြစ်တဲ့အတွက် ဒါကို အကျိုးယူသင့်ပါတယ်)။ sample တစ်ခုက features များစွာကို ပေးနိုင်တဲ့အတွက်၊ ဒါက feature တစ်ခုစီကို ၎င်းစတင်ရာ example သို့ map လုပ်ပေးပါတယ်။ ဒီနေရာမှာ ကျွန်တော်တို့ example တစ်ခုတည်းကိုပဲ tokenize လုပ်ခဲ့တာကြောင့် <code>0</code> တွေရဲ့ list တစ်ခုကို ရရှိပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->inputs[<span class="hljs-string">"overflow_to_sample_mapping"</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[<span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1r4q50n">ဒါပေမယ့် ကျွန်တော်တို့ examples ပိုများများ tokenize လုပ်ရင် ဒါက ပိုအသုံးဝင်လာပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->inputs = tokenizer( | |
| raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">2</span>:<span class="hljs-number">6</span>][<span class="hljs-string">"question"</span>], | |
| raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">2</span>:<span class="hljs-number">6</span>][<span class="hljs-string">"context"</span>], | |
| max_length=<span class="hljs-number">100</span>, | |
| truncation=<span class="hljs-string">"only_second"</span>, | |
| stride=<span class="hljs-number">50</span>, | |
| return_overflowing_tokens=<span class="hljs-literal">True</span>, | |
| return_offsets_mapping=<span class="hljs-literal">True</span>, | |
| ) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"The 4 examples gave <span class="hljs-subst">{<span class="hljs-built_in">len</span>(inputs[<span class="hljs-string">'input_ids'</span>])}</span> features."</span>) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"Here is where each comes from: <span class="hljs-subst">{inputs[<span class="hljs-string">'overflow_to_sample_mapping'</span>]}</span>."</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'The 4 examples gave 19 features.'</span> | |
| <span class="hljs-string">'Here is where each comes from: [0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3].'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1x80coz">ကျွန်တော်တို့ တွေ့ရတဲ့အတိုင်း၊ ပထမဆုံး examples သုံးခု (training set မှာ index 2, 3, 4 မှာရှိတဲ့) တစ်ခုစီက features လေးခုစီ ပေးခဲ့ပြီး နောက်ဆုံး example (training set မှာ index 5 မှာရှိတဲ့) က features ၇ ခု ပေးခဲ့ပါတယ်။</p> <p data-svelte-h="svelte-1427jfj">ဒီအချက်အလက်တွေက ကျွန်တော်တို့ ရရှိတဲ့ feature တစ်ခုစီကို ၎င်းရဲ့ သက်ဆိုင်ရာ label နဲ့ map လုပ်ဖို့ အသုံးဝင်ပါလိမ့်မယ်။ အစောပိုင်းက ဖော်ပြခဲ့တဲ့အတိုင်း၊ အဲဒီ labels တွေက…</p> <ul data-svelte-h="svelte-zvsknp"><li>အဖြေက context ရဲ့ သက်ဆိုင်ရာ span မှာ မပါဝင်ရင် <code>(0, 0)</code></li> <li>အဖြေက context ရဲ့ သက်ဆိုင်ရာ span မှာ ပါဝင်ရင် <code>(start_position, end_position)</code>၊ <code>start_position</code> က အဖြေရဲ့ အစမှာရှိတဲ့ token (input IDs ထဲက) ရဲ့ index ဖြစ်ပြီး <code>end_position</code> က အဖြေဆုံးသတ်တဲ့ token (input IDs ထဲက) ရဲ့ index ဖြစ်ပါတယ်။</li></ul> <p data-svelte-h="svelte-8ochn5">ဒါတွေထဲက ဘယ်ကိစ္စဖြစ်လဲဆိုတာ ဆုံးဖြတ်ဖို့နဲ့၊ သက်ဆိုင်ရာ tokens တွေရဲ့ position တွေကို သိဖို့၊ ပထမဆုံး input IDs ထဲက context ကို စတင်တဲ့နဲ့ အဆုံးသတ်တဲ့ indices တွေကို ရှာဖွေရပါမယ်။ ဒါကိုလုပ်ဖို့ token type IDs တွေကို အသုံးပြုနိုင်ပေမယ့်၊ အဲဒါတွေက models အားလုံးအတွက် မရှိနိုင်တာကြောင့် (ဥပမာ - DistilBERT က အဲဒါတွေ မလိုအပ်ပါဘူး)၊ ကျွန်တော်တို့ရဲ့ tokenizer က ပြန်ပေးတဲ့ <code>BatchEncoding</code> ရဲ့ <code>sequence_ids()</code> method ကို အစားအသုံးပြုပါမယ်။</p> <p data-svelte-h="svelte-mvtgip">အဲဒီ token indices တွေ ရရှိပြီဆိုတာနဲ့၊ သက်ဆိုင်ရာ offsets တွေကို ကြည့်ပါမယ်။ အဲဒါတွေက original context ထဲက characters တွေရဲ့ span ကို ကိုယ်စားပြုတဲ့ integer နှစ်ခုပါဝင်တဲ့ tuples တွေ ဖြစ်ပါတယ်။ ဒါကြောင့် ဒီ feature ထဲက context ရဲ့ chunk က အဖြေစတင်ပြီးမှ စတာလား ဒါမှမဟုတ် အဖြေစတင်တာထက် စောပြီး ဆုံးတာလားဆိုတာကို သိနိုင်ပါတယ် (ဒီကိစ္စမှာ label က <code>(0, 0)</code> ဖြစ်ပါလိမ့်မယ်)။ အဲဒီလိုမဟုတ်ဘူးဆိုရင်၊ အဖြေရဲ့ ပထမဆုံးနဲ့ နောက်ဆုံး tokens တွေကို ရှာဖို့ loop လုပ်ပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->answers = raw_datasets[<span class="hljs-string">"train"</span>][<span class="hljs-number">2</span>:<span class="hljs-number">6</span>][<span class="hljs-string">"answers"</span>] | |
| start_positions = [] | |
| end_positions = [] | |
| <span class="hljs-keyword">for</span> i, offset <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(inputs[<span class="hljs-string">"offset_mapping"</span>]): | |
| sample_idx = inputs[<span class="hljs-string">"overflow_to_sample_mapping"</span>][i] | |
| answer = answers[sample_idx] | |
| start_char = answer[<span class="hljs-string">"answer_start"</span>][<span class="hljs-number">0</span>] | |
| end_char = answer[<span class="hljs-string">"answer_start"</span>][<span class="hljs-number">0</span>] + <span class="hljs-built_in">len</span>(answer[<span class="hljs-string">"text"</span>][<span class="hljs-number">0</span>]) | |
| sequence_ids = inputs.sequence_ids(i) | |
| <span class="hljs-comment"># Find the start and end of the context</span> | |
| idx = <span class="hljs-number">0</span> | |
| <span class="hljs-keyword">while</span> sequence_ids[idx] != <span class="hljs-number">1</span>: | |
| idx += <span class="hljs-number">1</span> | |
| context_start = idx | |
| <span class="hljs-keyword">while</span> sequence_ids[idx] == <span class="hljs-number">1</span>: | |
| idx += <span class="hljs-number">1</span> | |
| context_end = idx - <span class="hljs-number">1</span> | |
| <span class="hljs-comment"># If the answer is not fully inside the context, label is (0, 0)</span> | |
| <span class="hljs-keyword">if</span> offset[context_start][<span class="hljs-number">0</span>] > start_char <span class="hljs-keyword">or</span> offset[context_end][<span class="hljs-number">1</span>] < end_char: | |
| start_positions.append(<span class="hljs-number">0</span>) | |
| end_positions.append(<span class="hljs-number">0</span>) | |
| <span class="hljs-keyword">else</span>: | |
| <span class="hljs-comment"># Otherwise it's the start and end token positions</span> | |
| idx = context_start | |
| <span class="hljs-keyword">while</span> idx <= context_end <span class="hljs-keyword">and</span> offset[idx][<span class="hljs-number">0</span>] <= start_char: | |
| idx += <span class="hljs-number">1</span> | |
| start_positions.append(idx - <span class="hljs-number">1</span>) | |
| idx = context_end | |
| <span class="hljs-keyword">while</span> idx >= context_start <span class="hljs-keyword">and</span> offset[idx][<span class="hljs-number">1</span>] >= end_char: | |
| idx -= <span class="hljs-number">1</span> | |
| end_positions.append(idx + <span class="hljs-number">1</span>) | |
| start_positions, end_positions<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->([<span class="hljs-number">83</span>, <span class="hljs-number">51</span>, <span class="hljs-number">19</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">64</span>, <span class="hljs-number">27</span>, <span class="hljs-number">0</span>, <span class="hljs-number">34</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">67</span>, <span class="hljs-number">34</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>], | |
| [<span class="hljs-number">85</span>, <span class="hljs-number">53</span>, <span class="hljs-number">21</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">70</span>, <span class="hljs-number">33</span>, <span class="hljs-number">0</span>, <span class="hljs-number">40</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">68</span>, <span class="hljs-number">35</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>, <span class="hljs-number">0</span>])<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-15hs09a">ကျွန်တော်တို့ရဲ့ နည်းလမ်းက မှန်ကန်ခြင်းရှိမရှိ စစ်ဆေးဖို့ ရလဒ်အနည်းငယ်ကို ကြည့်ရအောင်။ ပထမဆုံး feature အတွက် <code>(83, 85)</code> ကို labels အဖြစ် တွေ့ရပါတယ်၊ ဒါကြောင့် သီအိုရီအရ အဖြေကို 83 ကနေ 85 (ပါဝင်) အထိ tokens တွေရဲ့ decoded span နဲ့ နှိုင်းယှဉ်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->idx = <span class="hljs-number">0</span> | |
| sample_idx = inputs[<span class="hljs-string">"overflow_to_sample_mapping"</span>][idx] | |
| answer = answers[sample_idx][<span class="hljs-string">"text"</span>][<span class="hljs-number">0</span>] | |
| start = start_positions[idx] | |
| end = end_positions[idx] | |
| labeled_answer = tokenizer.decode(inputs[<span class="hljs-string">"input_ids"</span>][idx][start : end + <span class="hljs-number">1</span>]) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"Theoretical answer: <span class="hljs-subst">{answer}</span>, labels give: <span class="hljs-subst">{labeled_answer}</span>"</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'Theoretical answer: the Main Building, labels give: the Main Building'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1qo9pkf">ဒါဆိုရင် ကိုက်ညီပါတယ်။ အခု index 4 ကို စစ်ဆေးကြည့်ရအောင်၊ အဲဒီမှာ labels တွေကို <code>(0, 0)</code> လို့ သတ်မှတ်ထားပါတယ်။ ဒါက အဖြေက အဲဒီ feature ရဲ့ context chunk မှာ မပါဝင်ဘူးလို့ ဆိုလိုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->idx = <span class="hljs-number">4</span> | |
| sample_idx = inputs[<span class="hljs-string">"overflow_to_sample_mapping"</span>][idx] | |
| answer = answers[sample_idx][<span class="hljs-string">"text"</span>][<span class="hljs-number">0</span>] | |
| decoded_example = tokenizer.decode(inputs[<span class="hljs-string">"input_ids"</span>][idx]) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"Theoretical answer: <span class="hljs-subst">{answer}</span>, decoded example: <span class="hljs-subst">{decoded_example}</span>"</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'Theoretical answer: a Marian place of prayer and reflection, decoded example: [CLS] What is the Grotto at Notre Dame? [SEP] Architecturally, the school has a Catholic character. Atop the Main Building\'s gold dome is a golden statue of the Virgin Mary. Immediately in front of the Main Building and facing it, is a copper statue of Christ with arms upraised with the legend " Venite Ad Me Omnes ". Next to the Main Building is the Basilica of the Sacred Heart. Immediately behind the basilica is the Grot [SEP]'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1anh3d2">တကယ်ပါပဲ၊ context ထဲမှာ အဖြေကို ကျွန်တော်တို့ မတွေ့ရပါဘူး။</p> <blockquote class="tip" data-svelte-h="svelte-ev9t32"><p>✏️ <strong>သင့်အလှည့်ပါ။</strong> XLNet architecture ကို အသုံးပြုတဲ့အခါ၊ padding ကို ဘယ်ဘက်မှာ အသုံးပြုပြီး question နဲ့ context ကို ပြောင်းပြန်လှန်ထားပါတယ်။ ကျွန်တော်တို့ အခုမြင်တွေ့ခဲ့ရတဲ့ code အားလုံးကို XLNet architecture နဲ့ အံဝင်ခွင်ကျ ဖြစ်အောင် ပြောင်းလဲပါ (ပြီးတော့ <code>padding=True</code> ကို ထည့်သွင်းပါ)။ padding ကို အသုံးပြုတဲ့အခါ <code>[CLS]</code> token က 0 position မှာ မရှိနိုင်ဘူးဆိုတာ သတိပြုပါ။</p></blockquote> <p data-svelte-h="svelte-1m7rqzs">အခု training data ကို တစ်ဆင့်ချင်းစီ ဘယ်လို preprocess လုပ်ရမယ်ဆိုတာ ကျွန်တော်တို့ တွေ့ခဲ့ရပြီဆိုတော့၊ ဒါကို function တစ်ခုထဲမှာ အုပ်စုဖွဲ့ပြီး training dataset တစ်ခုလုံးပေါ်မှာ အသုံးပြုနိုင်ပါပြီ။ ကျွန်တော်တို့ သတ်မှတ်ထားတဲ့ maximum length အထိ feature တိုင်းကို pad လုပ်ပါမယ်။ ဘာလို့လဲဆိုတော့ contexts အများစုက ရှည်လျားပြီး (သက်ဆိုင်ရာ samples တွေကို features အများအပြားအဖြစ် ခွဲထုတ်ပါလိမ့်မယ်)၊ ဒီနေရာမှာ dynamic padding ကို အသုံးပြုတာက တကယ်တော့ အကျိုးကျေးဇူး မရှိပါဘူး။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->max_length = <span class="hljs-number">384</span> | |
| stride = <span class="hljs-number">128</span> | |
| <span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_training_examples</span>(<span class="hljs-params">examples</span>): | |
| questions = [q.strip() <span class="hljs-keyword">for</span> q <span class="hljs-keyword">in</span> examples[<span class="hljs-string">"question"</span>]] | |
| inputs = tokenizer( | |
| questions, | |
| examples[<span class="hljs-string">"context"</span>], | |
| max_length=max_length, | |
| truncation=<span class="hljs-string">"only_second"</span>, | |
| stride=stride, | |
| return_overflowing_tokens=<span class="hljs-literal">True</span>, | |
| return_offsets_mapping=<span class="hljs-literal">True</span>, | |
| padding=<span class="hljs-string">"max_length"</span>, | |
| ) | |
| offset_mapping = inputs.pop(<span class="hljs-string">"offset_mapping"</span>) | |
| sample_map = inputs.pop(<span class="hljs-string">"overflow_to_sample_mapping"</span>) | |
| answers = examples[<span class="hljs-string">"answers"</span>] | |
| start_positions = [] | |
| end_positions = [] | |
| <span class="hljs-keyword">for</span> i, offset <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(offset_mapping): | |
| sample_idx = sample_map[i] | |
| answer = answers[sample_idx] | |
| start_char = answer[<span class="hljs-string">"answer_start"</span>][<span class="hljs-number">0</span>] | |
| end_char = answer[<span class="hljs-string">"answer_start"</span>][<span class="hljs-number">0</span>] + <span class="hljs-built_in">len</span>(answer[<span class="hljs-string">"text"</span>][<span class="hljs-number">0</span>]) | |
| sequence_ids = inputs.sequence_ids(i) | |
| <span class="hljs-comment"># Find the start and end of the context</span> | |
| idx = <span class="hljs-number">0</span> | |
| <span class="hljs-keyword">while</span> sequence_ids[idx] != <span class="hljs-number">1</span>: | |
| idx += <span class="hljs-number">1</span> | |
| context_start = idx | |
| <span class="hljs-keyword">while</span> sequence_ids[idx] == <span class="hljs-number">1</span>: | |
| idx += <span class="hljs-number">1</span> | |
| context_end = idx - <span class="hljs-number">1</span> | |
| <span class="hljs-comment"># If the answer is not fully inside the context, label is (0, 0)</span> | |
| <span class="hljs-keyword">if</span> offset[context_start][<span class="hljs-number">0</span>] > start_char <span class="hljs-keyword">or</span> offset[context_end][<span class="hljs-number">1</span>] < end_char: | |
| start_positions.append(<span class="hljs-number">0</span>) | |
| end_positions.append(<span class="hljs-number">0</span>) | |
| <span class="hljs-keyword">else</span>: | |
| <span class="hljs-comment"># Otherwise it's the start and end token positions</span> | |
| idx = context_start | |
| <span class="hljs-keyword">while</span> idx <= context_end <span class="hljs-keyword">and</span> offset[idx][<span class="hljs-number">0</span>] <= start_char: | |
| idx += <span class="hljs-number">1</span> | |
| start_positions.append(idx - <span class="hljs-number">1</span>) | |
| idx = context_end | |
| <span class="hljs-keyword">while</span> idx >= context_start <span class="hljs-keyword">and</span> offset[idx][<span class="hljs-number">1</span>] >= end_char: | |
| idx -= <span class="hljs-number">1</span> | |
| end_positions.append(idx + <span class="hljs-number">1</span>) | |
| inputs[<span class="hljs-string">"start_positions"</span>] = start_positions | |
| inputs[<span class="hljs-string">"end_positions"</span>] = end_positions | |
| <span class="hljs-keyword">return</span> inputs<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-l93w88">ကျွန်တော်တို့ maximum length နဲ့ sliding window ရဲ့ length ကို သတ်မှတ်ဖို့ constants နှစ်ခုကို သတ်မှတ်ခဲ့ပြီး၊ tokenize မလုပ်ခင် သန့်ရှင်းရေးအနည်းငယ် ထပ်ထည့်ခဲ့တယ်ဆိုတာ သတိပြုပါ။ SQuAD dataset ထဲက မေးခွန်းအချို့မှာ အစနဲ့အဆုံးမှာ အပို spaces တွေ ပါဝင်ပြီး ဒါတွေက ဘာမှ ထပ်မံထည့်သွင်းခြင်းမရှိသလို (RoBERTa လို model ကို အသုံးပြုရင် tokenize လုပ်တဲ့အခါ နေရာယူပါတယ်)၊ ဒါကြောင့် အဲဒီအပို spaces တွေကို ဖယ်ရှားခဲ့ပါတယ်။</p> <p data-svelte-h="svelte-18rmrpu">ဒီ function ကို training set တစ်ခုလုံးပေါ်မှာ အသုံးပြုဖို့အတွက်၊ <code>batched=True</code> flag နဲ့ <code>Dataset.map()</code> method ကို အသုံးပြုပါတယ်။ ဒီနေရာမှာ ဒါက လိုအပ်ပါတယ်၊ ဘာလို့လဲဆိုတော့ dataset ရဲ့ length ကို ကျွန်တော်တို့ ပြောင်းလဲနေလို့ပါ (sample တစ်ခုက training features များစွာ ပေးနိုင်တာကြောင့်)။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->train_dataset = raw_datasets[<span class="hljs-string">"train"</span>].<span class="hljs-built_in">map</span>( | |
| preprocess_training_examples, | |
| batched=<span class="hljs-literal">True</span>, | |
| remove_columns=raw_datasets[<span class="hljs-string">"train"</span>].column_names, | |
| ) | |
| <span class="hljs-built_in">len</span>(raw_datasets[<span class="hljs-string">"train"</span>]), <span class="hljs-built_in">len</span>(train_dataset)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->(<span class="hljs-number">87599</span>, <span class="hljs-number">88729</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1h0q8pq">ကျွန်တော်တို့ တွေ့ရတဲ့အတိုင်း၊ preprocessing က features ၁,၀၀၀ ခန့် ထပ်မံထည့်သွင်းခဲ့ပါတယ်။ ကျွန်တော်တို့ရဲ့ training set က အခုဆိုရင် အသုံးပြုဖို့ အဆင်သင့်ဖြစ်ပါပြီ — validation set ရဲ့ preprocessing ကို လေ့လာကြည့်ရအောင်။</p> <h3 class="relative group"><a id="processing-the-validation-data" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#processing-the-validation-data"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Validation Data ကို စီမံဆောင်ရွက်ခြင်း</span></h3> <p data-svelte-h="svelte-1t1ycch">validation data ကို preprocessing လုပ်တာက အနည်းငယ် ပိုလွယ်ကူပါလိမ့်မယ်။ ဘာလို့လဲဆိုတော့ labels တွေ ဖန်တီးဖို့ မလိုအပ်လို့ပါပဲ (validation loss ကို တွက်ချက်ချင်တယ်ဆိုရင်တော့ လိုအပ်ပေမယ့်၊ အဲဒီဂဏန်းက model ဘယ်လောက်ကောင်းလဲဆိုတာ နားလည်ဖို့ တကယ်အကူအညီဖြစ်မှာ မဟုတ်ပါဘူး)။ တကယ့် ပျော်ရွှင်စရာကတော့ model ရဲ့ predictions တွေကို original context ရဲ့ spans တွေအဖြစ် အဓိပ္ပာယ်ဖွင့်ဆိုဖို့ပါပဲ။ ဒီအတွက်၊ ကျွန်တော်တို့ offset mappings တွေနဲ့ ဖန်တီးထားတဲ့ feature တစ်ခုစီကို ၎င်းစတင်ရာ original example နဲ့ ကိုက်ညီစေမယ့် နည်းလမ်းအချို့ကို သိမ်းဆည်းထားဖို့ပဲ လိုအပ်ပါလိမ့်မယ်။ original dataset ထဲမှာ ID column တစ်ခုရှိတဲ့အတွက်၊ အဲဒီ ID ကို ကျွန်တော်တို့ အသုံးပြုပါမယ်။</p> <p data-svelte-h="svelte-10e8uqm">ဒီနေရာမှာ ကျွန်တော်တို့ ထပ်ထည့်မယ့် တစ်ခုတည်းသောအရာကတော့ offset mappings တွေကို သန့်ရှင်းရေးလုပ်တာ အနည်းငယ်ပါ။ ၎င်းတို့မှာ question နဲ့ context အတွက် offsets တွေ ပါဝင်ပါလိမ့်မယ်၊ ဒါပေမယ့် post-processing အဆင့်ရောက်တာနဲ့ input IDs ရဲ့ ဘယ်အပိုင်းက context နဲ့ ကိုက်ညီပြီး ဘယ်အပိုင်းက question ဖြစ်တယ်ဆိုတာကို သိဖို့ နည်းလမ်းမရှိတော့ပါဘူး (ကျွန်တော်တို့ အသုံးပြုခဲ့တဲ့ <code>sequence_ids()</code> method က tokenizer ရဲ့ output အတွက်ပဲ ရရှိနိုင်ပါတယ်)။ ဒါကြောင့်၊ question နဲ့ ကိုက်ညီတဲ့ offsets တွေကို <code>None</code> လို့ သတ်မှတ်ပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">def</span> <span class="hljs-title function_">preprocess_validation_examples</span>(<span class="hljs-params">examples</span>): | |
| questions = [q.strip() <span class="hljs-keyword">for</span> q <span class="hljs-keyword">in</span> examples[<span class="hljs-string">"question"</span>]] | |
| inputs = tokenizer( | |
| questions, | |
| examples[<span class="hljs-string">"context"</span>], | |
| max_length=max_length, | |
| truncation=<span class="hljs-string">"only_second"</span>, | |
| stride=stride, | |
| return_overflowing_tokens=<span class="hljs-literal">True</span>, | |
| return_offsets_mapping=<span class="hljs-literal">True</span>, | |
| padding=<span class="hljs-string">"max_length"</span>, | |
| ) | |
| sample_map = inputs.pop(<span class="hljs-string">"overflow_to_sample_mapping"</span>) | |
| example_ids = [] | |
| <span class="hljs-keyword">for</span> i <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-built_in">len</span>(inputs[<span class="hljs-string">"input_ids"</span>])): | |
| sample_idx = sample_map[i] | |
| example_ids.append(examples[<span class="hljs-string">"id"</span>][sample_idx]) | |
| sequence_ids = inputs.sequence_ids(i) | |
| offset = inputs[<span class="hljs-string">"offset_mapping"</span>][i] | |
| inputs[<span class="hljs-string">"offset_mapping"</span>][i] = [ | |
| o <span class="hljs-keyword">if</span> sequence_ids[k] == <span class="hljs-number">1</span> <span class="hljs-keyword">else</span> <span class="hljs-literal">None</span> <span class="hljs-keyword">for</span> k, o <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(offset) | |
| ] | |
| inputs[<span class="hljs-string">"example_id"</span>] = example_ids | |
| <span class="hljs-keyword">return</span> inputs<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1p04v96">ဒီ function ကို ယခင်ကလိုပဲ validation dataset တစ်ခုလုံးပေါ်မှာ အသုံးပြုနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->validation_dataset = raw_datasets[<span class="hljs-string">"validation"</span>].<span class="hljs-built_in">map</span>( | |
| preprocess_validation_examples, | |
| batched=<span class="hljs-literal">True</span>, | |
| remove_columns=raw_datasets[<span class="hljs-string">"validation"</span>].column_names, | |
| ) | |
| <span class="hljs-built_in">len</span>(raw_datasets[<span class="hljs-string">"validation"</span>]), <span class="hljs-built_in">len</span>(validation_dataset)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->(<span class="hljs-number">10570</span>, <span class="hljs-number">10822</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-8ranxl">ဒီကိစ္စမှာ ကျွန်တော်တို့ samples ရာဂဏန်းအနည်းငယ်သာ ထပ်ထည့်ခဲ့တာကြောင့် validation dataset ထဲက contexts တွေက အနည်းငယ် တိုတောင်းပုံရပါတယ်။</p> <p data-svelte-h="svelte-1jgqyel">data အားလုံးကို preprocess လုပ်ပြီးပြီဆိုတော့ training ကို စတင်နိုင်ပါပြီ။</p> <h2 class="relative group"><a id="fine-tuning-the-model-with-the-trainer-api" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#fine-tuning-the-model-with-the-trainer-api"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Trainer API ဖြင့် Model ကို Fine-tuning လုပ်ခြင်း</span></h2> <p data-svelte-h="svelte-1oqixnb">ဒီဥပမာအတွက် training code က ယခင်အပိုင်းတွေက code နဲ့ အများကြီး ဆင်တူပါလိမ့်မယ် — အခက်ခဲဆုံးအရာကတော့ <code>compute_metrics()</code> function ကို ရေးသားဖို့ပါပဲ။ ကျွန်တော်တို့ samples အားလုံးကို သတ်မှတ်ထားတဲ့ maximum length အထိ padding လုပ်ခဲ့တာကြောင့်၊ သတ်မှတ်ဖို့ data collator မရှိပါဘူး။ ဒါကြောင့် ဒီ metric computation က ကျွန်တော်တို့ စိုးရိမ်ရမယ့် တစ်ခုတည်းသော အရာပါပဲ။ အခက်ခဲဆုံး အပိုင်းကတော့ model predictions တွေကို original examples ထဲက text spans တွေအဖြစ် post-process လုပ်ဖို့ပါပဲ၊ ဒါပြီးရင် 🤗 Datasets library ကနေ metric က အလုပ်အများစုကို ကျွန်တော်တို့အတွက် လုပ်ပေးပါလိမ့်မယ်။</p> <h3 class="relative group"><a id="post-processing" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#post-processing"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Post-processing</span></h3> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/BNy08iIWVJM" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-cjqgrt">model က input IDs ထဲက အဖြေရဲ့ start နဲ့ end positions အတွက် logits တွေကို ထုတ်ပေးပါလိမ့်မယ်။ <a href="/course/chapter6/3b">Chapter 6</a> မှာ <code>question-answering</code> pipeline ကို လေ့လာခဲ့စဉ်က ကျွန်တော်တို့ တွေ့ခဲ့ရတဲ့အတိုင်းပါပဲ။ post-processing အဆင့်က အဲဒီမှာ လုပ်ခဲ့တာနဲ့ ဆင်တူပါလိမ့်မယ်။ ဒါကြောင့် ကျွန်တော်တို့ လုပ်ခဲ့တဲ့ လုပ်ဆောင်ချက်တွေကို အတိုချုပ် ပြန်ပြောရရင်…</p> <ul data-svelte-h="svelte-1yo6irc"><li>context ပြင်ပ tokens တွေနဲ့ ကိုက်ညီတဲ့ start နဲ့ end logits တွေကို ကျွန်တော်တို့ mask လုပ်ခဲ့ပါတယ်။</li> <li>ပြီးရင် start နဲ့ end logits တွေကို softmax အသုံးပြုပြီး probabilities တွေအဖြစ် ပြောင်းလဲခဲ့ပါတယ်။</li> <li>သက်ဆိုင်ရာ probabilities နှစ်ခုရဲ့ product ကို ယူခြင်းဖြင့် <code>(start_token, end_token)</code> အတွဲတစ်ခုစီကို score တစ်ခု သတ်မှတ်ခဲ့ပါတယ်။</li> <li>အကောင်းဆုံး score ရှိတဲ့ အဖြေမှန် (ဥပမာ - <code>start_token</code> က <code>end_token</code> ထက် နည်းပါးတာ) ပေးတဲ့ အတွဲကို ရှာဖွေခဲ့ပါတယ်။</li></ul> <p>ဒီနေရာမှာတော့ ဒီလုပ်ငန်းစဉ်ကို အနည်းငယ် ပြောင်းလဲပါမယ်။ ဘာလို့လဲဆိုတော့ တကယ့် scores တွေကို တွက်ချက်ဖို့ မလိုအပ်လို့ပါ (ခန့်မှန်းထားတဲ့ အဖြေကိုပဲ လိုအပ်လို့ပါ)။ ဒါက softmax အဆင့်ကို ကျော်ဖြတ်နိုင်တယ်လို့ ဆိုလိုပါတယ်။ ပိုမြန်အောင်လုပ်ဖို့၊ ဖြစ်နိုင်တဲ့ <code data-svelte-h="svelte-h5rtds">(start_token, end_token)</code> အတွဲအားလုံးကိုလည်း score လုပ်မှာ မဟုတ်ပါဘူး၊ အမြင့်ဆုံး <code data-svelte-h="svelte-4nlbo1">n_best</code> logits (with <code data-svelte-h="svelte-jugzo8">n_best=20</code>) နဲ့ ကိုက်ညီတဲ့ အတွဲတွေကိုပဲ score လုပ်ပါမယ်။ ကျွန်တော်တို့ softmax ကို ကျော်ဖြတ်မှာဖြစ်တဲ့အတွက်၊ အဲဒီ scores တွေက logit scores တွေဖြစ်ပြီး start နဲ့ end logits တွေရဲ့ sum ကို ယူခြင်းဖြင့် ရရှိပါလိမ့်မယ် (product အစား၊ ဘာလို့လဲဆိုတော့<!-- HTML_TAG_START --><span class="katex"><span class="katex-mathml"><math xmlns="http://www.w3.org/1998/Math/MathML"><semantics><mrow><mi>log</mi><mo></mo><mo stretchy="false">(</mo><mi>a</mi><mi>b</mi><mo stretchy="false">)</mo><mo>=</mo><mi>log</mi><mo></mo><mo stretchy="false">(</mo><mi>a</mi><mo stretchy="false">)</mo><mo>+</mo><mi>log</mi><mo></mo><mo stretchy="false">(</mo><mi>b</mi><mo stretchy="false">)</mo></mrow><annotation encoding="application/x-tex">\log(ab) = \log(a) + \log(b)</annotation></semantics></math></span><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mop">lo<span style="margin-right:0.01389em;">g</span></span><span class="mopen">(</span><span class="mord mathnormal">ab</span><span class="mclose">)</span><span class="mspace" style="margin-right:0.2778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2778em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mop">lo<span style="margin-right:0.01389em;">g</span></span><span class="mopen">(</span><span class="mord mathnormal">a</span><span class="mclose">)</span><span class="mspace" style="margin-right:0.2222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mop">lo<span style="margin-right:0.01389em;">g</span></span><span class="mopen">(</span><span class="mord mathnormal">b</span><span class="mclose">)</span></span></span></span><!-- HTML_TAG_END --> စည်းမျဉ်းကြောင့်ပါ)။</p> <p data-svelte-h="svelte-1w7byu0">ဒါတွေအားလုံးကို ပြသဖို့အတွက်၊ predictions အချို့ လိုအပ်ပါလိမ့်မယ်။ ကျွန်တော်တို့ model ကို မ train ရသေးတာကြောင့်၊ validation set ရဲ့ အပိုင်းအနည်းငယ်ပေါ်မှာ predictions တွေ ထုတ်ပေးဖို့ QA pipeline အတွက် default model ကို အသုံးပြုပါမယ်။ ယခင်ကလို preprocessing function ကို အသုံးပြုနိုင်ပါတယ်၊ global constant <code>tokenizer</code> ပေါ်မှာ မှီခိုနေတာကြောင့်၊ အဲဒီ object ကို ယာယီအသုံးပြုချင်တဲ့ model ရဲ့ tokenizer ကို ပြောင်းလဲဖို့ပဲ လိုအပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->small_eval_set = raw_datasets[<span class="hljs-string">"validation"</span>].select(<span class="hljs-built_in">range</span>(<span class="hljs-number">100</span>)) | |
| trained_checkpoint = <span class="hljs-string">"distilbert-base-cased-distilled-squad"</span> | |
| tokenizer = AutoTokenizer.from_pretrained(trained_checkpoint) | |
| eval_set = small_eval_set.<span class="hljs-built_in">map</span>( | |
| preprocess_validation_examples, | |
| batched=<span class="hljs-literal">True</span>, | |
| remove_columns=raw_datasets[<span class="hljs-string">"validation"</span>].column_names, | |
| )<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1qlu432">preprocessing လုပ်ပြီးပြီဆိုတော့၊ tokenizer ကို ကျွန်တော်တို့ မူလက ရွေးချယ်ခဲ့တဲ့ တစ်ခုကို ပြန်ပြောင်းပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1uwowm7">ပြီးရင် model က မမျှော်လင့်ထားတဲ့ <code>eval_set</code> ရဲ့ columns တွေကို ဖယ်ရှားပြီး၊ အဲဒီ small validation set အားလုံးနဲ့ batch တစ်ခု တည်ဆောက်ကာ model ကနေတစ်ဆင့် ပေးပို့ပါတယ်။ GPU ရရှိနိုင်ရင် ပိုမြန်အောင် အသုံးပြုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> torch | |
| <span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoModelForQuestionAnswering | |
| eval_set_for_model = eval_set.remove_columns([<span class="hljs-string">"example_id"</span>, <span class="hljs-string">"offset_mapping"</span>]) | |
| eval_set_for_model.set_format(<span class="hljs-string">"torch"</span>) | |
| device = torch.device(<span class="hljs-string">"cuda"</span>) <span class="hljs-keyword">if</span> torch.cuda.is_available() <span class="hljs-keyword">else</span> torch.device(<span class="hljs-string">"cpu"</span>) | |
| batch = {k: eval_set_for_model[k].to(device) <span class="hljs-keyword">for</span> k <span class="hljs-keyword">in</span> eval_set_for_model.column_names} | |
| trained_model = AutoModelForQuestionAnswering.from_pretrained(trained_checkpoint).to( | |
| device | |
| ) | |
| <span class="hljs-keyword">with</span> torch.no_grad(): | |
| outputs = trained_model(**batch)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1q628t1"><code>Trainer</code> က ကျွန်တော်တို့ကို predictions တွေကို NumPy arrays အဖြစ် ပေးမှာဖြစ်တဲ့အတွက်၊ start နဲ့ end logits တွေကို ယူပြီး အဲဒီ format အဖြစ် ပြောင်းလဲပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->start_logits = outputs.start_logits.cpu().numpy() | |
| end_logits = outputs.end_logits.cpu().numpy()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-792ppp">အခု၊ <code>small_eval_set</code> ထဲက example တစ်ခုစီအတွက် ခန့်မှန်းထားတဲ့ အဖြေကို ရှာဖို့ လိုအပ်ပါတယ်။ example တစ်ခုကို <code>eval_set</code> ထဲမှာ features များစွာအဖြစ် ခွဲထုတ်ခဲ့နိုင်တာကြောင့်၊ ပထမအဆင့်က <code>small_eval_set</code> ထဲက example တစ်ခုစီကို <code>eval_set</code> ထဲက သက်ဆိုင်ရာ features တွေနဲ့ map လုပ်ဖို့ပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> collections | |
| example_to_features = collections.defaultdict(<span class="hljs-built_in">list</span>) | |
| <span class="hljs-keyword">for</span> idx, feature <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(eval_set): | |
| example_to_features[feature[<span class="hljs-string">"example_id"</span>]].append(idx)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-atgyx8">ဒီအချက်အလက်တွေ ရရှိပြီဆိုတာနဲ့၊ examples အားလုံးကို loop လုပ်ပြီး၊ example တစ်ခုစီအတွက် သက်ဆိုင်ရာ features အားလုံးကို loop လုပ်ခြင်းဖြင့် တကယ်အလုပ်လုပ်နိုင်ပါပြီ။ အရင်က ပြောခဲ့တဲ့အတိုင်း၊ <code>n_best</code> start logits နဲ့ end logits တွေအတွက် logit scores တွေကို ကြည့်ပါမယ်။ အောက်ပါအခြေအနေတွေနဲ့ ကိုက်ညီတဲ့ positions တွေကိုတော့ ချန်လှပ်ထားပါမယ်။</p> <ul data-svelte-h="svelte-88ujgr"><li>context ထဲမှာ မပါဝင်တဲ့ အဖြေတစ်ခု</li> <li>အနှုတ်တန်ဖိုးရှိတဲ့ အရှည်ရှိတဲ့ အဖြေတစ်ခု</li> <li>အလွန်ရှည်လျားတဲ့ အဖြေတစ်ခု (ဖြစ်နိုင်ချေရှိတဲ့ အဖြေတွေကို <code>max_answer_length=30</code> နဲ့ ကန့်သတ်ထားပါတယ်)</li></ul> <p data-svelte-h="svelte-ocge2b">example တစ်ခုအတွက် အမှတ်ပေးထားတဲ့ ဖြစ်နိုင်တဲ့ အဖြေအားလုံး ရရှိပြီဆိုတာနဲ့၊ အကောင်းဆုံး logit score ရှိတဲ့ တစ်ခုကို ရွေးလိုက်ရုံပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> numpy <span class="hljs-keyword">as</span> np | |
| n_best = <span class="hljs-number">20</span> | |
| max_answer_length = <span class="hljs-number">30</span> | |
| predicted_answers = [] | |
| <span class="hljs-keyword">for</span> example <span class="hljs-keyword">in</span> small_eval_set: | |
| example_id = example[<span class="hljs-string">"id"</span>] | |
| context = example[<span class="hljs-string">"context"</span>] | |
| answers = [] | |
| <span class="hljs-keyword">for</span> feature_index <span class="hljs-keyword">in</span> example_to_features[example_id]: | |
| start_logit = start_logits[feature_index] | |
| end_logit = end_logits[feature_index] | |
| offsets = eval_set[<span class="hljs-string">"offset_mapping"</span>][feature_index] | |
| start_indexes = np.argsort(start_logit)[-<span class="hljs-number">1</span> : -n_best - <span class="hljs-number">1</span> : -<span class="hljs-number">1</span>].tolist() | |
| end_indexes = np.argsort(end_logit)[-<span class="hljs-number">1</span> : -n_best - <span class="hljs-number">1</span> : -<span class="hljs-number">1</span>].tolist() | |
| <span class="hljs-keyword">for</span> start_index <span class="hljs-keyword">in</span> start_indexes: | |
| <span class="hljs-keyword">for</span> end_index <span class="hljs-keyword">in</span> end_indexes: | |
| <span class="hljs-comment"># context ထဲမှာ အပြည့်အဝ မပါဝင်တဲ့ အဖြေတွေကို ကျော်ဖြတ်ပါ</span> | |
| <span class="hljs-keyword">if</span> offsets[start_index] <span class="hljs-keyword">is</span> <span class="hljs-literal">None</span> <span class="hljs-keyword">or</span> offsets[end_index] <span class="hljs-keyword">is</span> <span class="hljs-literal">None</span>: | |
| <span class="hljs-keyword">continue</span> | |
| <span class="hljs-comment"># length က < 0 ဒါမှမဟုတ် > max_answer_length ဖြစ်တဲ့ အဖြေတွေကို ကျော်ဖြတ်ပါ။</span> | |
| <span class="hljs-keyword">if</span> ( | |
| end_index < start_index | |
| <span class="hljs-keyword">or</span> end_index - start_index + <span class="hljs-number">1</span> > max_answer_length | |
| ): | |
| <span class="hljs-keyword">continue</span> | |
| answers.append( | |
| { | |
| <span class="hljs-string">"text"</span>: context[offsets[start_index][<span class="hljs-number">0</span>] : offsets[end_index][<span class="hljs-number">1</span>]], | |
| <span class="hljs-string">"logit_score"</span>: start_logit[start_index] + end_logit[end_index], | |
| } | |
| ) | |
| best_answer = <span class="hljs-built_in">max</span>(answers, key=<span class="hljs-keyword">lambda</span> x: x[<span class="hljs-string">"logit_score"</span>]) | |
| predicted_answers.append({<span class="hljs-string">"id"</span>: example_id, <span class="hljs-string">"prediction_text"</span>: best_answer[<span class="hljs-string">"text"</span>]})<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-r0fs2c">ခန့်မှန်းထားတဲ့ အဖြေတွေရဲ့ နောက်ဆုံး format က ကျွန်တော်တို့ အသုံးပြုမယ့် metric က မျှော်လင့်ထားတဲ့ ပုံစံပါပဲ။ ပုံမှန်အတိုင်းပါပဲ၊ 🤗 Evaluate library ရဲ့ အကူအညီနဲ့ ဒါကို load လုပ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> evaluate | |
| metric = evaluate.load(<span class="hljs-string">"squad"</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-138tfbk">ဒီ metric က အထက်မှာ ကျွန်တော်တို့ တွေ့ခဲ့ရတဲ့ ပုံစံ (example ရဲ့ ID အတွက် key တစ်ခုနဲ့ ခန့်မှန်းထားတဲ့ text အတွက် key တစ်ခုပါဝင်တဲ့ dictionaries စာရင်း) နဲ့ အောက်ပါပုံစံ (example ရဲ့ ID အတွက် key တစ်ခုနဲ့ ဖြစ်နိုင်တဲ့ အဖြေတွေအတွက် key တစ်ခုပါဝင်တဲ့ dictionaries စာရင်း) တို့ကို မျှော်လင့်ထားပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->theoretical_answers = [ | |
| {<span class="hljs-string">"id"</span>: ex[<span class="hljs-string">"id"</span>], <span class="hljs-string">"answers"</span>: ex[<span class="hljs-string">"answers"</span>]} <span class="hljs-keyword">for</span> ex <span class="hljs-keyword">in</span> small_eval_set | |
| ]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1s2jgwo">အခု lists နှစ်ခုလုံးရဲ့ ပထမဆုံး element ကို ကြည့်ခြင်းဖြင့် sensible results တွေ ရမရ စစ်ဆေးနိုင်ပါပြီ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">print</span>(predicted_answers[<span class="hljs-number">0</span>]) | |
| <span class="hljs-built_in">print</span>(theoretical_answers[<span class="hljs-number">0</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'id'</span>: <span class="hljs-string">'56be4db0acb8001400a502ec'</span>, <span class="hljs-string">'prediction_text'</span>: <span class="hljs-string">'Denver Broncos'</span>} | |
| {<span class="hljs-string">'id'</span>: <span class="hljs-string">'56be4db0acb8001400a502ec'</span>, <span class="hljs-string">'answers'</span>: {<span class="hljs-string">'text'</span>: [<span class="hljs-string">'Denver Broncos'</span>, <span class="hljs-string">'Denver Broncos'</span>, <span class="hljs-string">'Denver Broncos'</span>], <span class="hljs-string">'answer_start'</span>: [<span class="hljs-number">177</span>, <span class="hljs-number">177</span>, <span class="hljs-number">177</span>]}}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-fmf768">မဆိုးဘူး! အခု metric က ကျွန်တော်တို့ကို ပေးတဲ့ score ကို ကြည့်ရအောင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->metric.compute(predictions=predicted_answers, references=theoretical_answers)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'exact_match'</span>: <span class="hljs-number">83.0</span>, <span class="hljs-string">'f1'</span>: <span class="hljs-number">88.25</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1x60pzh">ထပ်ပြီး၊ အဲဒါက တော်တော်လေး ကောင်းမွန်ပါတယ်။ <a href="https://arxiv.org/abs/1910.01108v2" rel="nofollow">၎င်းရဲ့ paper</a> အရ SQuAD ပေါ်မှာ fine-tune လုပ်ထားတဲ့ DistilBERT က dataset တစ်ခုလုံးပေါ်မှာ 79.1 နဲ့ 86.9 ကို ရရှိတာကြောင့် ကျွန်တော်တို့ မှန်ကန်တဲ့ နေရာမှာ ရှိနေပါတယ်။</p> <p data-svelte-h="svelte-1p9pl4k">အခု ကျွန်တော်တို့ လုပ်ခဲ့တာတွေအားလုံးကို <code>compute_metrics()</code> function တစ်ခုထဲမှာ ထည့်ပြီး <code>Trainer</code> မှာ အသုံးပြုပါမယ်။ ပုံမှန်အားဖြင့်၊ အဲဒီ <code>compute_metrics()</code> function က logits နဲ့ labels တွေပါဝင်တဲ့ tuple <code>eval_preds</code> ကိုပဲ လက်ခံပါတယ်။ ဒီနေရာမှာတော့ အနည်းငယ် ထပ်လိုအပ်ပါလိမ့်မယ်။ ဘာလို့လဲဆိုတော့ offsets တွေအတွက် features dataset ထဲမှာ ကြည့်ရမှာဖြစ်ပြီး၊ original contexts တွေအတွက် examples dataset ထဲမှာ ကြည့်ရမှာမို့လို့ပါ။ ဒါကြောင့် training လုပ်နေစဉ် ပုံမှန် evaluation results တွေရဖို့ ဒီ function ကို အသုံးပြုနိုင်မှာ မဟုတ်ပါဘူး။ training ပြီးဆုံးမှသာ ရလဒ်တွေကို စစ်ဆေးဖို့ အသုံးပြုပါမယ်။</p> <p data-svelte-h="svelte-187kdlo"><code>compute_metrics()</code> function က ယခင်က လုပ်ခဲ့တဲ့ အဆင့်တွေ အတူတူကို အုပ်စုဖွဲ့ထားပါတယ်။ ကျွန်တော်တို့က valid answers တွေ မထွက်လာတဲ့အခါ (ဒီကိစ္စမှာ empty string ကို ခန့်မှန်းတာ) အနည်းငယ် စစ်ဆေးခြင်းကို ထပ်ထည့်လိုက်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> tqdm.auto <span class="hljs-keyword">import</span> tqdm | |
| <span class="hljs-keyword">def</span> <span class="hljs-title function_">compute_metrics</span>(<span class="hljs-params">start_logits, end_logits, features, examples</span>): | |
| example_to_features = collections.defaultdict(<span class="hljs-built_in">list</span>) | |
| <span class="hljs-keyword">for</span> idx, feature <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(features): | |
| example_to_features[feature[<span class="hljs-string">"example_id"</span>]].append(idx) | |
| predicted_answers = [] | |
| <span class="hljs-keyword">for</span> example <span class="hljs-keyword">in</span> tqdm(examples): | |
| example_id = example[<span class="hljs-string">"id"</span>] | |
| context = example[<span class="hljs-string">"context"</span>] | |
| answers = [] | |
| <span class="hljs-comment"># အဲဒီ example နဲ့ ဆက်စပ်နေတဲ့ features အားလုံးကို loop လုပ်ပါ</span> | |
| <span class="hljs-keyword">for</span> feature_index <span class="hljs-keyword">in</span> example_to_features[example_id]: | |
| start_logit = start_logits[feature_index] | |
| end_logit = end_logits[feature_index] | |
| offsets = features[feature_index][<span class="hljs-string">"offset_mapping"</span>] | |
| start_indexes = np.argsort(start_logit)[-<span class="hljs-number">1</span> : -n_best - <span class="hljs-number">1</span> : -<span class="hljs-number">1</span>].tolist() | |
| end_indexes = np.argsort(end_logit)[-<span class="hljs-number">1</span> : -n_best - <span class="hljs-number">1</span> : -<span class="hljs-number">1</span>].tolist() | |
| <span class="hljs-keyword">for</span> start_index <span class="hljs-keyword">in</span> start_indexes: | |
| <span class="hljs-keyword">for</span> end_index <span class="hljs-keyword">in</span> end_indexes: | |
| <span class="hljs-comment"># context ထဲမှာ အပြည့်အဝ မပါဝင်တဲ့ အဖြေတွေကို ကျော်ဖြတ်ပါ</span> | |
| <span class="hljs-keyword">if</span> offsets[start_index] <span class="hljs-keyword">is</span> <span class="hljs-literal">None</span> <span class="hljs-keyword">or</span> offsets[end_index] <span class="hljs-keyword">is</span> <span class="hljs-literal">None</span>: | |
| <span class="hljs-keyword">continue</span> | |
| <span class="hljs-comment"># length က < 0 ဒါမှမဟုတ် > max_answer_length ဖြစ်တဲ့ အဖြေတွေကို ကျော်ဖြတ်ပါ။</span> | |
| <span class="hljs-keyword">if</span> ( | |
| end_index < start_index | |
| <span class="hljs-keyword">or</span> end_index - start_index + <span class="hljs-number">1</span> > max_answer_length | |
| ): | |
| <span class="hljs-keyword">continue</span> | |
| answer = { | |
| <span class="hljs-string">"text"</span>: context[offsets[start_index][<span class="hljs-number">0</span>] : offsets[end_index][<span class="hljs-number">1</span>]], | |
| <span class="hljs-string">"logit_score"</span>: start_logit[start_index] + end_logit[end_index], | |
| } | |
| answers.append(answer) | |
| <span class="hljs-comment"># အကောင်းဆုံး score ရှိတဲ့ အဖြေကို ရွေးပါ</span> | |
| <span class="hljs-keyword">if</span> <span class="hljs-built_in">len</span>(answers) > <span class="hljs-number">0</span>: | |
| best_answer = <span class="hljs-built_in">max</span>(answers, key=<span class="hljs-keyword">lambda</span> x: x[<span class="hljs-string">"logit_score"</span>]) | |
| predicted_answers.append( | |
| {<span class="hljs-string">"id"</span>: example_id, <span class="hljs-string">"prediction_text"</span>: best_answer[<span class="hljs-string">"text"</span>]} | |
| ) | |
| <span class="hljs-keyword">else</span>: | |
| predicted_answers.append({<span class="hljs-string">"id"</span>: example_id, <span class="hljs-string">"prediction_text"</span>: <span class="hljs-string">""</span>}) | |
| theoretical_answers = [{<span class="hljs-string">"id"</span>: ex[<span class="hljs-string">"id"</span>], <span class="hljs-string">"answers"</span>: ex[<span class="hljs-string">"answers"</span>]} <span class="hljs-keyword">for</span> ex <span class="hljs-keyword">in</span> examples] | |
| <span class="hljs-keyword">return</span> metric.compute(predictions=predicted_answers, references=theoretical_answers)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-12nxhbn">ကျွန်တော်တို့ရဲ့ predictions တွေပေါ်မှာ ဒါက အလုပ်လုပ်မလုပ် စစ်ဆေးနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->compute_metrics(start_logits, end_logits, eval_set, small_eval_set)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'exact_match'</span>: <span class="hljs-number">83.0</span>, <span class="hljs-string">'f1'</span>: <span class="hljs-number">88.25</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1k1x94x">ကောင်းပါတယ်။ အခု ဒါကို အသုံးပြုပြီး ကျွန်တော်တို့ model ကို fine-tune လုပ်ရအောင်။</p> <h3 class="relative group"><a id="fine-tuning-the-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#fine-tuning-the-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Model ကို Fine-tuning လုပ်ခြင်း</span></h3> <p data-svelte-h="svelte-1nj2fff">ကျွန်တော်တို့ model ကို train ဖို့ အဆင်သင့်ဖြစ်ပါပြီ။ ပထမဆုံး <code>AutoModelForQuestionAnswering</code> class ကို ယခင်ကလို အသုံးပြုပြီး model ကို ဖန်တီးပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1u3litw">ပုံမှန်အတိုင်းပါပဲ၊ weights အချို့ (pretrained head ကနေရတဲ့) ကို အသုံးမပြုကြောင်းနဲ့ အခြားအချို့ကို (question answering head အတွက်) ကျပန်း စတင်သတ်မှတ်ထားကြောင်း သတိပေးချက်တစ်ခု ရရှိပါလိမ့်မယ်။ အခုဆိုရင် ဒါနဲ့ ရင်းနှီးပြီးသားဖြစ်သင့်ပေမယ့်၊ ဒါက ဒီ model ကို အခုချက်ချင်း အသုံးပြုဖို့ အဆင်သင့်မဖြစ်သေးဘဲ fine-tuning လုပ်ဖို့ လိုအပ်တယ်လို့ ဆိုလိုပါတယ် — ဒါကို အခုလုပ်တော့မှာမို့ ကောင်းပါတယ်။</p> <p data-svelte-h="svelte-1y0wf89">ကျွန်တော်တို့ model ကို Hub ကို push လုပ်နိုင်ဖို့ Hugging Face ကို log in ဝင်ဖို့ လိုအပ်ပါလိမ့်မယ်။ သင် ဒီ code ကို notebook မှာ run နေတယ်ဆိုရင်၊ login credentials တွေကို ထည့်သွင်းနိုင်မယ့် widget တစ်ခုကို ပြသပေးမယ့် အောက်ပါ utility function နဲ့ ဒါကို လုပ်ဆောင်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> huggingface_hub <span class="hljs-keyword">import</span> notebook_login | |
| notebook_login()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-dlr1jb">သင် notebook မှာ အလုပ်မလုပ်ဘူးဆိုရင်၊ သင့် terminal မှာ အောက်ပါစာကြောင်းကို ရိုက်ထည့်လိုက်ပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->huggingface-cli login<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-wdtvw0">ဒါပြီးတာနဲ့၊ ကျွန်တော်တို့ရဲ့ <code>TrainingArguments</code> တွေကို သတ်မှတ်နိုင်ပါတယ်။ metric ကို တွက်ချက်ဖို့ function ကို သတ်မှတ်ခဲ့စဉ်က ပြောခဲ့တဲ့အတိုင်း၊ <code>compute_metrics()</code> function ရဲ့ signature ကြောင့် ပုံမှန် evaluation loop တစ်ခု ရှိနိုင်မှာ မဟုတ်ပါဘူး။ ဒါကိုလုပ်ဖို့ <code>Trainer</code> ရဲ့ ကိုယ်ပိုင် subclass တစ်ခုကို ရေးသားနိုင်ပါတယ် (ဒီနည်းလမ်းကို <a href="https://github.com/huggingface/transformers/blob/master/examples/pytorch/question-answering/trainer_qa.py" rel="nofollow">question answering example script</a> မှာ တွေ့နိုင်ပါတယ်)၊ ဒါပေမယ့် ဒီအပိုင်းအတွက်ကတော့ နည်းနည်း ရှည်လျားပါတယ်။ အစား၊ ဒီနေရာမှာ training ပြီးဆုံးမှ model ကိုသာ evaluate လုပ်ပြီး၊ “A custom training loop” အောက်မှာ ပုံမှန် evaluation လုပ်နည်းကို ပြသပေးပါမယ်။</p> <p data-svelte-h="svelte-ybmim3">ဒါက <code>Trainer</code> API ရဲ့ ကန့်သတ်ချက်တွေကို ပြသပြီး 🤗 Accelerate library က ဘယ်လောက် အစွမ်းထက်တယ်ဆိုတာကို ပြသတဲ့နေရာပါပဲ။ class ကို သီးခြား use case တစ်ခုအတွက် customize လုပ်တာက ခက်ခဲနိုင်ပေမယ့်၊ အပြည့်အဝ ဖော်ပြထားတဲ့ training loop ကို ပြင်ဆင်တာက လွယ်ကူပါတယ်။</p> <p data-svelte-h="svelte-1hh5djx">ကျွန်တော်တို့ရဲ့ <code>TrainingArguments</code> တွေကို ကြည့်ရအောင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> TrainingArguments | |
| args = TrainingArguments( | |
| <span class="hljs-string">"bert-finetuned-squad"</span>, | |
| evaluation_strategy=<span class="hljs-string">"no"</span>, | |
| save_strategy=<span class="hljs-string">"epoch"</span>, | |
| learning_rate=<span class="hljs-number">2e-5</span>, | |
| num_train_epochs=<span class="hljs-number">3</span>, | |
| weight_decay=<span class="hljs-number">0.01</span>, | |
| fp16=<span class="hljs-literal">True</span>, | |
| push_to_hub=<span class="hljs-literal">True</span>, | |
| )<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1xvuy6e">ဒါတွေအများစုကို ကျွန်တော်တို့ အရင်က မြင်ဖူးပါတယ်၊ hyperparameters အချို့ (learning rate, training epochs အရေအတွက်နဲ့ weight decay အချို့) ကို သတ်မှတ်ပြီး၊ epoch တိုင်းအဆုံးမှာ model ကို save လုပ်ချင်တယ်၊ evaluation ကို ကျော်ဖြတ်ပြီး၊ ကျွန်တော်တို့ရဲ့ ရလဒ်တွေကို Model Hub ကို upload လုပ်ချင်တယ်ဆိုတာ ဖော်ပြပါတယ်။ <code>fp16=True</code> နဲ့ mixed-precision training ကိုလည်း ဖွင့်ထားပါတယ်။ ဘာလို့လဲဆိုတော့ ဒါက မကြာသေးမီက ထုတ်ထားတဲ့ GPU ပေါ်မှာ training ကို ကောင်းကောင်း အရှိန်မြှင့်ပေးနိုင်လို့ပါ။</p> <p data-svelte-h="svelte-1u2leny">default အားဖြင့်၊ အသုံးပြုတဲ့ repository က သင့် namespace ထဲမှာရှိပြီး သင်သတ်မှတ်ထားတဲ့ output directory အတိုင်း နာမည်ပေးထားပါလိမ့်မယ်။ ဒါကြောင့် ကျွန်တော်တို့ရဲ့ ကိစ္စမှာ <code>"sgugger/bert-finetuned-squad"</code> ဖြစ်ပါလိမ့်မယ်။ <code>hub_model_id</code> ကို ပေးပို့ခြင်းဖြင့် ဒါကို override လုပ်နိုင်ပါတယ်၊ ဥပမာ၊ model ကို <code>huggingface_course</code> organization ကို push လုပ်ဖို့အတွက် <code>hub_model_id="huggingface_course/bert-finetuned-squad"</code> (ဒါက ဒီအပိုင်းရဲ့ အစမှာ ကျွန်တော်တို့ link ချိတ်ထားတဲ့ model ပါ) ကို အသုံးပြုခဲ့ပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-nimny2"><p>💡 သင်အသုံးပြုနေတဲ့ output directory က ရှိပြီးသားဆိုရင်၊ ဒါက သင် push လုပ်ချင်တဲ့ repository ရဲ့ local clone ဖြစ်ဖို့ လိုပါတယ်။ (ဒါကြောင့် သင့် <code>Trainer</code> ကို သတ်မှတ်တဲ့အခါ error ရရင် နာမည်အသစ်တစ်ခု သတ်မှတ်ပါ)။</p></blockquote> <p data-svelte-h="svelte-1vazkat">နောက်ဆုံးအနေနဲ့၊ အရာအားလုံးကို <code>Trainer</code> class ကို ပေးပို့ပြီး training ကို စတင်လိုက်ရုံပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> Trainer | |
| trainer = Trainer( | |
| model=model, | |
| args=args, | |
| train_dataset=train_dataset, | |
| eval_dataset=validation_dataset, | |
| tokenizer=tokenizer, | |
| ) | |
| trainer.train()<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-h4qaig">training လုပ်နေစဉ်မှာ၊ model ကို save လုပ်တဲ့အခါတိုင်း (ဒီနေရာမှာတော့ epoch တိုင်း) background မှာ Hub ကို upload လုပ်တယ်ဆိုတာ သတိပြုပါ။ ဒီနည်းနဲ့၊ လိုအပ်ရင် အခြား machine တစ်ခုပေါ်မှာ training ကို ပြန်လည်စတင်နိုင်ပါလိမ့်မယ်။ training အားလုံးက အချိန်ယူရပါတယ် (Titan RTX ပေါ်မှာ တစ်နာရီကျော်ကြာပါတယ်)။ ဒါကြောင့် အဲဒါလုပ်ဆောင်နေချိန်မှာ သင် ကော်ဖီသောက်နိုင်ပါတယ် ဒါမှမဟုတ် သင်တန်းရဲ့ ပိုခက်ခဲတယ်လို့ ယူဆရတဲ့ အပိုင်းအချို့ကို ပြန်လည်ဖတ်ရှုနိုင်ပါတယ်။ ပထမဆုံး epoch ပြီးတာနဲ့၊ Hub ကို upload လုပ်ထားတဲ့ weights တွေကို မြင်ရမှာဖြစ်ပြီး သင်ရဲ့ model ကို ၎င်းရဲ့ page မှာ စတင်ကစားနိုင်ပါပြီ။</p> <p data-svelte-h="svelte-lrmu7d">training ပြီးဆုံးတာနဲ့၊ နောက်ဆုံးမှာ ကျွန်တော်တို့ model ကို evaluate လုပ်နိုင်ပါပြီ (ပြီးတော့ အဲဒီ compute time အားလုံးကို အလဟဿ မသုံးခဲ့မိဖို့ ဆုတောင်းရပါမယ်)။ <code>Trainer</code> ရဲ့ <code>predict()</code> method က model ရဲ့ predictions တွေကို (ဒီနေရာမှာ start နဲ့ end logits တွေပါဝင်တဲ့ အတွဲ) ပြန်ပေးပါလိမ့်မယ်။ ဒါကို ကျွန်တော်တို့ရဲ့ <code>compute_metrics()</code> function ကို ပေးပို့ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->predictions, _, _ = trainer.predict(validation_dataset) | |
| start_logits, end_logits = predictions | |
| compute_metrics(start_logits, end_logits, validation_dataset, raw_datasets[<span class="hljs-string">"validation"</span>])<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'exact_match'</span>: <span class="hljs-number">81.18259224219489</span>, <span class="hljs-string">'f1'</span>: <span class="hljs-number">88.67381321905516</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1fpy4xy">ကောင်းပါတယ်။ နှိုင်းယှဉ်ချက်အနေနဲ့၊ ဒီ model အတွက် BERT article မှာ ဖော်ပြထားတဲ့ baseline scores တွေက 80.8 နဲ့ 88.5 ဖြစ်တာကြောင့် ကျွန်တော်တို့ ရှိသင့်တဲ့ နေရာမှာပဲ ရှိနေပါတယ်။</p> <p data-svelte-h="svelte-g6zfe2">နောက်ဆုံးအနေနဲ့၊ model ရဲ့ နောက်ဆုံး version ကို upload လုပ်ဖို့ <code>push_to_hub()</code> method ကို အသုံးပြုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->trainer.push_to_hub(commit_message=<span class="hljs-string">"Training complete"</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-199qw7h">ဒါက သင်စစ်ဆေးချင်တယ်ဆိုရင် ဒါက အခုပဲ လုပ်ခဲ့တဲ့ commit ရဲ့ URL ကို ပြန်ပေးပါလိမ့်မယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'https://huggingface.co/sgugger/bert-finetuned-squad/commit/9dcee1fbc25946a6ed4bb32efb1bd71d5fa90b68'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-10amuho"><code>Trainer</code> က evaluation results အားလုံးပါဝင်တဲ့ model card draft တစ်ခုကိုလည်း ဖန်တီးပြီး upload လုပ်ပါတယ်။</p> <p data-svelte-h="svelte-spd7y3">ဒီအဆင့်မှာ၊ Model Hub ပေါ်က inference widget ကို အသုံးပြုပြီး model ကို စမ်းသပ်နိုင်ပြီး သင့်သူငယ်ချင်းတွေ၊ မိသားစုနဲ့ အိမ်မွေးတိရစ္ဆာန်တွေကို မျှဝေနိုင်ပါတယ်။ သင်ဟာ question answering task တစ်ခုပေါ်မှာ model တစ်ခုကို အောင်မြင်စွာ fine-tune လုပ်ခဲ့ပါပြီ — ဂုဏ်ယူပါတယ်!</p> <blockquote class="tip" data-svelte-h="svelte-17j5tkl"><p>✏️ <strong>သင့်အလှည့်ပါ။</strong> ဒီ task မှာ ပိုကောင်းတဲ့ စွမ်းဆောင်ရည်ရှိမရှိ သိဖို့ အခြား model architecture တစ်ခုကို စမ်းသပ်ကြည့်ပါ။</p></blockquote> <p data-svelte-h="svelte-q0gztt">training loop ကို နက်နက်နဲနဲ လေ့လာချင်တယ်ဆိုရင်၊ အခု 🤗 Accelerate ကို အသုံးပြုပြီး အတူတူကို ဘယ်လိုလုပ်ရမလဲဆိုတာ ကျွန်တော်တို့ ပြသပေးပါမယ်။</p> <h2 class="relative group"><a id="a-custom-training-loop" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#a-custom-training-loop"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Custom Training Loop တစ်ခု</span></h2> <p data-svelte-h="svelte-mft74i">အခု training loop အပြည့်အစုံကို ကြည့်ရအောင်၊ ဒါမှ သင်လိုအပ်တဲ့ အပိုင်းတွေကို လွယ်ကူစွာ customize လုပ်နိုင်ပါလိမ့်မယ်။ ဒါက <a href="/course/chapter3/4">Chapter 3</a> မှာရှိတဲ့ training loop နဲ့ အများကြီး ဆင်တူပါလိမ့်မယ်၊ evaluation loop မှာတော့ ကွဲပြားပါလိမ့်မယ်။ ကျွန်တော်တို့ <code>Trainer</code> class ရဲ့ ကန့်သတ်ချက်တွေ မရှိတော့တဲ့အတွက် model ကို ပုံမှန် evaluate လုပ်နိုင်ပါလိမ့်မယ်။</p> <h3 class="relative group"><a id="preparing-everything-for-training" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#preparing-everything-for-training"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training အတွက် အားလုံးကို ပြင်ဆင်ခြင်း</span></h3> <p data-svelte-h="svelte-q3jggy">ပထမဆုံး ကျွန်တော်တို့ datasets တွေကနေ <code>DataLoader</code>s တွေကို တည်ဆောက်ဖို့ လိုအပ်ပါတယ်။ အဲဒီ datasets တွေရဲ့ format ကို <code>"torch"</code> လို့ သတ်မှတ်ပြီး၊ model က အသုံးမပြုတဲ့ validation set ထဲက columns တွေကို ဖယ်ရှားပါတယ်။ ပြီးရင်၊ Transformers က ပံ့ပိုးပေးတဲ့ <code>default_data_collator</code> ကို <code>collate_fn</code> အဖြစ် အသုံးပြုပြီး training set ကို shuffle လုပ်နိုင်ပါတယ်၊ ဒါပေမယ့် validation set ကိုတော့ shuffle မလုပ်ပါဘူး။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> torch.utils.data <span class="hljs-keyword">import</span> DataLoader | |
| <span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> default_data_collator | |
| train_dataset.set_format(<span class="hljs-string">"torch"</span>) | |
| validation_set = validation_dataset.remove_columns([<span class="hljs-string">"example_id"</span>, <span class="hljs-string">"offset_mapping"</span>]) | |
| validation_set.set_format(<span class="hljs-string">"torch"</span>) | |
| train_dataloader = DataLoader( | |
| train_dataset, | |
| shuffle=<span class="hljs-literal">True</span>, | |
| collate_fn=default_data_collator, | |
| batch_size=<span class="hljs-number">8</span>, | |
| ) | |
| eval_dataloader = DataLoader( | |
| validation_set, collate_fn=default_data_collator, batch_size=<span class="hljs-number">8</span> | |
| )<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-18t5lr9">နောက်တစ်ဆင့်အနေနဲ့ model ကို ပြန်လည် instantiate လုပ်ပါမယ်။ ဒါက အရင်က fine-tuning လုပ်တာကို ဆက်မလုပ်ဘဲ BERT pretrained model ကနေ အသစ်ပြန်စတာကို သေချာစေဖို့ပါပဲ-</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->model = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-yyj4vb">ပြီးရင် optimizer တစ်ခု လိုအပ်ပါလိမ့်မယ်။ ပုံမှန်အတိုင်းပါပဲ၊ weight decay ကို အသုံးပြုတဲ့ နည်းလမ်းမှာ fix ပါဝင်တဲ့ Adam နဲ့တူတဲ့ classic <code>AdamW</code> ကို ကျွန်တော်တို့ အသုံးပြုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> torch.optim <span class="hljs-keyword">import</span> AdamW | |
| optimizer = AdamW(model.parameters(), lr=<span class="hljs-number">2e-5</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-byw2jc">အဲဒီ objects တွေအားလုံး ရရှိပြီဆိုတာနဲ့၊ ဒါတွေကို <code>accelerator.prepare()</code> method ကို ပေးပို့နိုင်ပါတယ်။ Colab notebook မှာ TPUs တွေပေါ်မှာ train လုပ်ချင်တယ်ဆိုရင်၊ ဒီ code အားလုံးကို training function တစ်ခုထဲကို ရွှေ့ဖို့ လိုအပ်မှာဖြစ်ပြီး၊ အဲဒါက <code>Accelerator</code> တစ်ခုကို instantiate လုပ်တဲ့ cell ကို execute မလုပ်သင့်ဘူးဆိုတာ သတိရပါ။ <code>fp16=True</code> ကို <code>Accelerator</code> ကို ပေးပို့ခြင်းဖြင့် mixed-precision training ကို အတင်းအကျပ် လုပ်ဆောင်နိုင်ပါတယ် (ဒါမှမဟုတ်၊ သင် code ကို script အဖြစ် execute လုပ်နေတယ်ဆိုရင်၊ 🤗 Accelerate <code>config</code> ကို သင့်လျော်စွာ ဖြည့်စွက်ထားဖို့ သေချာပါစေ)။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> accelerate <span class="hljs-keyword">import</span> Accelerator | |
| accelerator = Accelerator(fp16=<span class="hljs-literal">True</span>) | |
| model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare( | |
| model, optimizer, train_dataloader, eval_dataloader | |
| )<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1vcawab">ယခင်အပိုင်းတွေကနေ သင်သိထားသင့်တဲ့အတိုင်း၊ <code>accelerator.prepare()</code> method ကနေ ပြီးသွားမှသာ <code>train_dataloader</code> length ကို အသုံးပြုပြီး training steps အရေအတွက်ကို တွက်ချက်နိုင်ပါတယ်။ ယခင်အပိုင်းတွေကလို တူညီတဲ့ linear schedule ကို ကျွန်တော်တို့ အသုံးပြုပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> get_scheduler | |
| num_train_epochs = <span class="hljs-number">3</span> | |
| num_update_steps_per_epoch = <span class="hljs-built_in">len</span>(train_dataloader) | |
| num_training_steps = num_train_epochs * num_update_steps_per_epoch | |
| lr_scheduler = get_scheduler( | |
| <span class="hljs-string">"linear"</span>, | |
| optimizer=optimizer, | |
| num_warmup_steps=<span class="hljs-number">0</span>, | |
| num_training_steps=num_training_steps, | |
| )<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1bnnwgm">ကျွန်တော်တို့ model ကို Hub ကို push လုပ်နိုင်ဖို့အတွက် working folder တစ်ခုမှာ <code>Repository</code> object တစ်ခု ဖန်တီးဖို့ လိုအပ်ပါလိမ့်မယ်။ ပထမဆုံး Hugging Face Hub ကို log in ဝင်ပါ၊ အကယ်၍ သင် log in မဝင်ရသေးဘူးဆိုရင်။ ကျွန်တော်တို့ model ကို ပေးချင်တဲ့ model ID ကနေ repository name ကို ဆုံးဖြတ်ပါမယ် (သင့်ရဲ့ username ပါဝင်ရမယ့် <code>get_full_repo_name()</code> function က လုပ်ဆောင်တဲ့အတိုင်း <code>repo_name</code> ကို သင့်စိတ်ကြိုက် ပြောင်းလဲနိုင်ပါတယ်)။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> huggingface_hub <span class="hljs-keyword">import</span> Repository, get_full_repo_name | |
| model_name = <span class="hljs-string">"bert-finetuned-squad-accelerate"</span> | |
| repo_name = get_full_repo_name(model_name) | |
| repo_name<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'sgugger/bert-finetuned-squad-accelerate'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-kepy72">ပြီးရင် အဲဒီ repository ကို local folder တစ်ခုမှာ clone လုပ်နိုင်ပါတယ်။ အကယ်၍ ဒါက ရှိပြီးသားဆိုရင်၊ ဒီ local folder က ကျွန်တော်တို့ အလုပ်လုပ်နေတဲ့ repository ရဲ့ clone ဖြစ်ရပါမယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->output_dir = <span class="hljs-string">"bert-finetuned-squad-accelerate"</span> | |
| repo = Repository(output_dir, clone_from=repo_name)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-10kp0j3">အခု <code>output_dir</code> ထဲမှာ save လုပ်ထားတာတွေကို <code>repo.push_to_hub()</code> method ကို ခေါ်ခြင်းဖြင့် upload လုပ်နိုင်ပါပြီ။ ဒါက epoch တစ်ခုစီအဆုံးမှာ ကြားခံ models တွေကို upload လုပ်ဖို့ ကူညီပါလိမ့်မယ်။</p> <h2 class="relative group"><a id="training-loop" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#training-loop"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Training Loop</span></h2> <p data-svelte-h="svelte-6c6tqv">အခု training loop အပြည့်အစုံကို ရေးဖို့ အဆင်သင့်ဖြစ်ပါပြီ။ training ဘယ်လိုသွားလဲဆိုတာကို လိုက်ကြည့်ဖို့ progress bar တစ်ခု သတ်မှတ်ပြီးနောက်၊ loop မှာ အပိုင်းသုံးပိုင်း ပါဝင်ပါတယ်။</p> <ul data-svelte-h="svelte-bah22b"><li>training လုပ်ငန်းစဉ် သူ့ဘာသာသူ၊ ဒါက <code>train_dataloader</code>၊ model ကနေတစ်ဆင့် forward pass၊ ပြီးရင် backward pass နဲ့ optimizer step တွေအပေါ် classic iteration ပါပဲ။</li> <li>evaluation၊ ဒီမှာ <code>start_logits</code> နဲ့ <code>end_logits</code> တွေအတွက် values အားလုံးကို စုစည်းပြီးမှ NumPy arrays တွေအဖြစ် ပြောင်းလဲပါတယ်။ evaluation loop ပြီးသွားတာနဲ့၊ ရလဒ်အားလုံးကို concatenate လုပ်ပါတယ်။ <code>Accelerator</code> က process တစ်ခုစီမှာ examples အရေအတွက် တူညီအောင် သေချာစေဖို့အတွက် အဆုံးမှာ samples အနည်းငယ် ထပ်ထည့်နိုင်တာကြောင့် truncate လုပ်ဖို့ လိုအပ်တယ်ဆိုတာ သတိပြုပါ။</li> <li>saving နဲ့ uploading၊ ဒီမှာ ပထမဆုံး model နဲ့ tokenizer ကို save လုပ်ပြီးမှ <code>repo.push_to_hub()</code> ကို ခေါ်ပါတယ်။ အရင်က လုပ်ခဲ့သလိုပဲ၊ <code>blocking=False</code> argument ကို အသုံးပြုပြီး 🤗 Hub library ကို asynchronous process တစ်ခုမှာ push လုပ်ဖို့ ပြောပါတယ်။ ဒီနည်းနဲ့ training က ပုံမှန်အတိုင်း ဆက်လက်လုပ်ဆောင်ပြီး ဒီ (ကြာမြင့်တဲ့) instruction ကို background မှာ execute လုပ်ပါလိမ့်မယ်။</li></ul> <p data-svelte-h="svelte-1kp6lh1">ဒီမှာ training loop အတွက် code အပြည့်အစုံပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> tqdm.auto <span class="hljs-keyword">import</span> tqdm | |
| <span class="hljs-keyword">import</span> torch | |
| progress_bar = tqdm(<span class="hljs-built_in">range</span>(num_training_steps)) | |
| <span class="hljs-keyword">for</span> epoch <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(num_train_epochs): | |
| <span class="hljs-comment"># Training</span> | |
| model.train() | |
| <span class="hljs-keyword">for</span> step, batch <span class="hljs-keyword">in</span> <span class="hljs-built_in">enumerate</span>(train_dataloader): | |
| outputs = model(**batch) | |
| loss = outputs.loss | |
| accelerator.backward(loss) | |
| optimizer.step() | |
| lr_scheduler.step() | |
| optimizer.zero_grad() | |
| progress_bar.update(<span class="hljs-number">1</span>) | |
| <span class="hljs-comment"># Evaluation</span> | |
| model.<span class="hljs-built_in">eval</span>() | |
| start_logits = [] | |
| end_logits = [] | |
| accelerator.<span class="hljs-built_in">print</span>(<span class="hljs-string">"Evaluation!"</span>) | |
| <span class="hljs-keyword">for</span> batch <span class="hljs-keyword">in</span> tqdm(eval_dataloader): | |
| <span class="hljs-keyword">with</span> torch.no_grad(): | |
| outputs = model(**batch) | |
| start_logits.append(accelerator.gather(outputs.start_logits).cpu().numpy()) | |
| end_logits.append(accelerator.gather(outputs.end_logits).cpu().numpy()) | |
| start_logits = np.concatenate(start_logits) | |
| end_logits = np.concatenate(end_logits) | |
| start_logits = start_logits[: <span class="hljs-built_in">len</span>(validation_dataset)] | |
| end_logits = end_logits[: <span class="hljs-built_in">len</span>(validation_dataset)] | |
| metrics = compute_metrics( | |
| start_logits, end_logits, validation_dataset, raw_datasets[<span class="hljs-string">"validation"</span>] | |
| ) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"epoch <span class="hljs-subst">{epoch}</span>:"</span>, metrics) | |
| <span class="hljs-comment"># Save and upload</span> | |
| accelerator.wait_for_everyone() | |
| unwrapped_model = accelerator.unwrap_model(model) | |
| unwrapped_model.save_pretrained(output_dir, save_function=accelerator.save) | |
| <span class="hljs-keyword">if</span> accelerator.is_main_process: | |
| tokenizer.save_pretrained(output_dir) | |
| repo.push_to_hub( | |
| commit_message=<span class="hljs-string">f"Training in progress epoch <span class="hljs-subst">{epoch}</span>"</span>, blocking=<span class="hljs-literal">False</span> | |
| )<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1jzry75">🤗 Accelerate နဲ့ model ကို save လုပ်တာကို ပထမဆုံးအကြိမ် မြင်ဖူးတယ်ဆိုရင်၊ အဲဒါနဲ့ တွဲဖက်ပါဝင်တဲ့ code လိုင်းသုံးခုကို ခဏလောက် စစ်ဆေးကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->accelerator.wait_for_everyone() | |
| unwrapped_model = accelerator.unwrap_model(model) | |
| unwrapped_model.save_pretrained(output_dir, save_function=accelerator.save)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-78a9kn">ပထမစာကြောင်းက သူ့ဘာသာသူ ရှင်းပြပြီးသားပါ။ ဒါက processes အားလုံးကို ဆက်မလုပ်ဆောင်ခင် အဲဒီအဆင့်ရောက်သည်အထိ အားလုံးကို စောင့်ဆိုင်းဖို့ ပြောပါတယ်။ ဒါက save မလုပ်ခင် processes တိုင်းမှာ model တူတူရှိနေတာကို သေချာစေဖို့ပါပဲ။ ပြီးရင် ကျွန်တော်တို့ သတ်မှတ်ခဲ့တဲ့ base model ဖြစ်တဲ့ <code>unwrapped_model</code> ကို ယူလိုက်ပါတယ်။ <code>accelerator.prepare()</code> method က distributed training မှာ အလုပ်လုပ်အောင် model ကို ပြောင်းလဲပေးတာကြောင့်၊ ၎င်းမှာ <code>save_pretrained()</code> method ရှိတော့မှာ မဟုတ်ပါဘူး၊ <code>accelerator.unwrap_model()</code> method က အဲဒီအဆင့်ကို ပြန်လည်လုပ်ဆောင်ပေးပါတယ်။ နောက်ဆုံးအနေနဲ့၊ <code>save_pretrained()</code> ကို ခေါ်ပေမယ့် <code>torch.save()</code> အစား <code>accelerator.save()</code> ကို အသုံးပြုဖို့ အဲဒီ method ကို ပြောပါတယ်။</p> <p data-svelte-h="svelte-1n3pwoa">ဒါပြီးတာနဲ့၊ <code>Trainer</code> နဲ့ train ထားတဲ့ တစ်ခုနဲ့ အလွန်ဆင်တူတဲ့ ရလဒ်တွေ ထုတ်ပေးတဲ့ model တစ်ခုကို သင်ရရှိပါလိမ့်မယ်။ ဒီ code ကို အသုံးပြုပြီး ကျွန်တော်တို့ train ထားတဲ့ model ကို <a href="https://huggingface.co/huggingface-course/bert-finetuned-squad-accelerate" rel="nofollow"><em>huggingface-course/bert-finetuned-squad-accelerate</em></a> မှာ စစ်ဆေးနိုင်ပါတယ်။ training loop မှာ ပြင်ဆင်မှုအချို့ကို စမ်းသပ်ချင်တယ်ဆိုရင်၊ အထက်မှာ ပြသထားတဲ့ code ကို တိုက်ရိုက် edit လုပ်ပြီး implement လုပ်နိုင်ပါတယ်!</p> <h2 class="relative group"><a id="using-the-fine-tuned-model" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#using-the-fine-tuned-model"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Fine-tuned Model ကို အသုံးပြုခြင်း</span></h2> <p data-svelte-h="svelte-enweh">ကျွန်တော်တို့ fine-tune လုပ်ထားတဲ့ model ကို inference widget နဲ့ Model Hub ပေါ်မှာ ဘယ်လိုအသုံးပြုရမယ်ဆိုတာကို အရင်က ပြသခဲ့ပြီးပါပြီ။ ဒါကို <code>pipeline</code> တစ်ခုထဲမှာ locally အသုံးပြုဖို့အတွက်၊ model identifier ကို သတ်မှတ်ပေးရုံပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> pipeline | |
| <span class="hljs-comment"># ဒါကို သင့်ကိုယ်ပိုင် checkpoint နဲ့ အစားထိုးပါ</span> | |
| model_checkpoint = <span class="hljs-string">"huggingface-course/bert-finetuned-squad"</span> | |
| question_answerer = pipeline(<span class="hljs-string">"question-answering"</span>, model=model_checkpoint) | |
| context = <span class="hljs-string">""" | |
| 🤗 Transformers is backed by the three most popular deep learning libraries — Jax, PyTorch and TensorFlow — with a seamless integration | |
| between them. It's straightforward to train your models with one before loading them for inference with the other. | |
| """</span> | |
| question = <span class="hljs-string">"Which deep learning libraries back 🤗 Transformers?"</span> | |
| question_answerer(question=question, context=context)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'score'</span>: <span class="hljs-number">0.9979003071784973</span>, | |
| <span class="hljs-string">'start'</span>: <span class="hljs-number">78</span>, | |
| <span class="hljs-string">'end'</span>: <span class="hljs-number">105</span>, | |
| <span class="hljs-string">'answer'</span>: <span class="hljs-string">'Jax, PyTorch and TensorFlow'</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1kir8lb">ကောင်းပါတယ်။ ကျွန်တော်တို့ model က ဒီ pipeline အတွက် default model အတိုင်း ကောင်းကောင်း အလုပ်လုပ်နေပါတယ်။</p> <h2 class="relative group"><a id="ဝဟရ-ရငလငခက-glossary" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ဝဟရ-ရငလငခက-glossary"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဝေါဟာရ ရှင်းလင်းချက် (Glossary)</span></h2> <ul data-svelte-h="svelte-wenidv"><li><strong>Question Answering (QA)</strong>: ပေးထားသော စာသားတစ်ခုမှ မေးခွန်းတစ်ခု၏ အဖြေကို ရှာဖွေခြင်း။</li> <li><strong>Extractive Question Answering</strong>: မေးခွန်းတစ်ခု၏ အဖြေကို ပေးထားသော document ထဲမှ စာသားအပိုင်း (span of text) အဖြစ် တိုက်ရိုက်ထုတ်ယူသည့် QA အမျိုးအစား။</li> <li><strong>Spans of Text</strong>: စာသားတစ်ခုအတွင်းရှိ စကားလုံးများ သို့မဟုတ် စာလုံးများ၏ အဆက်မပြတ်သော အပိုင်း။</li> <li><strong>Document</strong>: စာသားအချက်အလက်များပါဝင်သော အရင်းအမြစ်။</li> <li><strong>BERT Model</strong>: Google မှ ဖန်တီးခဲ့သော Bidirectional Encoder Representations from Transformers (BERT) မော်ဒယ်။ Transformer architecture ပေါ်တွင် အခြေခံထားသော pre-trained language model တစ်ခု။</li> <li><strong>Fine-tune</strong>: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်း။</li> <li><strong>SQuAD Dataset (Stanford Question Answering Dataset)</strong>: မေးခွန်းဖြေဆိုခြင်းအတွက် ကျယ်ပြန့်စွာ အသုံးပြုသော dataset တစ်ခု။ Wikipedia ဆောင်းပါးများပေါ်တွင် မေးခွန်းများနှင့် အဖြေများ ပါဝင်သည်။</li> <li><strong>Crowdworkers</strong>: အွန်လိုင်း platform များမှတစ်ဆင့် အသေးစား၊ ထပ်တလဲလဲ လုပ်ငန်းများကို လုပ်ဆောင်ပေးသော လူများ။</li> <li><strong>Wikipedia Articles</strong>: Wikipedia စွယ်စုံကျမ်းမှ ဆောင်းပါးများ။</li> <li><strong>Predictions</strong>: Machine Learning မော်ဒယ်တစ်ခုက input data ကို အခြေခံပြီး ခန့်မှန်းထုတ်ပေးသော ရလဒ်များ။</li> <li><strong>Model Hub</strong>: Hugging Face Hub ကို ရည်ညွှန်းပြီး AI မော်ဒယ်များ ရှာဖွေ၊ မျှဝေ၊ အသုံးပြုနိုင်သော ဗဟို platform။</li> <li><strong>Encoder-only Models</strong>: Transformer architecture ၏ encoder အပိုင်းကိုသာ အသုံးပြုသော မော်ဒယ်များ (ဥပမာ- BERT)။ ၎င်းတို့သည် input ကို နားလည်ပြီး contextual representations များ ထုတ်လုပ်ရာတွင် ကောင်းမွန်သည်။</li> <li><strong>Factoid Questions</strong>: အချက်အလက်အခြေခံသော၊ တိုက်ရိုက်အဖြေရှိသော မေးခွန်းများ။</li> <li><strong>Open-ended Questions</strong>: တိကျသော အဖြေမရှိဘဲ၊ ပိုမိုကျယ်ပြန့်သော ဆွေးနွေးမှု သို့မဟုတ် ရှင်းလင်းချက်လိုအပ်သော မေးခွန်းများ။</li> <li><strong>Encoder-decoder Models</strong>: Transformer architecture ၏ encoder နှင့် decoder နှစ်ခုစလုံးကို အသုံးပြုသော မော်ဒယ်များ (ဥပမာ- T5, BART)။ ၎င်းတို့သည် input ကို နားလည်ပြီး output sequence ကို ဖန်တီးရာတွင် ကောင်းမွန်သည်။</li> <li><strong>Synthesize Information</strong>: အချက်အလက်အမျိုးမျိုးကို စုစည်းပေါင်းစပ်ခြင်း။</li> <li><strong>Text Summarization</strong>: ရှည်လျားသော စာသားတစ်ခု၏ အနှစ်ချုပ်ကို ထုတ်လုပ်ခြင်း။</li> <li><strong>Generative Question Answering</strong>: အဖြေကို ပေးထားသော document ထဲမှ တိုက်ရိုက်ထုတ်ယူခြင်းမဟုတ်ဘဲ၊ မော်ဒယ်က အဖြေအသစ်တစ်ခုကို ဖန်တီးထုတ်လုပ်သည့် QA အမျိုးအစား။</li> <li><strong>ELI5 Dataset (Explain Like I’m 5)</strong>: ရှည်လျားသော၊ ရှင်းလင်းချက်လိုအပ်သော မေးခွန်းများနှင့် အဖြေများပါဝင်သည့် dataset။</li> <li><strong>Academic Benchmark</strong>: သုတေသနပရောဂျက်များတွင် မော်ဒယ်များ၏ စွမ်းဆောင်ရည်ကို နှိုင်းယှဉ်ရန် အသုံးပြုသော စံ dataset သို့မဟုတ် task။</li> <li><strong>SQuAD v2 Benchmark</strong>: မဖြေနိုင်သော မေးခွန်းများ ပါဝင်သော SQuAD dataset ၏ ပိုမိုခက်ခဲသော version။</li> <li><strong>Contexts</strong>: မေးခွန်း၏ အဖြေပါဝင်နိုင်သည့် စာသားအပိုင်း။</li> <li><strong>Questions</strong>: မေးမြန်းထားသော မေးခွန်းများ။</li> <li><strong>Answers</strong>: မေးခွန်းများ၏ အဖြေများ။</li> <li><strong>Column</strong>: Dataset ၏ ဒေတာတစ်ခုစီတွင် ပါဝင်သည့် feature သို့မဟုတ် attribute။</li> <li><strong><code>load_dataset()</code> Function</strong>: Hugging Face Datasets library မှ dataset များကို download လုပ်ပြီး cache လုပ်ရန် အသုံးပြုသော function။</li> <li><strong><code>DatasetDict</code> Object</strong>: Training set, validation set, နှင့် test set ကဲ့သို့သော dataset အများအပြားကို dictionary ပုံစံဖြင့် သိမ်းဆည်းထားသော object။</li> <li><strong><code>train</code> Split</strong>: Model ကို လေ့ကျင့်ရန်အတွက် အသုံးပြုသော dataset အပိုင်း။</li> <li><strong><code>validation</code> Split</strong>: Training လုပ်နေစဉ် model ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် အသုံးပြုသော dataset အပိုင်း။</li> <li><strong><code>features</code></strong>: Dataset ၏ columns များ၏ အမျိုးအစားများနှင့် အချက်အလက်များကို ဖော်ပြသော dictionary။</li> <li><strong><code>num_rows</code></strong>: Dataset ၏ rows အရေအတွက် (ဥပမာများ)။</li> <li><strong><code>context</code> Field</strong>: SQuAD dataset တွင် မေးခွန်း၏ အဖြေပါဝင်နိုင်သည့် စာသားအပိုင်း။</li> <li><strong><code>question</code> Field</strong>: SQuAD dataset တွင် မေးမြန်းထားသော မေးခွန်း။</li> <li><strong><code>answers</code> Field</strong>: SQuAD dataset တွင် မေးခွန်း၏ အဖြေများ (text နှင့် start character index ပါဝင်သည်)။</li> <li><strong><code>text</code> Field (in <code>answers</code>)</strong>: အဖြေ၏ စာသား။</li> <li><strong><code>answer_start</code> Field (in <code>answers</code>)</strong>: context ထဲက အဖြေစတင်သည့် character index။</li> <li><strong><code>squad</code> Metric</strong>: SQuAD dataset အတွက် evaluation metrics (Exact Match နှင့် F1 Score) ကို တွက်ချက်သော metric။</li> <li><strong><code>Dataset.filter()</code> Method</strong>: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး သတ်မှတ်ထားသော အခြေအနေများနှင့် ကိုက်ညီသော ဒေတာများကိုသာ dataset မှ ရွေးထုတ်ရန် အသုံးပြုသည်။</li> <li><strong>Evaluation Script</strong>: Model ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် အသုံးပြုသော code။</li> <li><strong>Preprocessing</strong>: ဒေတာများကို model က နားလည်ပြီး လုပ်ဆောင်နိုင်တဲ့ ပုံစံအဖြစ် ပြောင်းလဲပြင်ဆင်ခြင်း လုပ်ငန်းစဉ်။</li> <li><strong>Labels</strong>: training data တွင် မော်ဒယ်က ခန့်မှန်းရန် လိုအပ်သော မှန်ကန်သည့် အဖြေများ။</li> <li><strong>Tokens</strong>: စာသားကို ပိုင်းခြားထားသော အသေးငယ်ဆုံးယူနစ်များ။</li> <li><strong><code>AutoTokenizer</code></strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ class တစ်ခုဖြစ်ပြီး မော်ဒယ်အမည်ကို အသုံးပြုပြီး သက်ဆိုင်ရာ tokenizer ကို အလိုအလျောက် load လုပ်ပေးသည်။</li> <li><strong><code>model_checkpoint</code></strong>: pretrained model ၏ identifier (ဥပမာ- “bert-base-cased”)။</li> <li><strong>Fast Tokenizer</strong>: Rust ဘာသာစကားဖြင့် အကောင်အထည်ဖော်ထားသော tokenizer ဖြစ်ပြီး Python-based tokenizers များထက် အလွန်မြန်ဆန်သည်။</li> <li><strong><code>is_fast</code> Attribute</strong>: tokenizer object က fast tokenizer ဟုတ်မဟုတ်ကို ပြသသော attribute။</li> <li><strong>🤗 Tokenizers</strong>: Rust ဘာသာနဲ့ ရေးသားထားတဲ့ Hugging Face library တစ်ခုဖြစ်ပြီး မြန်ဆန်ထိရောက်တဲ့ tokenization ကို လုပ်ဆောင်ပေးသည်။</li> <li><strong>Special Tokens</strong>: Transformer models များက စာသားကို စီမံဆောင်ရွက်ရာတွင် အထူးအဓိပ္ပာယ်ရှိသော tokens များ (ဥပမာ- <code>[CLS]</code>, <code>[SEP]</code>)။</li> <li><strong><code>[CLS]</code> Token</strong>: BERT model တွင် sequence ၏ အစကို ကိုယ်စားပြုသော special token။</li> <li><strong><code>[SEP]</code> Token</strong>: BERT model တွင် sentence တစ်ခု၏ အဆုံး သို့မဟုတ် sentence နှစ်ခုကြား ပိုင်းခြားရန် အသုံးပြုသော special token။</li> <li><strong><code>inputs</code> (from Tokenizer)</strong>: tokenizer က စီမံဆောင်ရွက်ပြီးနောက် ရရှိသော dictionary (input IDs, attention mask, token type IDs စသည်)။</li> <li><strong><code>tokenizer.decode()</code> Method</strong>: token IDs များကို မူရင်းစာသားအဖြစ် ပြန်ပြောင်းပေးသော tokenizer method။</li> <li><strong><code>input_ids</code></strong>: Tokenizer မှ ထုတ်ပေးသော tokens တစ်ခုစီ၏ ထူးခြားသော ဂဏန်းဆိုင်ရာ ID များ။</li> <li><strong>Logit</strong>: Neural network ၏ နောက်ဆုံး layer မှ output ဖြစ်သော raw, unnormalized score။</li> <li><strong>Start Position Logit</strong>: အဖြေ၏ စတင်သည့် token အတွက် model က ခန့်မှန်းသော logit။</li> <li><strong>End Position Logit</strong>: အဖြေ၏ အဆုံးသတ်သည့် token အတွက် model က ခန့်မှန်းသော logit။</li> <li><strong>Max Length</strong>: Tokenized sequence တစ်ခု၏ အမြင့်ဆုံးခွင့်ပြုထားသော အရှည်။</li> <li><strong>Sliding Window</strong>: ရှည်လျားသော စာသားများကို သေးငယ်သော၊ ထပ်နေသော အပိုင်းများ (chunks) အဖြစ် ပိုင်းခြားခြင်း။</li> <li><strong><code>max_length</code> (Argument)</strong>: tokenizer တွင် အမြင့်ဆုံး sequence length ကို သတ်မှတ်ရန် argument။</li> <li><strong><code>truncation="only_second"</code></strong>: tokenizer တွင် input sequence နှစ်ခုရှိသည့်အခါ ဒုတိယ sequence ကိုသာ truncate လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>stride</code></strong>: Sliding window တွင် နောက်ဆက်တွဲ chunks များကြား ထပ်နေသော tokens အရေအတွက်။</li> <li><strong><code>return_overflowing_tokens=True</code></strong>: tokenizer ကို truncation လုပ်ပြီးနောက် ကျန်ရှိသော tokens များကို ပြန်ပေးရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>return_offsets_mapping=True</code></strong>: tokenizer ကို offset mappings များကို ပြန်ပေးရန် သတ်မှတ်ခြင်း။</li> <li><strong>Offset Mappings</strong>: input sequence ရှိ tokens တစ်ခုစီ၏ မူရင်းစာသားထဲမှ စတင်သည့်နှင့် အဆုံးသတ်သည့် character indices များ။</li> <li><strong><code>overflow_to_sample_mapping</code></strong>: မူရင်း sample တစ်ခုကနေ features များစွာ ထုတ်လုပ်တဲ့အခါ၊ feature တစ်ခုစီကို မူရင်း sample နဲ့ map လုပ်ပေးတဲ့ key။</li> <li><strong><code>sequence_ids()</code> Method</strong>: tokenizer output (BatchEncoding) မှ token တစ်ခုစီသည် မည်သည့် input sequence (question သို့မဟုတ် context) နှင့် သက်ဆိုင်သည်ကို ပြန်ပေးသော method။</li> <li><strong><code>BatchEncoding</code></strong>: tokenizer output ၏ class။</li> <li><strong>DistilBERT</strong>: BERT model ၏ ပိုမိုသေးငယ်ပြီး မြန်ဆန်သော version။</li> <li><strong><code>strip()</code> Method</strong>: string ၏ အစနှင့်အဆုံးမှ spaces များကို ဖယ်ရှားသော Python string method။</li> <li><strong>RoBERTa</strong>: BERT ကို အခြေခံထားသော language model တစ်ခုဖြစ်ပြီး pretraining လုပ်ငန်းစဉ်ကို ပြောင်းလဲထားသည်။</li> <li><strong><code>Dataset.map()</code> Method</strong>: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။</li> <li><strong><code>batched=True</code></strong>: <code>map()</code> method မှာ အသုံးပြုသော argument တစ်ခုဖြစ်ပြီး function ကို dataset ရဲ့ element အများအပြားပေါ်မှာ တစ်ပြိုင်နက်တည်း အသုံးပြုစေသည်။</li> <li><strong><code>remove_columns</code></strong>: <code>map()</code> method တွင် ပြန်ပေးသော dataset မှ ဖယ်ရှားလိုသော columns များ။</li> <li><strong>Validation Loss</strong>: Validation set ပေါ်တွင် တွက်ချက်ထားသော loss function တန်ဖိုး။</li> <li><strong>Post-processing</strong>: Model ၏ output များကို နောက်ဆုံးအသုံးပြုမှုအတွက် ပြင်ဆင်ခြင်း လုပ်ငန်းစဉ်။</li> <li><strong><code>example_id</code></strong>: မူရင်း dataset ထဲက example တစ်ခုစီအတွက် ထူးခြားသော ID။</li> <li><strong><code>enumerate()</code></strong>: iterable တစ်ခုကို loop လုပ်နေစဉ် index နှင့် value နှစ်ခုစလုံးကို ပြန်ပေးသော Python function။</li> <li><strong><code>AutoModelForQuestionAnswering</code></strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ class တစ်ခုဖြစ်ပြီး question answering task အတွက် သက်ဆိုင်ရာ model ကို အလိုအလျောက် load လုပ်ပေးသည်။</li> <li><strong><code>TFAutoModelForQuestionAnswering</code></strong>: TensorFlow framework အတွက် <code>AutoModelForQuestionAnswering</code> နှင့် တူညီသော class။</li> <li><strong><code>n_best</code></strong>: အကောင်းဆုံး logit scores ရှိသော အဖြေအရေအတွက်။</li> <li><strong><code>max_answer_length</code></strong>: ခန့်မှန်းထားသော အဖြေ၏ အမြင့်ဆုံး token length။</li> <li><strong><code>np.argsort()</code></strong>: NumPy array ၏ elements များကို sort လုပ်ပြီး original indices များကို ပြန်ပေးသော function။</li> <li><strong><code>tolist()</code> Method</strong>: NumPy array ကို Python list အဖြစ် ပြောင်းလဲသော method။</li> <li><strong><code>logit_score</code></strong>: start logit နှင့် end logit တို့၏ ပေါင်းလဒ် (သို့မဟုတ် product)။</li> <li><strong><code>collections.defaultdict(list)</code></strong>: Default value အဖြစ် list ကို အသုံးပြုသော dictionary။</li> <li><strong><code>evaluate.load("squad")</code></strong>: 🤗 Evaluate library မှ SQuAD metric ကို load လုပ်ခြင်း။</li> <li><strong><code>exact_match</code></strong>: ခန့်မှန်းထားသော အဖြေသည် ground truth အဖြေနှင့် တိကျစွာ ကိုက်ညီခြင်းရှိမရှိ တိုင်းတာသော metric။</li> <li><strong><code>f1</code></strong>: Precision နှင့် Recall တို့၏ harmonic mean ကို တွက်ချက်သော metric။</li> <li><strong>Precision</strong>: positive ဟု ခန့်မှန်းထားသော instances များထဲမှ မှန်ကန်စွာ positive ဖြစ်သော instances အရေအတွက်။</li> <li><strong>Recall</strong>: အမှန်တကယ် positive ဖြစ်သော instances များထဲမှ မှန်ကန်စွာ positive ဟု ခန့်မှန်းနိုင်သော instances အရေအတွက်။</li> <li><strong>Ground Truth</strong>: dataset တွင် ဖော်ပြထားသော မှန်ကန်သည့် အဖြေများ။</li> <li><strong>Baseline Scores</strong>: သုတေသနစာတမ်းများတွင် ဖော်ပြထားသော မော်ဒယ်တစ်ခု၏ အခြေခံစွမ်းဆောင်ရည်။</li> <li><strong><code>compute_metrics()</code> Function</strong>: model ၏ predictions များကို အကဲဖြတ်ပြီး metrics များကို တွက်ချက်ပေးသော function။</li> <li><strong><code>eval_preds</code></strong>: <code>Trainer</code> မှ <code>compute_metrics()</code> function သို့ ပေးပို့သော predictions နှင့် labels များပါဝင်သော tuple။</li> <li><strong><code>tqdm.auto</code></strong>: Progress bar ကို ဖန်တီးရန်အတွက် library။</li> <li><strong><code>Trainer</code> Class</strong>: Hugging Face Transformers library မှ model များကို လေ့ကျင့်ရန်အတွက် မြင့်မားသောအဆင့် API။</li> <li><strong>Weights</strong>: Neural network model ၏ လေ့ကျင့်နိုင်သော parameters များ။</li> <li><strong>Pretraining Head</strong>: pretrained model ၏ နောက်ဆုံး layer များ။</li> <li><strong>Question Answering Head</strong>: Question Answering task အတွက် အထူးဒီဇိုင်းထုတ်ထားသော model ၏ နောက်ဆုံး layer များ။</li> <li><strong><code>huggingface_hub.notebook_login()</code></strong>: Jupyter/Colab Notebooks များတွင် Hugging Face Hub သို့ login ဝင်ရန် အသုံးပြုသော function။</li> <li><strong><code>huggingface-cli login</code></strong>: Command line interface မှတစ်ဆင့် Hugging Face Hub သို့ login ဝင်ရန် command။</li> <li><strong><code>TrainingArguments</code></strong>: Hugging Face Transformers library မှ training လုပ်ငန်းစဉ်အတွက် hyperparameters နှင့် အခြား arguments များကို သတ်မှတ်ရန် class။</li> <li><strong><code>evaluation_strategy="no"</code></strong>: training လုပ်နေစဉ် evaluation မလုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>save_strategy="epoch"</code></strong>: epoch တိုင်းအဆုံးတွင် model ကို save လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>learning_rate</code></strong>: Training လုပ်ငန်းစဉ်အတွင်း model ၏ weights များကို မည်မျှပြောင်းလဲရမည်ကို ထိန်းချုပ်သော parameter။</li> <li><strong><code>num_train_epochs</code></strong>: Model ကို training dataset တစ်ခုလုံးဖြင့် လေ့ကျင့်သည့် အကြိမ်အရေအတွက်။</li> <li><strong><code>weight_decay</code></strong>: Overfitting ကို လျှော့ချရန်အတွက် model ၏ weights များကို ပုံမှန်ပြုလုပ်သော နည်းလမ်း။</li> <li><strong><code>fp16=True</code></strong>: Mixed-precision training ကို ဖွင့်ရန် (floating point 16-bit)။</li> <li><strong>Mixed-precision Training</strong>: Floating point formats (ဥပမာ- FP16 နှင့် FP32) နှစ်မျိုးလုံးကို အသုံးပြုပြီး training ကို အရှိန်မြှင့်တင်ခြင်း။</li> <li><strong><code>push_to_hub=True</code></strong>: training ပြီးဆုံးပြီးနောက် model ကို Hugging Face Hub သို့ push လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>DefaultDataCollator</code></strong>: Transformers library မှ default data collator ဖြစ်ပြီး inputs များကို batch အလိုက် စုစည်းပေးသည်။</li> <li><strong><code>return_tensors="tf"</code></strong>: <code>DefaultDataCollator</code> တွင် output Tensors များကို TensorFlow format အဖြစ် ပြန်ပေးရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>model.prepare_tf_dataset()</code></strong>: TensorFlow model အတွက် Hugging Face dataset ကို TensorFlow <code>tf.data.Dataset</code> အဖြစ် ပြင်ဆင်ရန် method။</li> <li><strong><code>collate_fn</code></strong>: <code>DataLoader</code> သို့မဟုတ် <code>prepare_tf_dataset</code> တွင် batch တစ်ခုအတွင်း samples များကို စုစည်းပေးသော function။</li> <li><strong><code>shuffle=True</code></strong>: dataset ကို shuffle လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>batch_size</code></strong>: training လုပ်ငန်းစဉ်တစ်ခုစီတွင် model သို့ ပေးပို့သော input samples အရေအတွက်။</li> <li><strong><code>create_optimizer</code></strong>: Transformers library မှ optimizer နှင့် learning rate schedule ကို ဖန်တီးရန် function။</li> <li><strong><code>init_lr</code></strong>: စတင် learning rate။</li> <li><strong><code>num_warmup_steps</code></strong>: learning rate ကို ဖြည်းဖြည်းချင်း တိုးမြှင့်ပေးမည့် steps အရေအတွက်။</li> <li><strong><code>num_train_steps</code></strong>: စုစုပေါင်း training steps အရေအတွက်။</li> <li><strong><code>weight_decay_rate</code></strong>: weight decay ၏ strength။</li> <li><strong><code>model.compile()</code></strong>: Keras model ကို training အတွက် ပြင်ဆင်ရန် method (optimizer, loss function, metrics များကို သတ်မှတ်သည်)။</li> <li><strong><code>tf.keras.mixed_precision.set_global_policy("mixed_float16")</code></strong>: TensorFlow တွင် global mixed-precision policy ကို float16 အဖြစ် သတ်မှတ်ခြင်း။</li> <li><strong><code>model.fit()</code></strong>: Keras model ကို training လုပ်ရန် method။</li> <li><strong><code>PushToHubCallback</code></strong>: Keras callback တစ်ခုဖြစ်ပြီး training လုပ်နေစဉ်အတွင်း model ကို Hugging Face Hub သို့ upload လုပ်ရန်။</li> <li><strong><code>output_dir</code></strong>: model files များကို သိမ်းဆည်းမည့် directory။</li> <li><strong><code>hub_model_id</code></strong>: Hugging Face Hub ပေါ်ရှိ model repository ၏ ID (ဥပမာ- “sgugger/bert-finetuned-squad”)။</li> <li><strong><code>Trainer.train()</code></strong>: <code>Trainer</code> class ကို အသုံးပြု၍ model ကို training လုပ်ရန် method။</li> <li><strong>Namespace</strong>: Hugging Face Hub တွင် သုံးစွဲသူအမည် သို့မဟုတ် organization အမည်။</li> <li><strong>Local Clone</strong>: Git repository တစ်ခု၏ သင့် local machine ပေါ်ရှိ မိတ္တူ။</li> <li><strong>Resume Training</strong>: training ကို ရပ်တန့်ခဲ့သော နေရာမှ ပြန်လည်စတင်ခြင်း။</li> <li><strong>Compute Time</strong>: training သို့မဟုတ် inference လုပ်ငန်းများအတွက် လိုအပ်သော processor အချိန်။</li> <li><strong>Titan RTX</strong>: NVIDIA မှ ထုတ်လုပ်သော မြင့်မားသော စွမ်းဆောင်ရည်ရှိ GPU ကတ်။</li> <li><strong>Epoch</strong>: training dataset တစ်ခုလုံးကို model က တစ်ကြိမ် ဖြတ်သန်းခြင်း။</li> <li><strong>Trainer.predict()</strong>: <code>Trainer</code> class ကို အသုံးပြု၍ model ၏ predictions များကို ရယူရန် method။</li> <li><strong>Baseline Scores</strong>: သုတေသနစာတမ်းများတွင် ဖော်ပြထားသော မော်ဒယ်တစ်ခု၏ အခြေခံစွမ်းဆောင်ရည်။</li> <li><strong><code>trainer.push_to_hub()</code></strong>: <code>Trainer</code> class မှ model ကို Hugging Face Hub သို့ push လုပ်ရန် method။</li> <li><strong>Commit Message</strong>: Git commit တစ်ခုကို ဖော်ပြသော စာသား။</li> <li><strong>Inference Widget</strong>: Hugging Face Hub ပေါ်တွင် model ၏ စွမ်းဆောင်ရည်ကို တိုက်ရိုက်စမ်းသပ်နိုင်သော interactive tool။</li> <li><strong><code>DataLoader</code></strong>: Dataset ကနေ data တွေကို batch အလိုက် load လုပ်ပေးတဲ့ PyTorch utility class။</li> <li><strong><code>default_data_collator</code></strong>: Hugging Face Transformers library မှ default data collator ဖြစ်ပြီး inputs များကို batch အလိုက် စုစည်းပေးသည်။</li> <li><strong><code>collate_fn</code></strong>: <code>DataLoader</code> တွင် batch တစ်ခုအတွင်း samples များကို စုစည်းပေးသော function။</li> <li><strong><code>shuffle=True</code></strong>: training dataset ကို shuffle လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>AdamW</code></strong>: PyTorch မှာ အသုံးပြုတဲ့ AdamW optimizer။ Model ၏ parameters များကို training လုပ်ရာမှာ အသုံးပြုသည်။</li> <li><strong><code>model.parameters()</code></strong>: model ၏ လေ့ကျင့်နိုင်သော parameters (weights နှင့် biases) များကို ပြန်ပေးသော method။</li> <li><strong><code>lr</code></strong>: Learning rate။</li> <li><strong><code>accelerator.prepare()</code> Method</strong>: 🤗 Accelerate library တွင် model, optimizer, dataloaders များကို distributed training အတွက် ပြင်ဆင်ရန် method။</li> <li><strong>TPUs (Tensor Processing Units)</strong>: Google မှ AI/ML workloads များအတွက် အထူးဒီဇိုင်းထုတ်ထားသော processor တစ်မျိုး။</li> <li><strong><code>Accelerator</code></strong>: 🤗 Accelerate library ၏ အဓိက class။</li> <li><strong><code>get_scheduler</code></strong>: Transformers library မှ learning rate scheduler ကို ဖန်တီးရန် function။</li> <li><strong><code>linear</code> (Scheduler Type)</strong>: Learning rate ကို training steps အလိုက် linear ပုံစံဖြင့် လျှော့ချပေးသော scheduler အမျိုးအစား။</li> <li><strong><code>num_warmup_steps</code></strong>: learning rate ကို ဖြည်းဖြည်းချင်း တိုးမြှင့်ပေးမည့် steps အရေအတွက်။</li> <li><strong><code>Repository</code> Object</strong>: <code>huggingface_hub</code> library မှ Git repository များကို ကိုင်တွယ်ရန်အတွက် class။</li> <li><strong><code>get_full_repo_name()</code> Function</strong>: Hugging Face Hub ပေါ်ရှိ repository ၏ full name (username/repo_name) ကို ရယူရန် function။</li> <li><strong><code>clone_from</code></strong>: <code>Repository</code> class တွင် remote repository မှ clone လုပ်ရန် သတ်မှတ်ခြင်း။</li> <li><strong><code>blocking=False</code></strong>: <code>push_to_hub()</code> method တွင် push လုပ်ငန်းစဉ်ကို asynchronous (background) တွင် လုပ်ဆောင်ရန် သတ်မှတ်ခြင်း။</li> <li><strong>Asynchronous Process</strong>: အခြားလုပ်ငန်းများ ဆက်လက်လုပ်ဆောင်နေစဉ် နောက်ခံတွင် လုပ်ဆောင်နေသော လုပ်ငန်းစဉ်။</li> <li><strong><code>model.train()</code></strong>: model ကို training mode သို့ ပြောင်းလဲခြင်း။</li> <li><strong><code>model.eval()</code></strong>: model ကို evaluation mode သို့ ပြောင်းလဲခြင်း။</li> <li><strong><code>accelerator.backward(loss)</code></strong>: <code>loss</code> ကို အသုံးပြု၍ backpropagation ကို လုပ်ဆောင်ရန် 🤗 Accelerate method။</li> <li><strong><code>optimizer.step()</code></strong>: တွက်ချက်ထားသော gradients များကို အသုံးပြုပြီး model ၏ parameters များကို update လုပ်သော optimizer method။</li> <li><strong><code>lr_scheduler.step()</code></strong>: Learning rate scheduler ကို update လုပ်သော method။</li> <li><strong><code>optimizer.zero_grad()</code></strong>: optimizer ၏ gradients များကို သုညသို့ သတ်မှတ်ခြင်း။</li> <li><strong><code>torch.no_grad()</code></strong>: PyTorch တွင် gradient တွက်ချက်ခြင်းကို ပိတ်ရန် context manager။</li> <li><strong><code>accelerator.gather()</code></strong>: Distributed training တွင် processes အားလုံးမှ Tensors များကို စုစည်းရန် 🤗 Accelerate method။</li> <li><strong><code>np.concatenate()</code></strong>: NumPy arrays များကို ပေါင်းစပ်ရန် function။</li> <li><strong><code>accelerator.wait_for_everyone()</code></strong>: Distributed training တွင် processes အားလုံးက သတ်မှတ်ထားသော အမှတ်အထိ ရောက်သည်အထိ စောင့်ဆိုင်းရန် 🤗 Accelerate method။</li> <li><strong><code>accelerator.unwrap_model(model)</code></strong>: Distributed training အတွက် ပြင်ဆင်ထားသော model မှ base model ကို ပြန်လည်ရယူရန် 🤗 Accelerate method။</li> <li><strong><code>unwrapped_model.save_pretrained(output_dir, save_function=accelerator.save)</code></strong>: model ကို output directory ထဲသို့ save လုပ်ရန် (🤗 Accelerate ရဲ့ save function ကို အသုံးပြုသည်)။</li> <li><strong><code>accelerator.is_main_process</code></strong>: လက်ရှိ process က main process ဟုတ်မဟုတ်ကို စစ်ဆေးသော attribute။</li> <li><strong><code>tokenizer.save_pretrained(output_dir)</code></strong>: tokenizer ကို output directory ထဲသို့ save လုပ်ရန် method။</li> <li><strong><code>pipeline("question-answering", model=model_checkpoint)</code></strong>: Hugging Face Transformers library မှ question answering pipeline ကို model checkpoint သတ်မှတ်ပြီး ဖန်တီးခြင်း။</li> <li><strong><code>Jax</code></strong>: Google မှ ဖန်တီးထားသော High-performance numerical computation library။</li> <li><strong><code>PyTorch</code></strong>: Facebook (ယခု Meta) က ဖန်တီးထားတဲ့ open-source machine learning library တစ်ခုဖြစ်ပြီး deep learning မော်ဒယ်တွေ တည်ဆောက်ဖို့အတွက် အသုံးပြုပါတယ်။</li> <li><strong><code>TensorFlow</code></strong>: Google က ဖန်တီးထားတဲ့ open-source machine learning library တစ်ခုဖြစ်ပြီး deep learning မော်ဒယ်တွေ တည်ဆောက်ဖို့အတွက် အသုံးပြုပါတယ်။</li> <li><strong>Seamless Integration</strong>: ကိရိယာများ သို့မဟုတ် စနစ်များကြား ချောမွေ့စွာ ချိတ်ဆက် လုပ်ဆောင်နိုင်ခြင်း။</li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/my/chapter7/7.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p> | |
| <script> | |
| { | |
| __sveltekit_5q47hu = { | |
| assets: "/docs/course/pr_1095/my", | |
| base: "/docs/course/pr_1095/my", | |
| env: {} | |
| }; | |
| const element = document.currentScript.parentElement; | |
| const data = [null,null]; | |
| Promise.all([ | |
| import("/docs/course/pr_1095/my/_app/immutable/entry/start.8e25cab6.js"), | |
| import("/docs/course/pr_1095/my/_app/immutable/entry/app.b12ce275.js") | |
| ]).then(([kit, app]) => { | |
| kit.start(app, element, { | |
| node_ids: [0, 83], | |
| data, | |
| form: null, | |
| error: null | |
| }); | |
| }); | |
| } | |
| </script> | |
Xet Storage Details
- Size:
- 281 kB
- Xet hash:
- 90f3c073699738de378beaa04f7c03ea9e3eb2495b4ed31e5b8eed4dded9fc58
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.