Buckets:
| <meta charset="utf-8" /><meta name="hf:doc:metadata" content="{"title":"Big Data လား။ 🤗 Datasets က ကယ်တင်ပါလိမ့်မယ်!","local":"big-data-datasets-to-the-rescue","sections":[{"title":"The Pile ဆိုတာ ဘာလဲ။","local":"what-is-the-pile","sections":[],"depth":2},{"title":"Memory Mapping ၏ မှော်ပညာ","local":"the-magic-of-memory-mapping","sections":[],"depth":2},{"title":"Streaming Datasets များ","local":"streaming-datasets","sections":[],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"> | |
| <link href="/docs/course/pr_1114/my/_app/immutable/assets/0.e3b0c442.css" rel="modulepreload"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/entry/start.14794ee9.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/scheduler.893fe8c9.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/singletons.10fda3ce.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/index.bce52c8a.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/paths.89c82153.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/entry/app.a133f5c6.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/preload-helper.b1a719fd.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/index.b1df2166.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/nodes/0.510afdc1.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/each.e59479a4.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/nodes/39.8f6d27ed.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/MermaidChart.svelte_svelte_type_style_lang.762ed9cc.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/Youtube.ec5d7916.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/CodeBlock.6cef0479.js"> | |
| <link rel="modulepreload" href="/docs/course/pr_1114/my/_app/immutable/chunks/CourseFloatingBanner.c1c08878.js"><!-- HEAD_svelte-u9bgzb_START --><meta name="hf:doc:metadata" content="{"title":"Big Data လား။ 🤗 Datasets က ကယ်တင်ပါလိမ့်မယ်!","local":"big-data-datasets-to-the-rescue","sections":[{"title":"The Pile ဆိုတာ ဘာလဲ။","local":"what-is-the-pile","sections":[],"depth":2},{"title":"Memory Mapping ၏ မှော်ပညာ","local":"the-magic-of-memory-mapping","sections":[],"depth":2},{"title":"Streaming Datasets များ","local":"streaming-datasets","sections":[],"depth":2},{"title":"ဝေါဟာရ ရှင်းလင်းချက် (Glossary)","local":"ဝဟရ-ရငလငခက-glossary","sections":[],"depth":2}],"depth":1}"><!-- HEAD_svelte-u9bgzb_END --> <p></p> <div class="items-center shrink-0 min-w-[100px] max-sm:min-w-[50px] justify-end ml-auto flex" style="float: right; margin-left: 10px; display: inline-flex; position: relative; z-index: 10;"><div class="inline-flex rounded-md max-sm:rounded-sm"><button class="inline-flex items-center gap-1 max-sm:gap-0.5 h-6 max-sm:h-5 px-2 max-sm:px-1.5 text-[11px] max-sm:text-[9px] font-medium text-gray-800 border border-r-0 rounded-l-md max-sm:rounded-l-sm border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-live="polite"><span class="inline-flex items-center justify-center rounded-md p-0.5 max-sm:p-0"><svg class="w-3 h-3 max-sm:w-2.5 max-sm:h-2.5" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg></span> <span>Copy page</span></button> <button class="inline-flex items-center justify-center w-6 max-sm:w-5 h-6 max-sm:h-5 disabled:pointer-events-none text-sm text-gray-500 hover:text-gray-700 dark:hover:text-white rounded-r-md max-sm:rounded-r-sm border border-l transition border-gray-200 bg-white hover:shadow-inner dark:border-gray-850 dark:bg-gray-950 dark:text-gray-200 dark:hover:bg-gray-800" aria-haspopup="menu" aria-expanded="false" aria-label="Open copy menu"><svg class="transition-transform text-gray-400 overflow-visible w-3 h-3 max-sm:w-2.5 max-sm:h-2.5 rotate-0" width="1em" height="1em" viewBox="0 0 12 7" fill="none" xmlns="http://www.w3.org/2000/svg"><path d="M1 1L6 6L11 1" stroke="currentColor"></path></svg></button></div> </div> <h1 class="relative group"><a id="big-data-datasets-to-the-rescue" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#big-data-datasets-to-the-rescue"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Big Data လား။ 🤗 Datasets က ကယ်တင်ပါလိမ့်မယ်!</span></h1> <div class="flex space-x-1 absolute z-10 right-0 top-0" style=""><a href="https://discuss.huggingface.co/t/chapter-5-questions" target="_blank"><img alt="Ask a Question" class="!m-0" src="https://img.shields.io/badge/Ask%20a%20question-ffcb4c.svg?logo=data:image/svg+xml;base64,PHN2ZyB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciIHZpZXdCb3g9IjAgLTEgMTA0IDEwNiI+PGRlZnM+PHN0eWxlPi5jbHMtMXtmaWxsOiMyMzFmMjA7fS5jbHMtMntmaWxsOiNmZmY5YWU7fS5jbHMtM3tmaWxsOiMwMGFlZWY7fS5jbHMtNHtmaWxsOiMwMGE5NGY7fS5jbHMtNXtmaWxsOiNmMTVkMjI7fS5jbHMtNntmaWxsOiNlMzFiMjM7fTwvc3R5bGU+PC9kZWZzPjx0aXRsZT5EaXNjb3Vyc2VfbG9nbzwvdGl0bGU+PGcgaWQ9IkxheWVyXzIiPjxnIGlkPSJMYXllcl8zIj48cGF0aCBjbGFzcz0iY2xzLTEiIGQ9Ik01MS44NywwQzIzLjcxLDAsMCwyMi44MywwLDUxYzAsLjkxLDAsNTIuODEsMCw1Mi44MWw1MS44Ni0uMDVjMjguMTYsMCw1MS0yMy43MSw1MS01MS44N1M4MCwwLDUxLjg3LDBaIi8+PHBhdGggY2xhc3M9ImNscy0yIiBkPSJNNTIuMzcsMTkuNzRBMzEuNjIsMzEuNjIsMCwwLDAsMjQuNTgsNjYuNDFsLTUuNzIsMTguNEwzOS40LDgwLjE3YTMxLjYxLDMxLjYxLDAsMSwwLDEzLTYwLjQzWiIvPjxwYXRoIGNsYXNzPSJjbHMtMyIgZD0iTTc3LjQ1LDMyLjEyYTMxLjYsMzEuNiwwLDAsMS0zOC4wNSw0OEwxOC44Niw4NC44MmwyMC45MS0yLjQ3QTMxLjYsMzEuNiwwLDAsMCw3Ny40NSwzMi4xMloiLz48cGF0aCBjbGFzcz0iY2xzLTQiIGQ9Ik03MS42MywyNi4yOUEzMS42LDMxLjYsMCwwLDEsMzguOCw3OEwxOC44Niw4NC44MiwzOS40LDgwLjE3QTMxLjYsMzEuNiwwLDAsMCw3MS42MywyNi4yOVoiLz48cGF0aCBjbGFzcz0iY2xzLTUiIGQ9Ik0yNi40Nyw2Ny4xMWEzMS42MSwzMS42MSwwLDAsMSw1MS0zNUEzMS42MSwzMS42MSwwLDAsMCwyNC41OCw2Ni40MWwtNS43MiwxOC40WiIvPjxwYXRoIGNsYXNzPSJjbHMtNiIgZD0iTTI0LjU4LDY2LjQxQTMxLjYxLDMxLjYxLDAsMCwxLDcxLjYzLDI2LjI5YTMxLjYxLDMxLjYxLDAsMCwwLTQ5LDM5LjYzbC0zLjc2LDE4LjlaIi8+PC9nPjwvZz48L3N2Zz4="></a> <a href="https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/en/chapter5/section4.ipynb" target="_blank"><img alt="Open In Colab" class="!m-0" src="https://colab.research.google.com/assets/colab-badge.svg"></a> <a href="https://studiolab.sagemaker.aws/import/github/huggingface/notebooks/blob/master/course/en/chapter5/section4.ipynb" target="_blank"><img alt="Open In Studio Lab" class="!m-0" src="https://studiolab.sagemaker.aws/studiolab.svg"></a></div> <p data-svelte-h="svelte-sm0y6e">ဒီဘက်ခေတ်မှာ multi-gigabyte datasets တွေနဲ့ အလုပ်လုပ်ရတာ မဆန်းပါဘူး။ အထူးသဖြင့် BERT ဒါမှမဟုတ် GPT-2 လို transformer တစ်ခုကို အစကနေ pretrain လုပ်ဖို့ စီစဉ်နေတယ်ဆိုရင်ပေါ့။ ဒီလိုကိစ္စတွေမှာ၊ data တွေကို <em>loading</em> လုပ်တာကတောင် စိန်ခေါ်မှုတစ်ခု ဖြစ်နိုင်ပါတယ်။ ဥပမာအားဖြင့်၊ GPT-2 ကို pretrain လုပ်ဖို့ အသုံးပြုခဲ့တဲ့ WebText corpus မှာ document ပေါင်း ၈ သန်းကျော်နဲ့ 40 GB စာသားတွေ ပါဝင်ပါတယ်၊ ဒါကို သင့် laptop ရဲ့ RAM ထဲကို loading လုပ်တာက သင့် laptop ကို ဒုက္ခပေးနိုင်ပါတယ်။</p> <p data-svelte-h="svelte-oziqwm">ကံကောင်းစွာနဲ့ပဲ၊ 🤗 Datasets ကို ဒီကန့်သတ်ချက်တွေကို ကျော်လွှားနိုင်ဖို့ ဒီဇိုင်းထုတ်ထားတာပါ။ ၎င်းက datasets တွေကို <em>memory-mapped</em> files တွေအဖြစ် သတ်မှတ်ပြီး memory management ပြဿနာတွေကနေ သင့်ကို ကင်းဝေးစေပါတယ်။ ပြီးတော့ corpus ထဲက entries တွေကို <em>streaming</em> လုပ်ခြင်းအားဖြင့် hard drive ကန့်သတ်ချက်တွေကနေလည်း ကင်းဝေးစေပါတယ်။</p> <iframe class="w-full xl:w-4/6 h-80" src="https://www.youtube-nocookie.com/embed/JwISwTCPPWo" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe> <p data-svelte-h="svelte-1argo1k">ဒီအပိုင်းမှာတော့ 🤗 Datasets ရဲ့ ဒီ features တွေကို the Pile (825 GB corpus) နဲ့အတူ လေ့လာသွားမှာပါ။ စတင်လိုက်ရအောင်!</p> <h2 class="relative group"><a id="what-is-the-pile" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#what-is-the-pile"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>The Pile ဆိုတာ ဘာလဲ။</span></h2> <p data-svelte-h="svelte-jf0hp6">The Pile ဟာ large-scale language models တွေကို training လုပ်ဖို့အတွက် <a href="https://www.eleuther.ai" rel="nofollow">EleutherAI</a> က ဖန်တီးခဲ့တဲ့ English text corpus တစ်ခုပါ။ ၎င်းမှာ သိပ္ပံဆိုင်ရာဆောင်းပါးတွေ၊ GitHub code repositories တွေနဲ့ filter လုပ်ထားတဲ့ web text တွေ ပါဝင်တဲ့ မတူကွဲပြားတဲ့ datasets များစွာ ပါဝင်ပါတယ်။ training corpus ကို <a href="https://the-eye.eu/public/AI/pile/" rel="nofollow">14 GB chunks</a> အဖြစ် ရရှိနိုင်ပြီး၊ <a href="https://the-eye.eu/public/AI/pile_preliminary_components/" rel="nofollow">individual components</a> အချို့ကိုလည်း download လုပ်နိုင်ပါတယ်။ PubMed Abstracts dataset ကို အရင်ကြည့်ရအောင်။ ဒါက <a href="https://pubmed.ncbi.nlm.nih.gov/" rel="nofollow">PubMed</a> က biomedical publications ၁၅ သန်းက abstracts တွေရဲ့ corpus တစ်ခုပါ။ dataset က <a href="https://jsonlines.org" rel="nofollow">JSON Lines format</a> နဲ့ <code>zstandard</code> library ကို အသုံးပြုပြီး compressed လုပ်ထားတာကြောင့်၊ အရင်ဆုံး အဲဒါကို install လုပ်ဖို့ လိုအပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->!pip install zstandard<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1rubapw">နောက်တစ်ခုကတော့ <a href="/course/chapter5/2">section 2</a> မှာ ကျွန်တော်တို့ သင်ယူခဲ့တဲ့ remote files တွေအတွက် method ကို အသုံးပြုပြီး dataset ကို load လုပ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> load_dataset | |
| <span class="hljs-comment"># ဒါက အချိန်အနည်းငယ် ကြာနိုင်ပါတယ်၊ ဒါကြောင့် သင်စောင့်နေတုန်း လက်ဖက်ရည် ဒါမှမဟုတ် ကော်ဖီတစ်ခွက်လောက် သွားယူလိုက်ပါ :)</span> | |
| data_files = <span class="hljs-string">"https://the-eye.eu/public/AI/pile_preliminary_components/PUBMED_title_abstracts_2019_baseline.jsonl.zst"</span> | |
| pubmed_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files, split=<span class="hljs-string">"train"</span>) | |
| pubmed_dataset<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->Dataset({ | |
| features: [<span class="hljs-string">'meta'</span>, <span class="hljs-string">'text'</span>], | |
| num_rows: <span class="hljs-number">15518009</span> | |
| })<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-10mcmj1">ကျွန်တော်တို့ရဲ့ dataset မှာ rows ပေါင်း ၁၅,၅၁၈,၀၀၉ ခုနဲ့ columns ၂ ခု ရှိတယ်ဆိုတာ တွေ့နိုင်ပါတယ်၊ ဒါက အများကြီးပါပဲ!</p> <blockquote class="tip" data-svelte-h="svelte-2xidt7"><p>✎ default အားဖြင့်၊ 🤗 Datasets က dataset တစ်ခုကို load လုပ်ဖို့ လိုအပ်တဲ့ files တွေကို decompress လုပ်ပါလိမ့်မယ်။ hard drive space ကို ချွေတာချင်တယ်ဆိုရင်၊ <code>DownloadConfig(delete_extracted=True)</code> ကို <code>load_dataset()</code> ရဲ့ <code>download_config</code> argument သို့ ပေးပို့နိုင်ပါတယ်။ အသေးစိတ်အချက်အလက်တွေအတွက် <a href="https://huggingface.co/docs/datasets/package_reference/builder_classes#datasets.DownloadConfig" rel="nofollow">documentation</a> ကို ကြည့်ပါ။</p></blockquote> <p data-svelte-h="svelte-wigmm">ပထမဆုံး ဥပမာရဲ့ အကြောင်းအရာတွေကို စစ်ဆေးကြည့်ရအောင်…</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->pubmed_dataset[<span class="hljs-number">0</span>]<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1mt52dt">ကောင်းပါပြီ၊ ဒါက ဆေးဘက်ဆိုင်ရာ ဆောင်းပါးတစ်စောင်ရဲ့ abstract လိုပါပဲ။ အခု dataset ကို load လုပ်ဖို့ ကျွန်တော်တို့ ဘယ်လောက် RAM အသုံးပြုခဲ့လဲဆိုတာ ကြည့်ရအောင်!</p> <h2 class="relative group"><a id="the-magic-of-memory-mapping" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#the-magic-of-memory-mapping"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Memory Mapping ၏ မှော်ပညာ</span></h2> <p data-svelte-h="svelte-1pmrk51">Python မှာ memory အသုံးပြုမှုကို တိုင်းတာဖို့ ရိုးရှင်းတဲ့နည်းလမ်းက <a href="https://psutil.readthedocs.io/en/latest/" rel="nofollow"><code>psutil</code></a> library နဲ့ပါ။ ဒါကို <code>pip</code> နဲ့ အောက်ပါအတိုင်း install လုပ်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->!pip install psutil<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1c0e7z3">ဒါက ကျွန်တော်တို့ လက်ရှိ process ရဲ့ memory အသုံးပြုမှုကို အောက်ပါအတိုင်း စစ်ဆေးနိုင်တဲ့ <code>Process</code> class တစ်ခုကို ပံ့ပိုးပေးပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> psutil | |
| <span class="hljs-comment"># Process.memory_info ကို bytes ဖြင့် ဖော်ပြထားသောကြောင့် megabytes သို့ ပြောင်းပါ။</span> | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"RAM used: <span class="hljs-subst">{psutil.Process().memory_info().rss / (<span class="hljs-number">1024</span> * <span class="hljs-number">1024</span>):<span class="hljs-number">.2</span>f}</span> MB"</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->RAM used: <span class="hljs-number">5678.33</span> MB<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-12iyhxg">ဒီနေရာမှာ <code>rss</code> attribute က <em>resident set size</em> ကို ရည်ညွှန်းပြီး၊ ဒါက process တစ်ခုက RAM မှာ နေရာယူထားတဲ့ memory ရဲ့ အစိတ်အပိုင်းပါ။ ဒီတိုင်းတာမှုမှာ Python interpreter နဲ့ ကျွန်တော်တို့ load လုပ်ထားတဲ့ libraries တွေ အသုံးပြုတဲ့ memory လည်း ပါဝင်တာကြောင့်၊ dataset ကို load လုပ်ဖို့ အသုံးပြုခဲ့တဲ့ အမှန်တကယ် memory ပမာဏက နည်းနည်း ပိုနည်းပါတယ်။ နှိုင်းယှဉ်ဖို့အတွက်၊ <code>dataset_size</code> attribute ကို အသုံးပြုပြီး disk ပေါ်မှာ dataset က ဘယ်လောက်ကြီးလဲဆိုတာ ကြည့်ရအောင်။ ရလဒ်က အရင်ကလို bytes နဲ့ ဖော်ပြထားတာကြောင့်၊ ဒါကို gigabytes သို့ ကိုယ်တိုင် ပြောင်းဖို့ လိုအပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">print</span>(<span class="hljs-string">f"Dataset size in bytes: <span class="hljs-subst">{pubmed_dataset.dataset_size}</span>"</span>) | |
| size_gb = pubmed_dataset.dataset_size / (<span class="hljs-number">1024</span>**<span class="hljs-number">3</span>) | |
| <span class="hljs-built_in">print</span>(<span class="hljs-string">f"Dataset size (cache file) : <span class="hljs-subst">{size_gb:<span class="hljs-number">.2</span>f}</span> GB"</span>)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->Dataset size <span class="hljs-keyword">in</span> <span class="hljs-built_in">bytes</span> : <span class="hljs-number">20979437051</span> | |
| Dataset size (cache file) : <span class="hljs-number">19.54</span> GB<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-i9b113">ကောင်းပါပြီ။ 20 GB နီးပါး ကြီးမားပေမယ့်၊ ကျွန်တော်တို့ dataset ကို RAM နည်းနည်းလေးနဲ့ load လုပ်ပြီး ဝင်ရောက်ကြည့်ရှုနိုင်ပါတယ်။</p> <blockquote class="tip" data-svelte-h="svelte-1xyln8u"><p>✏️ <strong>စမ်းသပ်ကြည့်ပါ။</strong> သင့် laptop သို့မဟုတ် desktop ရဲ့ RAM ထက် ပိုကြီးတဲ့ Pile က <a href="https://the-eye.eu/public/AI/pile_preliminary_components/" rel="nofollow">subsets</a> တစ်ခုကို ရွေးပါ၊ 🤗 Datasets နဲ့ load လုပ်ပါ၊ ပြီးတော့ အသုံးပြုထားတဲ့ RAM ပမာဏကို တိုင်းတာပါ။ တိကျတဲ့ တိုင်းတာမှုတစ်ခု ရဖို့အတွက်၊ ဒါကို process အသစ်တစ်ခုမှာ လုပ်ဖို့ လိုအပ်ပါလိမ့်မယ်။ subset တစ်ခုစီရဲ့ decompress လုပ်ပြီးသား အရွယ်အစားတွေကို <a href="https://arxiv.org/abs/2101.00027" rel="nofollow">the Pile paper</a> ရဲ့ Table 1 မှာ ရှာတွေ့နိုင်ပါတယ်။</p></blockquote> <p data-svelte-h="svelte-jfgyi8">သင် Pandas နဲ့ ရင်းနှီးတယ်ဆိုရင်၊ ဒီရလဒ်က Wes Kinney ရဲ့ နာမည်ကြီး <a href="https://wesmckinney.com/blog/apache-arrow-pandas-internals/" rel="nofollow">rule of thumb</a> ကြောင့် အံ့သြစရာ ဖြစ်နိုင်ပါတယ်။ ဒါက ပုံမှန်အားဖြင့် သင့် dataset ရဲ့ အရွယ်အစားထက် ၅ ဆမှ ၁၀ ဆအထိ RAM လိုအပ်တယ်လို့ ဆိုလိုပါတယ်။ ဒါဆို 🤗 Datasets က ဒီ memory management ပြဿနာကို ဘယ်လိုဖြေရှင်းတာလဲ။ 🤗 Datasets က dataset တစ်ခုစီကို <a href="https://en.wikipedia.org/wiki/Memory-mapped_file" rel="nofollow">memory-mapped file</a> တစ်ခုအဖြစ် သတ်မှတ်ပါတယ်။ ဒါက RAM နဲ့ filesystem storage ကြား mapping တစ်ခုကို ပံ့ပိုးပေးပြီး၊ library က dataset ကို memory ထဲကို အပြည့်အဝ load လုပ်ဖို့မလိုဘဲ dataset ရဲ့ elements တွေကို ဝင်ရောက်ကြည့်ရှုပြီး အလုပ်လုပ်နိုင်စေပါတယ်။</p> <p data-svelte-h="svelte-gpulbv">Memory-mapped files တွေကို processes များစွာကြား မျှဝေနိုင်တာကြောင့်၊ <code>Dataset.map()</code> လို methods တွေကို dataset ကို ရွှေ့ပြောင်းခြင်း ဒါမှမဟုတ် copy လုပ်ဖို့ မလိုဘဲ parallelize လုပ်နိုင်ပါတယ်။ အောက်ခံမှာ၊ ဒီစွမ်းဆောင်ရည်တွေ အားလုံးကို <a href="https://arrow.apache.org" rel="nofollow">Apache Arrow</a> memory format နဲ့ <a href="https://arrow.apache.org/docs/python/index.html" rel="nofollow"><code>pyarrow</code></a> library တွေကနေ အကောင်အထည်ဖော်ထားတာဖြစ်ပြီး၊ ဒါတွေက data loading နဲ့ processing ကို လျှပ်စီးလက်သလို မြန်ဆန်စေပါတယ်။ (Apache Arrow အကြောင်းနဲ့ Pandas နဲ့ နှိုင်းယှဉ်မှုတွေအတွက် <a href="https://towardsdatascience.com/apache-arrow-read-dataframe-with-zero-memory-69634092b1a" rel="nofollow">Dejan Simic ရဲ့ blog post</a> ကို ကြည့်ပါ။) ဒါကို လက်တွေ့မြင်ရဖို့အတွက်၊ PubMed Abstracts dataset ထဲက elements အားလုံးကို iterate လုပ်ပြီး speed test အနည်းငယ် run ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">import</span> timeit | |
| code_snippet = <span class="hljs-string">"""batch_size = 1000 | |
| for idx in range(0, len(pubmed_dataset), batch_size): | |
| _ = pubmed_dataset[idx:idx + batch_size] | |
| """</span> | |
| time = timeit.timeit(stmt=code_snippet, number=<span class="hljs-number">1</span>, <span class="hljs-built_in">globals</span>=<span class="hljs-built_in">globals</span>()) | |
| <span class="hljs-built_in">print</span>( | |
| <span class="hljs-string">f"Iterated over <span class="hljs-subst">{<span class="hljs-built_in">len</span>(pubmed_dataset)}</span> examples (about <span class="hljs-subst">{size_gb:<span class="hljs-number">.1</span>f}</span> GB) in "</span> | |
| <span class="hljs-string">f"<span class="hljs-subst">{time:<span class="hljs-number">.1</span>f}</span>s, i.e. <span class="hljs-subst">{size_gb/time:<span class="hljs-number">.3</span>f}</span> GB/s"</span> | |
| )<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-string">'Iterated over 15518009 examples (about 19.5 GB) in 64.2s, i.e. 0.304 GB/s'</span><!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-10s7fq1">ဒီနေရာမှာ ကျွန်တော်တို့ Python ရဲ့ <code>timeit</code> module ကို အသုံးပြုပြီး <code>code_snippet</code> က ယူခဲ့တဲ့ execution time ကို တိုင်းတာခဲ့ပါတယ်။ သင်ဟာ ပုံမှန်အားဖြင့် GB/s ရဲ့ ဒဿမဂဏန်း အနည်းငယ်ကနေ GB/s အများအပြားအထိ မြန်နှုန်းနဲ့ dataset တစ်ခုကို iterate လုပ်နိုင်ပါလိမ့်မယ်။ ဒါက အသုံးချပရိုဂရမ်အများစုအတွက် ကောင်းမွန်စွာ အလုပ်လုပ်ပါတယ်၊ ဒါပေမယ့် တစ်ခါတစ်ရံမှာ သင့် laptop ရဲ့ hard drive မှာ သိမ်းဆည်းဖို့တောင် အရမ်းကြီးမားတဲ့ dataset တစ်ခုနဲ့ အလုပ်လုပ်ရပါလိမ့်မယ်။ ဥပမာအားဖြင့်၊ ကျွန်တော်တို့ Pile ကို အပြည့်အစုံ download လုပ်ဖို့ ကြိုးစားခဲ့မယ်ဆိုရင်၊ 825 GB free disk space လိုအပ်ပါလိမ့်မယ်! ဒီကိစ္စတွေကို ကိုင်တွယ်ဖို့အတွက်၊ 🤗 Datasets က streaming feature တစ်ခုကို ပံ့ပိုးပေးပြီး dataset တစ်ခုလုံးကို download လုပ်ဖို့မလိုဘဲ elements တွေကို on the fly download လုပ်ပြီး ဝင်ရောက်ကြည့်ရှုနိုင်စေပါတယ်။ ဒါက ဘယ်လိုအလုပ်လုပ်လဲဆိုတာ ကြည့်ရအောင်။</p> <blockquote class="tip" data-svelte-h="svelte-1xin0j2"><p>💡 Jupyter notebooks တွေမှာ <a href="https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit" rel="nofollow"><code>%%timeit</code> magic function</a> ကို အသုံးပြုပြီး cells တွေကိုလည်း time လုပ်နိုင်ပါတယ်။</p></blockquote> <h2 class="relative group"><a id="streaming-datasets" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#streaming-datasets"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>Streaming Datasets များ</span></h2> <p data-svelte-h="svelte-1l85tjb">dataset streaming ကို enable လုပ်ဖို့အတွက် <code>load_dataset()</code> function သို့ <code>streaming=True</code> argument ကို ပေးပို့ဖို့ပဲ လိုပါတယ်။ ဥပမာအားဖြင့်၊ PubMed Abstracts dataset ကို streaming mode မှာ ထပ်မံ load လုပ်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->pubmed_dataset_streamed = load_dataset( | |
| <span class="hljs-string">"json"</span>, data_files=data_files, split=<span class="hljs-string">"train"</span>, streaming=<span class="hljs-literal">True</span> | |
| )<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-19fagi9">ဒီအခန်းမှာ ကျွန်တော်တို့ ကြုံတွေ့ခဲ့ရတဲ့ ရင်းနှီးတဲ့ <code>Dataset</code> အစား၊ <code>streaming=True</code> နဲ့ ပြန်ပေးတဲ့ object ဟာ <code>IterableDataset</code> ဖြစ်ပါတယ်။ နာမည်က ဖော်ပြသလိုပဲ၊ <code>IterableDataset</code> ရဲ့ elements တွေကို ဝင်ရောက်ကြည့်ရှုဖို့အတွက် ကျွန်တော်တို့ ဒါကို iterate လုပ်ဖို့ လိုအပ်ပါတယ်။ ကျွန်တော်တို့ရဲ့ streamed dataset ရဲ့ ပထမဆုံး element ကို အောက်ပါအတိုင်း ဝင်ရောက်ကြည့်ရှုနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(pubmed_dataset_streamed))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection.\nTo determine the prevalence of hypoxaemia in children aged under 5 years suffering acute lower respiratory infections (ALRI), the risk factors for hypoxaemia in children under 5 years of age with ALRI, and the association of hypoxaemia with an increased risk of dying in children of the same age ...'</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1kukf7t">streamed dataset မှ elements များကို <code>IterableDataset.map()</code> ကို အသုံးပြုပြီး on the fly process လုပ်နိုင်ပါတယ်။ ဒါက inputs တွေကို tokenize လုပ်ဖို့ လိုအပ်ရင် training လုပ်နေစဉ်အတွင်း အသုံးဝင်ပါတယ်။ လုပ်ငန်းစဉ်က <a href="/course/chapter3">Chapter 3</a> မှာ ကျွန်တော်တို့ dataset ကို tokenize လုပ်ဖို့ အသုံးပြုခဲ့တဲ့ လုပ်ငန်းစဉ်အတိုင်း အတိအကျပါပဲ၊ ကွာခြားချက်ကတော့ outputs တွေကို တစ်ခုပြီးတစ်ခု ပြန်ပေးတာပါပဲ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> transformers <span class="hljs-keyword">import</span> AutoTokenizer | |
| tokenizer = AutoTokenizer.from_pretrained(<span class="hljs-string">"distilbert-base-uncased"</span>) | |
| tokenized_dataset = pubmed_dataset_streamed.<span class="hljs-built_in">map</span>(<span class="hljs-keyword">lambda</span> x: tokenizer(x[<span class="hljs-string">"text"</span>])) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(tokenized_dataset))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'input_ids'</span>: [<span class="hljs-number">101</span>, <span class="hljs-number">4958</span>, <span class="hljs-number">5178</span>, <span class="hljs-number">4328</span>, <span class="hljs-number">6779</span>, ...], <span class="hljs-string">'attention_mask'</span>: [<span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, <span class="hljs-number">1</span>, ...]}<!-- HTML_TAG_END --></pre></div> <blockquote class="tip" data-svelte-h="svelte-1wqwto6"><p>💡 streaming နဲ့ tokenization ကို အရှိန်မြှင့်ဖို့အတွက်၊ ယခင်အပိုင်းမှာ ကျွန်တော်တို့ တွေ့ခဲ့ရတဲ့အတိုင်း <code>batched=True</code> ကို ပေးပို့နိုင်ပါတယ်။ ဒါက examples တွေကို batch by batch လုပ်ဆောင်ပါလိမ့်မယ်။ default batch size က ၁,၀၀၀ ဖြစ်ပြီး <code>batch_size</code> argument နဲ့ သတ်မှတ်နိုင်ပါတယ်။</p></blockquote> <p data-svelte-h="svelte-1dcaygf">သင် <code>IterableDataset.shuffle()</code> ကို အသုံးပြုပြီး streamed dataset တစ်ခုကို shuffle လုပ်နိုင်ပေမယ့်၊ <code>Dataset.shuffle()</code> နဲ့မတူတာက ဒါက သတ်မှတ်ထားတဲ့ <code>buffer_size</code> ထဲက elements တွေကိုသာ shuffle လုပ်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->shuffled_dataset = pubmed_dataset_streamed.shuffle(buffer_size=<span class="hljs-number">10_000</span>, seed=<span class="hljs-number">42</span>) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(shuffled_dataset))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11410799</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Randomized study of dose or schedule modification of granulocyte colony-stimulating factor in platinum-based chemotherapy for elderly patients with lung cancer ...'</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-hp0xqi">ဒီဥပမာမှာ၊ ကျွန်တော်တို့ buffer ထဲက ပထမဆုံး ၁၀,၀၀၀ ဥပမာထဲက random example တစ်ခုကို ရွေးခဲ့ပါတယ်။ example တစ်ခုကို ဝင်ရောက်ကြည့်ရှုပြီးတာနဲ့၊ buffer ထဲက ၎င်းရဲ့နေရာကို corpus ထဲက နောက်ဆုံး example (အထက်ဖော်ပြပါကိစ္စတွင် ၁၀,၀၀၁ ခုမြောက် example) နဲ့ ဖြည့်ပေးပါလိမ့်မယ်။ <code>IterableDataset.take()</code> နဲ့ <code>IterableDataset.skip()</code> functions တွေကို အသုံးပြုပြီး streamed dataset ကနေ elements တွေကိုလည်း ရွေးချယ်နိုင်ပါတယ်။ ဒါတွေက <code>Dataset.select()</code> နဲ့ အလားတူ လုပ်ဆောင်ပါတယ်။ ဥပမာအားဖြင့်၊ PubMed Abstracts dataset ထဲက ပထမဆုံး ၅ ဥပမာကို ရွေးချယ်ဖို့ ကျွန်တော်တို့ အောက်ပါအတိုင်း လုပ်ဆောင်နိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->dataset_head = pubmed_dataset_streamed.take(<span class="hljs-number">5</span>) | |
| <span class="hljs-built_in">list</span>(dataset_head)<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409575</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Clinical signs of hypoxaemia in children with acute lower respiratory infection: indicators of oxygen therapy ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409576</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">"Hypoxaemia in children with severe pneumonia in Papua New Guinea ..."</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409577</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Oxygen concentrators and cylinders ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409578</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Oxygen supply in rural africa: a personal experience ...'</span>}]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-stdma4">အလားတူပဲ၊ <code>IterableDataset.skip()</code> function ကို အသုံးပြုပြီး shuffled dataset ကနေ training နဲ့ validation splits တွေ ဖန်တီးနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-comment"># ပထမဆုံး 1,000 examples တွေကို ကျော်ပြီး ကျန်တာတွေကို training set မှာ ထည့်သွင်းပါ</span> | |
| train_dataset = shuffled_dataset.skip(<span class="hljs-number">1000</span>) | |
| <span class="hljs-comment"># validation set အတွက် ပထမဆုံး 1,000 examples တွေကို ယူပါ</span> | |
| validation_dataset = shuffled_dataset.take(<span class="hljs-number">1000</span>)<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-5hguet">multiple datasets တွေကို ပေါင်းစပ်ပြီး single corpus တစ်ခု ဖန်တီးခြင်းဆိုတဲ့ common application နဲ့ dataset streaming ကို ကျွန်တော်တို့ရဲ့ လေ့လာမှုကို နိဂုံးချုပ်လိုက်ရအောင်။ 🤗 Datasets က <code>interleave_datasets()</code> function တစ်ခုကို ပံ့ပိုးပေးပြီး၊ ဒါက <code>IterableDataset</code> objects စာရင်းတစ်ခုကို single <code>IterableDataset</code> တစ်ခုအဖြစ် ပြောင်းလဲပေးပါတယ်။ အဲဒီမှာ new dataset ရဲ့ elements တွေကို source examples တွေကြားမှာ alternating လုပ်ခြင်းဖြင့် ရရှိပါတယ်။ ဒီ function က large datasets တွေကို ပေါင်းစပ်ဖို့ ကြိုးစားတဲ့အခါ အထူးအသုံးဝင်ပါတယ်၊ ဒါကြောင့် ဥပမာအနေနဲ့ FreeLaw subset of the Pile ကို stream လုပ်ကြည့်ရအောင်။ ဒါက US courts တွေက ဥပဒေရေးရာအမြင် ၅၁ GB dataset တစ်ခုပါ။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->law_dataset_streamed = load_dataset( | |
| <span class="hljs-string">"json"</span>, | |
| data_files=<span class="hljs-string">"https://the-eye.eu/public/AI/pile_preliminary_components/FreeLaw_Opinions.jsonl.zst"</span>, | |
| split=<span class="hljs-string">"train"</span>, | |
| streaming=<span class="hljs-literal">True</span>, | |
| ) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(law_dataset_streamed))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'case_ID'</span>: <span class="hljs-string">'110921.json'</span>, | |
| <span class="hljs-string">'case_jurisdiction'</span>: <span class="hljs-string">'scotus.tar.gz'</span>, | |
| <span class="hljs-string">'date_created'</span>: <span class="hljs-string">'2010-04-28T17:12:49Z'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'\n461 U.S. 238 (1983)\nOLIM ET AL.\nv.\nWAKINEKONA\nNo. 81-1581.\nSupreme Court of United States.\nArgued January 19, 1983.\nDecided April 26, 1983.\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'</span>}<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-1afn27t">ဒီ dataset က laptops အများစုရဲ့ RAM ကို ဒုက္ခပေးလောက်အောင် ကြီးမားပေမယ့်၊ ကျွန်တော်တို့ ဒါကို ချွေးတစ်စက်မှ မကျဘဲ load လုပ်ပြီး ဝင်ရောက်ကြည့်ရှုနိုင်ခဲ့ပါတယ်။ အခု FreeLaw နဲ့ PubMed Abstracts datasets တွေက examples တွေကို <code>interleave_datasets()</code> function နဲ့ ပေါင်းစပ်ကြည့်ရအောင်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START --><span class="hljs-keyword">from</span> itertools <span class="hljs-keyword">import</span> islice | |
| <span class="hljs-keyword">from</span> datasets <span class="hljs-keyword">import</span> interleave_datasets | |
| combined_dataset = interleave_datasets([pubmed_dataset_streamed, law_dataset_streamed]) | |
| <span class="hljs-built_in">list</span>(islice(combined_dataset, <span class="hljs-number">2</span>))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->[{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pmid'</span>: <span class="hljs-number">11409574</span>, <span class="hljs-string">'language'</span>: <span class="hljs-string">'eng'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'Epidemiology of hypoxaemia in children with acute lower respiratory infection ...'</span>}, | |
| {<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'case_ID'</span>: <span class="hljs-string">'110921.json'</span>, | |
| <span class="hljs-string">'case_jurisdiction'</span>: <span class="hljs-string">'scotus.tar.gz'</span>, | |
| <span class="hljs-string">'date_created'</span>: <span class="hljs-string">'2010-04-28T17:12:49Z'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'\n461 U.S. 238 (1983)\nOLIM ET AL.\nv.\nWAKINEKONA\nNo. 81-1581.\nSupreme Court of United States.\nArgued January 19, 1983.\nDecided April 26, 1983.\nCERTIORARI TO THE UNITED STATES COURT OF APPEALS FOR THE NINTH CIRCUIT\n*239 Michael A. Lilly, First Deputy Attorney General of Hawaii, argued the cause for petitioners. With him on the brief was James H. Dannenberg, Deputy Attorney General...'</span>}]<!-- HTML_TAG_END --></pre></div> <p data-svelte-h="svelte-5cy35w">ဒီနေရာမှာ ကျွန်တော်တို့ Python ရဲ့ <code>itertools</code> module က <code>islice()</code> function ကို အသုံးပြုပြီး combined dataset ကနေ ပထမဆုံး ဥပမာ နှစ်ခုကို ရွေးခဲ့ပါတယ်၊ ပြီးတော့ ဒါတွေဟာ source datasets နှစ်ခုလုံးရဲ့ ပထမဆုံး ဥပမာတွေနဲ့ ကိုက်ညီတာကို တွေ့ရပါတယ်။</p> <p data-svelte-h="svelte-1kw8p5r">နောက်ဆုံးအနေနဲ့၊ သင် Pile ကို ၎င်းရဲ့ 825 GB အပြည့်အစုံ stream လုပ်ချင်တယ်ဆိုရင်၊ ပြင်ဆင်ထားတဲ့ files တွေအားလုံးကို အောက်ပါအတိုင်း ရယူနိုင်ပါတယ်။</p> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->base_url = <span class="hljs-string">"https://the-eye.eu/public/AI/pile/"</span> | |
| data_files = { | |
| <span class="hljs-string">"train"</span>: [base_url + <span class="hljs-string">"train/"</span> + <span class="hljs-string">f"<span class="hljs-subst">{idx:02d}</span>.jsonl.zst"</span> <span class="hljs-keyword">for</span> idx <span class="hljs-keyword">in</span> <span class="hljs-built_in">range</span>(<span class="hljs-number">30</span>)], | |
| <span class="hljs-string">"validation"</span>: base_url + <span class="hljs-string">"val.jsonl.zst"</span>, | |
| <span class="hljs-string">"test"</span>: base_url + <span class="hljs-string">"test.jsonl.zst"</span>, | |
| } | |
| pile_dataset = load_dataset(<span class="hljs-string">"json"</span>, data_files=data_files, streaming=<span class="hljs-literal">True</span>) | |
| <span class="hljs-built_in">next</span>(<span class="hljs-built_in">iter</span>(pile_dataset[<span class="hljs-string">"train"</span>]))<!-- HTML_TAG_END --></pre></div> <div class="code-block relative "><div class="absolute top-2.5 right-4"><button class="inline-flex items-center relative text-sm focus:text-green-500 cursor-pointer focus:outline-none transition duration-200 ease-in-out opacity-0 mx-0.5 text-gray-600 " title="code excerpt" type="button"><svg class="" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M28,10V28H10V10H28m0-2H10a2,2,0,0,0-2,2V28a2,2,0,0,0,2,2H28a2,2,0,0,0,2-2V10a2,2,0,0,0-2-2Z" transform="translate(0)"></path><path d="M4,18H2V4A2,2,0,0,1,4,2H18V4H4Z" transform="translate(0)"></path><rect fill="none" width="32" height="32"></rect></svg> <div class="absolute pointer-events-none transition-opacity bg-black text-white py-1 px-2 leading-tight rounded font-normal shadow left-1/2 top-full transform -translate-x-1/2 translate-y-2 opacity-0"><div class="absolute bottom-full left-1/2 transform -translate-x-1/2 w-0 h-0 border-black border-4 border-t-0" style="border-left-color: transparent; border-right-color: transparent; "></div> Copied</div></button></div> <pre class=""><!-- HTML_TAG_START -->{<span class="hljs-string">'meta'</span>: {<span class="hljs-string">'pile_set_name'</span>: <span class="hljs-string">'Pile-CC'</span>}, | |
| <span class="hljs-string">'text'</span>: <span class="hljs-string">'It is done, and submitted. You can play “Survival of the Tastiest” on Android, and on the web...'</span>}<!-- HTML_TAG_END --></pre></div> <blockquote class="tip" data-svelte-h="svelte-1rhreet"><p>✏️ <strong>စမ်းသပ်ကြည့်ပါ။</strong> <a href="https://huggingface.co/datasets/mc4" rel="nofollow"><code>mc4</code></a> ဒါမှမဟုတ် <a href="https://huggingface.co/datasets/oscar" rel="nofollow"><code>oscar</code></a> လိုမျိုး ကြီးမားတဲ့ Common Crawl corpora တွေထဲက တစ်ခုကို အသုံးပြုပြီး သင်ရွေးချယ်ထားတဲ့ နိုင်ငံတစ်ခုမှာ ဘာသာစကားတွေ ပြောဆိုတဲ့ အချိုးအစားကို ကိုယ်စားပြုတဲ့ streaming multilingual dataset တစ်ခု ဖန်တီးပါ။ ဥပမာအားဖြင့်၊ Switzerland မှာ ဘာသာစကား လေးမျိုး (German, French, Italian, Romansh) ရှိတာကြောင့်၊ Oscar subsets တွေကို ၎င်းတို့ရဲ့ ပြောဆိုတဲ့အချိုးအစားအတိုင်း sampling လုပ်ပြီး Swiss corpus တစ်ခု ဖန်တီးကြည့်နိုင်ပါတယ်။</p></blockquote> <p data-svelte-h="svelte-392wyi">အခုဆိုရင် သင်ဟာ datasets အမျိုးအစားပေါင်းစုံကို load လုပ်ပြီး process လုပ်နိုင်ဖို့ လိုအပ်တဲ့ tools တွေ အားလုံးကို ပိုင်ဆိုင်နေပါပြီ။ ဒါပေမယ့် သင် အရမ်းကံကောင်းနေမှသာ၊ သင့် NLP ခရီးစဉ်မှာ လက်ရှိပြဿနာကို ဖြေရှင်းဖို့ dataset တစ်ခုကို တကယ်တမ်း ဖန်တီးရမယ့်အချိန် ရောက်လာပါလိမ့်မယ်။ ဒါကတော့ နောက်အပိုင်းရဲ့ ခေါင်းစဉ်ပါပဲ!</p> <h2 class="relative group"><a id="ဝဟရ-ရငလငခက-glossary" class="header-link block pr-1.5 text-lg no-hover:hidden with-hover:absolute with-hover:p-1.5 with-hover:opacity-0 with-hover:group-hover:opacity-100 with-hover:right-full" href="#ဝဟရ-ရငလငခက-glossary"><span><svg class="" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" aria-hidden="true" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 256 256"><path d="M167.594 88.393a8.001 8.001 0 0 1 0 11.314l-67.882 67.882a8 8 0 1 1-11.314-11.315l67.882-67.881a8.003 8.003 0 0 1 11.314 0zm-28.287 84.86l-28.284 28.284a40 40 0 0 1-56.567-56.567l28.284-28.284a8 8 0 0 0-11.315-11.315l-28.284 28.284a56 56 0 0 0 79.196 79.197l28.285-28.285a8 8 0 1 0-11.315-11.314zM212.852 43.14a56.002 56.002 0 0 0-79.196 0l-28.284 28.284a8 8 0 1 0 11.314 11.314l28.284-28.284a40 40 0 0 1 56.568 56.567l-28.285 28.285a8 8 0 0 0 11.315 11.314l28.284-28.284a56.065 56.065 0 0 0 0-79.196z" fill="currentColor"></path></svg></span></a> <span>ဝေါဟာရ ရှင်းလင်းချက် (Glossary)</span></h2> <ul data-svelte-h="svelte-bysagl"><li><strong>Big Data</strong>: ပုံမှန်ဒေတာစီမံခန့်ခွဲမှုကိရိယာများဖြင့် ကိုင်တွယ်ရန် ခက်ခဲသော အလွန်ကြီးမားသော ဒေတာအစုအဝေးများ။</li> <li><strong>🤗 Datasets</strong>: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။</li> <li><strong>Pretrain</strong>: Model တစ်ခုကို အကြီးစားဒေတာများဖြင့် အစောပိုင်းကတည်းက လေ့ကျင့်ထားခြင်း။</li> <li><strong>Transformer</strong>: Natural Language Processing (NLP) မှာ အောင်မြင်မှုများစွာရရှိခဲ့တဲ့ deep learning architecture တစ်မျိုးပါ။</li> <li><strong>BERT (Bidirectional Encoder Representations from Transformers)</strong>: Google က ဖန်တီးခဲ့သော Transformer-based language model တစ်ခု။</li> <li><strong>GPT-2 (Generative Pre-trained Transformer 2)</strong>: OpenAI က ဖန်တီးခဲ့သော Transformer-based language model တစ်ခု။</li> <li><strong>WebText Corpus</strong>: GPT-2 ကို pretrain လုပ်ရာတွင် အသုံးပြုခဲ့သော ကြီးမားသော စာသားအစုအဝေး။</li> <li><strong>RAM (Random Access Memory)</strong>: ကွန်ပျူတာ၏ ယာယီမှတ်ဉာဏ်သိုလှောင်ရာနေရာ။</li> <li><strong>Memory Management</strong>: ကွန်ပျူတာ၏ memory အသုံးပြုမှုကို ထိန်းချုပ်ခြင်းနှင့် စီမံခန့်ခွဲခြင်း။</li> <li><strong>Memory-mapped Files</strong>: ဖိုင်တစ်ခု၏ အကြောင်းအရာများကို ကွန်ပျူတာ၏ virtual memory နေရာသို့ တိုက်ရိုက်ချိတ်ဆက်ပေးသည့် နည်းလမ်း။ ၎င်းသည် ကြီးမားသောဖိုင်များကို disk ပေါ်ကနေ လိုအပ်သလောက်သာ memory ထဲသို့ load လုပ်စေပြီး memory အသုံးပြုမှုကို လျှော့ချသည်။</li> <li><strong>Streaming</strong>: ဒေတာများကို တစ်စိတ်တစ်ပိုင်းစီ download လုပ်ပြီး လုပ်ဆောင်နိုင်ခြင်း၊ dataset တစ်ခုလုံးကို memory ထဲသို့ load လုပ်ရန် မလိုဘဲ။</li> <li><strong>Corpus</strong>: စာသားအမြောက်အမြား စုစည်းထားခြင်း။</li> <li><strong>Hard Drive Limits</strong>: ကွန်ပျူတာ၏ hard drive (disk storage) ၏ သိုလှောင်နိုင်စွမ်း ကန့်သတ်ချက်များ။</li> <li><strong>The Pile</strong>: EleutherAI မှ ဖန်တီးထားသော ကြီးမားသည့် English text corpus တစ်ခု။</li> <li><strong>EleutherAI</strong>: Large-scale open-source AI models များ ဖန်တီးရန် အဓိကထားသော collective တစ်ခု။</li> <li><strong>PubMed Abstracts Dataset</strong>: PubMed မှ biomedical publications ၏ abstracts များပါဝင်သော dataset။</li> <li><strong>JSON Lines Format</strong>: JSON objects များကို line တစ်ကြောင်းစီတွင် တစ်ခုစီ ထားရှိသော JSON format ၏ ပုံစံတစ်မျိုး။</li> <li><strong><code>zstandard</code> Library</strong>: Zstandard compression algorithm ကို အသုံးပြု၍ ဖိုင်များကို compress (ဖိသိပ်) သို့မဟုတ် decompress (ဖိသိပ်မှုဖြေလျှော့) ရန်အတွက် Python library။</li> <li><strong><code>pip install zstandard</code></strong>: <code>zstandard</code> library ကို Python package manager <code>pip</code> ဖြင့် install လုပ်ခြင်း။</li> <li><strong><code>load_dataset()</code> Function</strong>: Hugging Face Datasets library မှ dataset များကို download လုပ်ပြီး cache လုပ်ရန် အသုံးပြုသော function။</li> <li><strong><code>data_files</code> Argument</strong>: <code>load_dataset()</code> function တွင် dataset files (local သို့မဟုတ် remote) ၏ path (သို့မဟုတ် URL) ကို သတ်မှတ်ရန် အသုံးပြုသော argument။</li> <li><strong><code>split</code> Argument</strong>: <code>load_dataset()</code> function တွင် dataset ၏ မည်သည့် split (ဥပမာ- “train”, “validation”, “test”) ကို load လုပ်ရမည်ကို သတ်မှတ်ရန် အသုံးပြုသော argument။</li> <li><strong><code>Dataset</code> Object</strong>: 🤗 Datasets library မှ data များကို ကိုယ်စားပြုသော object။</li> <li><strong><code>DownloadConfig(delete_extracted=True)</code></strong>: <code>DownloadConfig</code> class ၏ object တစ်ခုဖြစ်ပြီး download လုပ်ပြီးသား extracted files များကို delete လုပ်ရန် configure လုပ်ထားသည်။</li> <li><strong><code>download_config</code> Argument</strong>: <code>load_dataset()</code> function တွင် download configuration ကို သတ်မှတ်ရန် အသုံးပြုသော argument။</li> <li><strong><code>psutil</code> Library</strong>: Python တွင် process နှင့် system utility များကို ဝင်ရောက်ကြည့်ရှုရန် အသုံးပြုသော library။</li> <li><strong><code>Process</code> Class</strong>: <code>psutil</code> library မှ လက်ရှိ Python process ကို ကိုယ်စားပြုသော class။</li> <li><strong><code>memory_info().rss</code></strong>: Process တစ်ခုက RAM မှာ နေရာယူထားတဲ့ memory ပမာဏ (resident set size) ကို bytes ဖြင့် ပြန်ပေးသော method။</li> <li><strong><code>dataset_size</code> Attribute</strong>: <code>Dataset</code> object ၏ disk ပေါ်ရှိ အရွယ်အစားကို bytes ဖြင့် ပြန်ပေးသော attribute။</li> <li><strong>Wes McKinney</strong>: Pandas library ကို ဖန်တီးသူ။</li> <li><strong>Rule of Thumb</strong>: အတွေ့အကြုံအရ အသုံးများသော သို့မဟုတ် လက်တွေ့ကျသော လမ်းညွှန်ချက်။</li> <li><strong>Apache Arrow</strong>: In-memory data format တစ်ခုဖြစ်ပြီး data analytics applications တွေကြား ဒေတာဖလှယ်မှုကို မြန်ဆန်စေပြီး ထိရောက်စေသည်။</li> <li><strong><code>pyarrow</code> Library</strong>: Python တွင် Apache Arrow format ကို အသုံးပြုရန်အတွက် library။</li> <li><strong><code>timeit</code> Module</strong>: Python code snippets များ၏ execution time ကို တိုင်းတာရန်အတွက် built-in module။</li> <li><strong><code>code_snippet</code></strong>: တိုင်းတာလိုသော Python code အပိုင်း။</li> <li><strong><code>%%timeit</code> Magic Function</strong>: Jupyter notebooks တွင် cells များ၏ execution time ကို တိုင်းတာရန်အတွက် magic function။</li> <li><strong><code>streaming=True</code> Argument</strong>: <code>load_dataset()</code> function တွင် dataset streaming ကို enable လုပ်ရန် အသုံးပြုသော argument။</li> <li><strong><code>IterableDataset</code></strong>: 🤗 Datasets library မှ streaming mode တွင် data များကို ကိုယ်စားပြုသော object။ ၎င်း၏ elements များကို iterate လုပ်ခြင်းဖြင့်သာ ဝင်ရောက်ကြည့်ရှုနိုင်သည်။</li> <li><strong><code>next(iter(dataset))</code></strong>: <code>IterableDataset</code> ၏ ပထမဆုံး element ကို ယူရန်အတွက် Python idiom။</li> <li><strong><code>IterableDataset.map()</code></strong>: <code>IterableDataset</code> ၏ elements များကို process လုပ်ရန်အတွက် method။</li> <li><strong><code>AutoTokenizer</code></strong>: Hugging Face Transformers library မှာ ပါဝင်တဲ့ class တစ်ခုဖြစ်ပြီး မော်ဒယ်အမည်ကို အသုံးပြုပြီး သက်ဆိုင်ရာ tokenizer ကို အလိုအလျောက် load လုပ်ပေးသည်။</li> <li><strong><code>distilbert-base-uncased</code></strong>: DistilBERT model ၏ base uncased version အတွက် checkpoint identifier။</li> <li><strong><code>input_ids</code></strong>: Tokenizer မှ ထုတ်ပေးသော tokens တစ်ခုစီ၏ ထူးခြားသော ဂဏန်းဆိုင်ရာ ID များ။</li> <li><strong><code>attention_mask</code></strong>: မော်ဒယ်ကို အာရုံစိုက်သင့်သည့် tokens များနှင့် လျစ်လျူရှုသင့်သည့် (padding) tokens များကို ခွဲခြားပေးသည့် binary mask။</li> <li><strong><code>batched=True</code></strong>: <code>map()</code> method မှာ အသုံးပြုသော argument တစ်ခုဖြစ်ပြီး function ကို dataset ရဲ့ element အများအပြားပေါ်မှာ တစ်ပြိုင်နက်တည်း အသုံးပြုစေသည်။</li> <li><strong><code>batch_size</code></strong>: training လုပ်ငန်းစဉ်တစ်ခုစီတွင် model သို့ ပေးပို့သော input samples အရေအတွက်။</li> <li><strong><code>IterableDataset.shuffle()</code></strong>: streamed dataset ၏ elements များကို shuffle လုပ်ရန်အတွက် method။ ၎င်းသည် သတ်မှတ်ထားသော <code>buffer_size</code> အတွင်းရှိ elements များကိုသာ shuffle လုပ်သည်။</li> <li><strong><code>buffer_size</code></strong>: <code>IterableDataset.shuffle()</code> တွင် elements များကို shuffle လုပ်ရန် အသုံးပြုသော memory buffer ၏ အရွယ်အစား။</li> <li><strong><code>seed</code></strong>: Random number generator ၏ အစမှတ်ကို သတ်မှတ်ခြင်း။</li> <li><strong><code>IterableDataset.take()</code></strong>: streamed dataset မှ ပထမဆုံး <code>n</code> elements များကို ယူရန်အတွက် method။</li> <li><strong><code>IterableDataset.skip()</code></strong>: streamed dataset မှ ပထမဆုံး <code>n</code> elements များကို ကျော်သွားရန်အတွက် method။</li> <li><strong><code>Dataset.select()</code></strong>: regular <code>Dataset</code> မှ သီးခြား index ဖြင့် elements များကို ရွေးချယ်ရန်အတွက် method။</li> <li><strong>Training Dataset</strong>: Model ကို လေ့ကျင့်ရန်အတွက် အသုံးပြုသော dataset အပိုင်း။</li> <li><strong>Validation Dataset</strong>: Training လုပ်နေစဉ် model ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် အသုံးပြုသော dataset အပိုင်း။</li> <li><strong><code>interleave_datasets()</code> Function</strong>: Hugging Face Datasets library မှ function တစ်ခုဖြစ်ပြီး <code>IterableDataset</code> objects စာရင်းကို single <code>IterableDataset</code> တစ်ခုအဖြစ် ပြောင်းလဲပေးသည်။</li> <li><strong><code>itertools</code> Module</strong>: Python ၏ built-in module တစ်ခုဖြစ်ပြီး iterator များကို ဖန်တီးရန်နှင့် ကိုင်တွယ်ရန်အတွက် အသုံးဝင်သော functions များကို ပံ့ပိုးပေးသည်။</li> <li><strong><code>islice()</code> Function</strong>: <code>itertools</code> module မှ iterator တစ်ခု၏ element များကို slice လုပ်ရန်အတွက် function။</li> <li><strong>FreeLaw Subset</strong>: The Pile dataset ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး US courts မှ legal opinions များ ပါဝင်သည်။</li> <li><strong>Common Crawl Corpora</strong>: အင်တာနက်မှ web data များကို စုစည်းထားသော ကြီးမားသည့် dataset များ (ဥပမာ- <code>mc4</code>, <code>oscar</code>)။</li> <li><strong>Multilingual Dataset</strong>: ဘာသာစကားမျိုးစုံ ပါဝင်သော dataset။</li> <li><strong>Sampling</strong>: ကြီးမားသော dataset တစ်ခုမှ သေးငယ်သော အစိတ်အပိုင်းတစ်ခုကို ရွေးချယ်ခြင်း။</li> <li><strong>NLP Journey</strong>: Natural Language Processing (NLP) နယ်ပယ်တွင် လေ့လာသင်ယူခြင်းနှင့် အလုပ်လုပ်ခြင်း ခရီးစဉ်။</li> <li><strong>Problem at Hand</strong>: လက်ရှိ ဖြေရှင်းရန် လိုအပ်သော ပြဿနာ။</li></ul> <a class="!text-gray-400 !no-underline text-sm flex items-center not-prose mt-4" href="https://github.com/huggingface/course/blob/main/chapters/my/chapter5/4.mdx" target="_blank"><svg class="mr-1" xmlns="http://www.w3.org/2000/svg" aria-hidden="true" fill="currentColor" focusable="false" role="img" width="1em" height="1em" preserveAspectRatio="xMidYMid meet" viewBox="0 0 32 32"><path d="M31,16l-7,7l-1.41-1.41L28.17,16l-5.58-5.59L24,9l7,7z"></path><path d="M1,16l7-7l1.41,1.41L3.83,16l5.58,5.59L8,23l-7-7z"></path><path d="M12.419,25.484L17.639,6.552l1.932,0.518L14.351,26.002z"></path></svg> <span data-svelte-h="svelte-zjs2n5"><span class="underline">Update</span> on GitHub</span></a> <p></p> | |
| <script> | |
| { | |
| __sveltekit_tyugt6 = { | |
| assets: "/docs/course/pr_1114/my", | |
| base: "/docs/course/pr_1114/my", | |
| env: {} | |
| }; | |
| const element = document.currentScript.parentElement; | |
| const data = [null,null]; | |
| Promise.all([ | |
| import("/docs/course/pr_1114/my/_app/immutable/entry/start.14794ee9.js"), | |
| import("/docs/course/pr_1114/my/_app/immutable/entry/app.a133f5c6.js") | |
| ]).then(([kit, app]) => { | |
| kit.start(app, element, { | |
| node_ids: [0, 39], | |
| data, | |
| form: null, | |
| error: null | |
| }); | |
| }); | |
| } | |
| </script> | |
Xet Storage Details
- Size:
- 104 kB
- Xet hash:
- e847b678bd47b0f12f92c42469b8fdf7476cb69b7ab7bcc4a182c9bdf560c151
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.