Buckets:
| # 🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ![[datasets-check]] | |
| <CourseFloatingBanner | |
| chapter={5} | |
| classNames="absolute z-10 right-0 top-0" | |
| /> | |
| 🤗 Datasets library ကို ကောင်းကောင်း လေ့လာခဲ့ပြီးပါပြီ၊ ဒီအထိ ရောက်လာတဲ့အတွက် ဂုဏ်ယူပါတယ်။ ဒီအခန်းကနေ သင်ရရှိခဲ့တဲ့ ဗဟုသုတတွေနဲ့ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်ပါလိမ့်မယ်။ | |
| - Hugging Face Hub၊ သင့် laptop ဒါမှမဟုတ် သင့်ကုမ္ပဏီက remote server တစ်ခုကနေ dataset တွေကို load လုပ်ပါ။ | |
| - `Dataset.map()` နဲ့ `Dataset.filter()` functions တွေကို ပေါင်းစပ်အသုံးပြုပြီး သင့် data တွေကို wrangle လုပ်ပါ။ | |
| - `Dataset.set_format()` ကို အသုံးပြုပြီး Pandas နဲ့ NumPy လို data formats တွေကြား လျင်မြန်စွာ ပြောင်းလဲပါ။ | |
| - သင့်ကိုယ်ပိုင် dataset ကို ဖန်တီးပြီး Hugging Face Hub ကို push လုပ်ပါ။ | |
| - Transformer model ကို အသုံးပြုပြီး သင့် documents တွေကို embed လုပ်ကာ FAISS ကို အသုံးပြုပြီး semantic search engine တစ်ခုကို တည်ဆောက်ပါ။ | |
| [Chapter 7](/course/chapter7) မှာ၊ Transformer models တွေအတွက် အကောင်းဆုံးဖြစ်တဲ့ အဓိက NLP tasks တွေကို နက်နက်နဲနဲ လေ့လာရင်း ဒီအရာအားလုံးကို ကောင်းကောင်း အသုံးချသွားမှာပါ။ ရှေ့ကို ဆက်မသွားခင်၊ 🤗 Datasets အပေါ် သင်ရဲ့ ဗဟုသုတကို quick quiz တစ်ခုနဲ့ စစ်ဆေးကြည့်လိုက်ပါ။ | |
| ## ဝေါဟာရ ရှင်းလင်းချက် (Glossary) | |
| * **🤗 Datasets Library**: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။ | |
| * **Hugging Face Hub**: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။ | |
| * **Laptop**: သယ်ဆောင်ရလွယ်ကူသော ကိုယ်ပိုင်ကွန်ပျူတာ။ | |
| * **Remote Server**: ကွန်ရက်တစ်ခုပေါ်တွင် ဝန်ဆောင်မှုများ သို့မဟုတ် အရင်းအမြစ်များကို ပံ့ပိုးပေးသော ကွန်ပျူတာ။ | |
| * **Wrangle Data**: ကုန်ကြမ်းဒေတာ (raw data) များကို ပိုမိုအသုံးဝင်ပြီး သန့်ရှင်းသော ပုံစံသို့ ပြောင်းလဲရန်အတွက် လုပ်ဆောင်သော လုပ်ငန်းစဉ်များ။ | |
| * **`Dataset.map()` Function**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။ | |
| * **`Dataset.filter()` Function**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး သတ်မှတ်ထားသော အခြေအနေများနှင့် ကိုက်ညီသော ဒေတာများကိုသာ dataset မှ ရွေးထုတ်ရန် အသုံးပြုသည်။ | |
| * **Pandas**: Python programming language အတွက် data analysis နှင့် manipulation အတွက် အသုံးပြုသော open-source library။ | |
| * **NumPy**: Python programming language အတွက် numerical computing (ဂဏန်းတွက်ချက်မှု) အတွက် အသုံးပြုသော library။ | |
| * **`Dataset.set_format()` Function**: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ၏ output format (ဥပမာ- "pandas", "numpy", "torch", "tensorflow") ကို သတ်မှတ်ရန် အသုံးပြုသည်။ | |
| * **Push to the Hub**: Hugging Face Hub သို့ model, dataset သို့မဟုတ် အခြား artifacts များကို upload လုပ်ခြင်း။ | |
| * **Embed Documents**: စာသား document များကို vector space အတွင်းရှိ ဂဏန်းဆိုင်ရာ ကိုယ်စားပြုမှုများ (embeddings) အဖြစ် ပြောင်းလဲခြင်း။ ၎င်းသည် document များကြား ဆင်တူမှုများကို တိုင်းတာနိုင်စေသည်။ | |
| * **Transformer Model**: Natural Language Processing (NLP) မှာ အောင်မြင်မှုများစွာရရှိခဲ့တဲ့ deep learning architecture တစ်မျိုးပါ။ | |
| * **Semantic Search Engine**: စာလုံးများကို ကိုက်ညီမှု ရှာဖွေခြင်းထက် အဓိပ္ပာယ်ပေါ်မူတည်၍ ရှာဖွေနိုင်သော search engine။ | |
| * **FAISS (Facebook AI Similarity Search)**: Facebook AI မှ ထုတ်လုပ်ထားသော library တစ်ခုဖြစ်ပြီး vector များကို မြန်ဆန်ထိရောက်စွာ ရှာဖွေခြင်းနှင့် grouping လုပ်ခြင်းအတွက် အသုံးပြုသည်။ | |
| * **NLP Tasks (Natural Language Processing Tasks)**: ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။ | |
| * **Quick Quiz**: ဗဟုသုတကို လျင်မြန်စွာ စစ်ဆေးသည့် မေးခွန်းအနည်းငယ်။ | |
| <EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/my/chapter5/7.mdx" /> |
Xet Storage Details
- Size:
- 7.56 kB
- Xet hash:
- d3d3874cc6c5ca11af45c8614c7fb684b3eaeea3da2b19c9929e764d83d9a52a
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.