Buckets:

hf-doc-build
/

doc-dev

Files

xet

hf-doc-build/doc-dev / course /pr_1114 /my /chapter5 /7.md

rtrm

about 2 months ago

preview code

download

raw

7.56 kB

	# 🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ![[datasets-check]]

	<CourseFloatingBanner
	chapter={5}
	classNames="absolute z-10 right-0 top-0"
	/>

	🤗 Datasets library ကို ကောင်းကောင်း လေ့လာခဲ့ပြီးပါပြီ၊ ဒီအထိ ရောက်လာတဲ့အတွက် ဂုဏ်ယူပါတယ်။ ဒီအခန်းကနေ သင်ရရှိခဲ့တဲ့ ဗဟုသုတတွေနဲ့ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်ပါလိမ့်မယ်။

	- Hugging Face Hub၊ သင့် laptop ဒါမှမဟုတ် သင့်ကုမ္ပဏီက remote server တစ်ခုကနေ dataset တွေကို load လုပ်ပါ။
	- `Dataset.map()` နဲ့ `Dataset.filter()` functions တွေကို ပေါင်းစပ်အသုံးပြုပြီး သင့် data တွေကို wrangle လုပ်ပါ။
	- `Dataset.set_format()` ကို အသုံးပြုပြီး Pandas နဲ့ NumPy လို data formats တွေကြား လျင်မြန်စွာ ပြောင်းလဲပါ။
	- သင့်ကိုယ်ပိုင် dataset ကို ဖန်တီးပြီး Hugging Face Hub ကို push လုပ်ပါ။
	- Transformer model ကို အသုံးပြုပြီး သင့် documents တွေကို embed လုပ်ကာ FAISS ကို အသုံးပြုပြီး semantic search engine တစ်ခုကို တည်ဆောက်ပါ။

	[Chapter 7](/course/chapter7) မှာ၊ Transformer models တွေအတွက် အကောင်းဆုံးဖြစ်တဲ့ အဓိက NLP tasks တွေကို နက်နက်နဲနဲ လေ့လာရင်း ဒီအရာအားလုံးကို ကောင်းကောင်း အသုံးချသွားမှာပါ။ ရှေ့ကို ဆက်မသွားခင်၊ 🤗 Datasets အပေါ် သင်ရဲ့ ဗဟုသုတကို quick quiz တစ်ခုနဲ့ စစ်ဆေးကြည့်လိုက်ပါ။

	## ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

	* 🤗 Datasets Library: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
	* Hugging Face Hub: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။
	* Laptop: သယ်ဆောင်ရလွယ်ကူသော ကိုယ်ပိုင်ကွန်ပျူတာ။
	* Remote Server: ကွန်ရက်တစ်ခုပေါ်တွင် ဝန်ဆောင်မှုများ သို့မဟုတ် အရင်းအမြစ်များကို ပံ့ပိုးပေးသော ကွန်ပျူတာ။
	* Wrangle Data: ကုန်ကြမ်းဒေတာ (raw data) များကို ပိုမိုအသုံးဝင်ပြီး သန့်ရှင်းသော ပုံစံသို့ ပြောင်းလဲရန်အတွက် လုပ်ဆောင်သော လုပ်ငန်းစဉ်များ။
	* `Dataset.map()` Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။
	* `Dataset.filter()` Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး သတ်မှတ်ထားသော အခြေအနေများနှင့် ကိုက်ညီသော ဒေတာများကိုသာ dataset မှ ရွေးထုတ်ရန် အသုံးပြုသည်။
	* Pandas: Python programming language အတွက် data analysis နှင့် manipulation အတွက် အသုံးပြုသော open-source library။
	* NumPy: Python programming language အတွက် numerical computing (ဂဏန်းတွက်ချက်မှု) အတွက် အသုံးပြုသော library။
	* `Dataset.set_format()` Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ၏ output format (ဥပမာ- "pandas", "numpy", "torch", "tensorflow") ကို သတ်မှတ်ရန် အသုံးပြုသည်။
	* Push to the Hub: Hugging Face Hub သို့ model, dataset သို့မဟုတ် အခြား artifacts များကို upload လုပ်ခြင်း။
	* Embed Documents: စာသား document များကို vector space အတွင်းရှိ ဂဏန်းဆိုင်ရာ ကိုယ်စားပြုမှုများ (embeddings) အဖြစ် ပြောင်းလဲခြင်း။ ၎င်းသည် document များကြား ဆင်တူမှုများကို တိုင်းတာနိုင်စေသည်။
	* Transformer Model: Natural Language Processing (NLP) မှာ အောင်မြင်မှုများစွာရရှိခဲ့တဲ့ deep learning architecture တစ်မျိုးပါ။
	* Semantic Search Engine: စာလုံးများကို ကိုက်ညီမှု ရှာဖွေခြင်းထက် အဓိပ္ပာယ်ပေါ်မူတည်၍ ရှာဖွေနိုင်သော search engine။
	* FAISS (Facebook AI Similarity Search): Facebook AI မှ ထုတ်လုပ်ထားသော library တစ်ခုဖြစ်ပြီး vector များကို မြန်ဆန်ထိရောက်စွာ ရှာဖွေခြင်းနှင့် grouping လုပ်ခြင်းအတွက် အသုံးပြုသည်။
	* NLP Tasks (Natural Language Processing Tasks): ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။
	* Quick Quiz: ဗဟုသုတကို လျင်မြန်စွာ စစ်ဆေးသည့် မေးခွန်းအနည်းငယ်။

	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/my/chapter5/7.mdx" />

Xet Storage Details

Size:: 7.56 kB
Xet hash:: d3d3874cc6c5ca11af45c8614c7fb684b3eaeea3da2b19c9929e764d83d9a52a

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.

	# 🤗 Datasets၊ အဆင်သင့်ဖြစ်ပါပြီ![[datasets-check]]

	<CourseFloatingBanner
	chapter={5}
	classNames="absolute z-10 right-0 top-0"
	/>

	🤗 Datasets library ကို ကောင်းကောင်း လေ့လာခဲ့ပြီးပါပြီ၊ ဒီအထိ ရောက်လာတဲ့အတွက် ဂုဏ်ယူပါတယ်။ ဒီအခန်းကနေ သင်ရရှိခဲ့တဲ့ ဗဟုသုတတွေနဲ့ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်ပါလိမ့်မယ်။

	- Hugging Face Hub၊ သင့် laptop ဒါမှမဟုတ် သင့်ကုမ္ပဏီက remote server တစ်ခုကနေ dataset တွေကို load လုပ်ပါ။
	- `Dataset.map()` နဲ့ `Dataset.filter()` functions တွေကို ပေါင်းစပ်အသုံးပြုပြီး သင့် data တွေကို wrangle လုပ်ပါ။
	- `Dataset.set_format()` ကို အသုံးပြုပြီး Pandas နဲ့ NumPy လို data formats တွေကြား လျင်မြန်စွာ ပြောင်းလဲပါ။
	- သင့်ကိုယ်ပိုင် dataset ကို ဖန်တီးပြီး Hugging Face Hub ကို push လုပ်ပါ။
	- Transformer model ကို အသုံးပြုပြီး သင့် documents တွေကို embed လုပ်ကာ FAISS ကို အသုံးပြုပြီး semantic search engine တစ်ခုကို တည်ဆောက်ပါ။

	[Chapter 7](/course/chapter7) မှာ၊ Transformer models တွေအတွက် အကောင်းဆုံးဖြစ်တဲ့ အဓိက NLP tasks တွေကို နက်နက်နဲနဲ လေ့လာရင်း ဒီအရာအားလုံးကို ကောင်းကောင်း အသုံးချသွားမှာပါ။ ရှေ့ကို ဆက်မသွားခင်၊ 🤗 Datasets အပေါ် သင်ရဲ့ ဗဟုသုတကို quick quiz တစ်ခုနဲ့ စစ်ဆေးကြည့်လိုက်ပါ။

	## ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

	* 🤗 Datasets Library: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး AI မော်ဒယ်တွေ လေ့ကျင့်ဖို့အတွက် ဒေတာအစုအဝေး (datasets) တွေကို လွယ်လွယ်ကူကူ ဝင်ရောက်ရယူ၊ စီမံခန့်ခွဲပြီး အသုံးပြုနိုင်စေပါတယ်။
	* Hugging Face Hub: AI မော်ဒယ်တွေ၊ datasets တွေနဲ့ demo တွေကို အခြားသူတွေနဲ့ မျှဝေဖို့၊ ရှာဖွေဖို့နဲ့ ပြန်လည်အသုံးပြုဖို့အတွက် အွန်လိုင်း platform တစ်ခု ဖြစ်ပါတယ်။
	* Laptop: သယ်ဆောင်ရလွယ်ကူသော ကိုယ်ပိုင်ကွန်ပျူတာ။
	* Remote Server: ကွန်ရက်တစ်ခုပေါ်တွင် ဝန်ဆောင်မှုများ သို့မဟုတ် အရင်းအမြစ်များကို ပံ့ပိုးပေးသော ကွန်ပျူတာ။
	* Wrangle Data: ကုန်ကြမ်းဒေတာ (raw data) များကို ပိုမိုအသုံးဝင်ပြီး သန့်ရှင်းသော ပုံစံသို့ ပြောင်းလဲရန်အတွက် လုပ်ဆောင်သော လုပ်ငန်းစဉ်များ။
	* `Dataset.map()` Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ရဲ့ element တစ်ခုစီ ဒါမှမဟုတ် batch တစ်ခုစီပေါ်မှာ function တစ်ခုကို အသုံးပြုနိုင်စေသည်။
	* `Dataset.filter()` Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး သတ်မှတ်ထားသော အခြေအနေများနှင့် ကိုက်ညီသော ဒေတာများကိုသာ dataset မှ ရွေးထုတ်ရန် အသုံးပြုသည်။
	* Pandas: Python programming language အတွက် data analysis နှင့် manipulation အတွက် အသုံးပြုသော open-source library။
	* NumPy: Python programming language အတွက် numerical computing (ဂဏန်းတွက်ချက်မှု) အတွက် အသုံးပြုသော library။
	* `Dataset.set_format()` Function: 🤗 Datasets library မှာ ပါဝင်တဲ့ method တစ်ခုဖြစ်ပြီး dataset ၏ output format (ဥပမာ- "pandas", "numpy", "torch", "tensorflow") ကို သတ်မှတ်ရန် အသုံးပြုသည်။
	* Push to the Hub: Hugging Face Hub သို့ model, dataset သို့မဟုတ် အခြား artifacts များကို upload လုပ်ခြင်း။
	* Embed Documents: စာသား document များကို vector space အတွင်းရှိ ဂဏန်းဆိုင်ရာ ကိုယ်စားပြုမှုများ (embeddings) အဖြစ် ပြောင်းလဲခြင်း။ ၎င်းသည် document များကြား ဆင်တူမှုများကို တိုင်းတာနိုင်စေသည်။
	* Transformer Model: Natural Language Processing (NLP) မှာ အောင်မြင်မှုများစွာရရှိခဲ့တဲ့ deep learning architecture တစ်မျိုးပါ။
	* Semantic Search Engine: စာလုံးများကို ကိုက်ညီမှု ရှာဖွေခြင်းထက် အဓိပ္ပာယ်ပေါ်မူတည်၍ ရှာဖွေနိုင်သော search engine။
	* FAISS (Facebook AI Similarity Search): Facebook AI မှ ထုတ်လုပ်ထားသော library တစ်ခုဖြစ်ပြီး vector များကို မြန်ဆန်ထိရောက်စွာ ရှာဖွေခြင်းနှင့် grouping လုပ်ခြင်းအတွက် အသုံးပြုသည်။
	* NLP Tasks (Natural Language Processing Tasks): ကွန်ပျူတာတွေ လူသားဘာသာစကားကို နားလည်၊ အဓိပ္ပာယ်ဖော်ပြီး၊ ဖန်တီးနိုင်အောင် လုပ်ဆောင်ပေးတဲ့ အလုပ်တွေ (ဥပမာ- text classification, question answering)။
	* Quick Quiz: ဗဟုသုတကို လျင်မြန်စွာ စစ်ဆေးသည့် မေးခွန်းအနည်းငယ်။

	<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/my/chapter5/7.mdx" />