Buckets:

rtrm's picture
|
download
raw
21.9 kB
# คำถามท้ายบท
<CourseFloatingBanner
chapter={6}
classNames="absolute z-10 right-0 top-0"
/>
มาทดสอบความรู้ที่คุณได้เรียนในบทนี้กันเถอะ!
### 1. สถานการณ์ไหนที่คุณควรจะเทรน tokenizer ขึ้นมาใหม่?
<Question
choices={[
{
text: "เมื่อชดขอมลเปาหมาย คลายกบชดขอมลที่โมเดลที่อยู่แลวใชในการเทรน และคณตองการจะเทรนโมเดลขึ้นมาใหม่",
explain: "ในกรณี้ ณควรจะใชtokenizer วเดมเป pretrained model แล fine-tune นจะดกว เพื่อจะไดประหยดเวลาและทรพยากร"
},
{
text: "เมื่อชดขอมลเปาหมาย คลายกบชดขอมลที่ pretrained model ใชในการเทรน และคณตองการจะ fine-tune โมเดลตวนี้",
explain: "าคณตองการ fine-tune โมเดลจาก pretrained model ณควรจะใชtokenizer วเดยวกนเสมอ"
},
{
text: "เมื่อชดขอมลเปาหมาย แตกตางจากชดขอมลที่ pretrained model ใชและคณตองการจะเทรนโมเดลใหมึ้นมา",
explain: "กตอง! ในกรณี้ ไมประโยชนี่จะใชtokenizer วเด",
correct: true
},
{
text: "เมื่อชดขอมลเปาหมายแตกตางจากชดขอมลที่ใชโดย pretrained model แตณตองการ fine-tune โมเดลตวนี้เพื่อใหไดโมเดลใหม่",
explain: "ในการ fine-tune จาก pretrained model ณควรใชtokenizer วเดยวกนเสมอ"
}
]}
/>
### 2. เวลาใช้ `train_new_from_iterator()` อะไรคือข้อดีของการใช้ generator of lists of texts เทียบกับการใช้ list of lists of texts?
<Question
choices={[
{
text: "นเปนขอมลประเภทเดยวที่ <code>train_new_from_iterator()</code> สามารถใช้ได้",
explain: "list of lists of texts เป็น generator ประเภทหนึ่ง ดังนั้น method นี้สามารถใช้มันได้เช่นกัน ลองดูใหม่นะ!"
},
{
text: "เพื่อป้องกันไม่ให้คุณต้องโหลดชุดข้อมูลทั้งหมด ลงไปใน memory ภายในครั้งเดียว",
explain: "ถูกต้อง! แต่ละ batch ของข้อความ จะถูกปล่อยออกจาก memory เวลาที่คุณ iterate มัน คุณจะเห็นประโยชน์ของการทำแบบนี้ได้ชัดเจนยิ่งขึ้น เวลาที่คุณใช้ 🤗 Datasets เพื่อเก็บข้อความ",
correct: true
},
{
text: "ทำให้ 🤗 Tokenizers library สามารถใช้ multiprocessing ได้",
explain: "ไม่ถูก เพราะมันจะใช้ multiprocessing ในทั้งสองกรณี"
},
{
text: "tokenizer จะสามารถผลิตข้อความได้ดีขึ้น",
explain: "tokenizer ไม่สามารถผลิตข้อความได้ -- คุณอาจจะกำลังสับสนมันกับ language model หรือเปล่า"
}
]}
/>
### 3. อะไรคือข้อดีของ "fast" tokenizer?
<Question
choices={[
{
text: "นสามารถประมวลผลขอความ input ไดเรวกว slow tokenizer เวลาที่ณใชinput batch ขนาดใหญ่",
explain: "กตอง! นทำแบบนั้นไดเพราะ การทำงานแบบ parallelism จาก Rust จะทำใหนประมวลผล input ในรปแบบ batch ไดเรวขึ้ นอกจากนี้แล ณรู้ไหมวามนยงมประโยชนอะไรอ",
correct: true
},
{
text: "Fast tokenizer สามารถประมวลไดเรวกว slow tokenizer เสมอ",
explain: "ไม เพราะว fast tokenizer จะชากวาถาหาก input อยมาก เพราะมนจะไมสามารถใชparallelism ได้"
},
{
text: "นสามารถทำ padding และ truncation (ดบางสวนของขอความออก ายาวไป) ได้",
explain: "slow tokenizers สามารถทำไดเชนก"
},
{
text: "นมfeature เศษที่วยใหณสามารถ map แตละ token ไปหา span ของขอความหลกได้",
explain: " กตอง Feature ี้เรยกว offset mappings แตงมกขอที่กเชนก",
correct: true
}
]}
/>
### 4. `token-classification` pipeline มีวิธีจัดการกับ entity ที่ประกอบไปด้วยหลายๆ token ได้อย่างไร?
<Question
choices={[
{
text: "Entity ี่label เดยวกนจะถกรวมเป entity เดยว",
explain: "คำอธบายนี้ายเกนไป ลองใหมนะ!"
},
{
text: "นจะใชlabel ประเภทหนึ่งสำหร token ี่อยู่ดเริ่มตนของ entity และ label กประเภทสำหร token วนที่เหล",
explain: "กตอง!",
correct: true
},
{
text: "ในคำๆหนึ่ token แรกมlabel ของ entity คำทั้งคำจะถ label ใหเป entity ั้นดวย",
explain: "กตอง ี่เปนวหนึ่งในการจดการก entity ลองดามคำตอบอื่นที่กตองอกมั้",
correct: true
},
{
text: " token หนึ่งถ label าเป entity token ื่นๆที่ตามมาที่label เดยวก จะถกจดวาเป entity เดยวก ยกเวนว นจะเป label ี่บอกวาเริ่ entity ใหม่",
explain: "กตอง ี่เปนวมาตรฐานที่เอาไวใชรวม token ของ entity เขาดวยก -- งมกคำตอบที่กตองเชนก ลองหาดู",
correct: true
}
]}
/>
### 5. `question-answering` pipeline มีวิธีจัดการกับข้อความส่วนบริบท(context)ที่มีขนาดยาวอย่างไร?
<Question
choices={[
{
text: "นไมไดดการอะไร นแค context ใหความยาวเทากบความยาวสงสดที่เปนไปไดเทานั้",
explain: "เราไดเรยนทรกที่เอาไวใชแกญหา context ยาวกนแล จำไดั้"
},
{
text: "นจะแบ context ออกเปนหลายๆสวน แลวคำนวณคาเฉลี่ยของผลลพธจากแตละสวนเปนคำตอบ",
explain: "ไม นไมสมเหตสมผลที่จะใชาเฉลี่ เพราะวาบางสวนของ context อาจจะไมคำตอบอยู่เลยกได้"
},
{
text: "นจะแยก context ออกเปนหลายๆสวน โดยใหแตละสวนทบซอนกนดวย (overlap) แลวมนจะคำนวณ score ใหแตละสวน แลวเลอกสวนที่score งที่ดเปนคำตอบ",
explain: "กตอง!",
correct: true
},
{
text: "นจะแบ context ออกเปนหลายๆสวน โดยไมวนทบซอน เพื่อรกษาประสทธภาพ แลวเลอกสวนที่score งที่ดเปนคำตอบ",
explain: "ไม เราควรแบ context ใหวนที่บซอนดวย เพื่อปองกนไมใหเกดกรณี่ span ของคำตอบ กตดออกไปอยู่หลายๆสวน"
}
]}
/>
### 6. อะไรคือ normalization?
<Question
choices={[
{
text: "ั้นตอนที่เกี่ยวของกบการทำความสะอาดขอม ี่ tokenizer ทำในขั้นเริ่มต",
explain: "กตอง วอยางเช ลบ accents หร whitespace หรอแปลงขอความเปนตวอกษรเล",
correct: true
},
{
text: "เทคนคในการสรางขอมลใหมจากขอมลที่อยู่เพื่อขยายชดขอม (data augmentation) เกี่ยวของกบการทำขอความใหเปนปกตมากขึ้ โดยลบคำที่พบไดยากออก",
explain: "ไม! ลองดใหมนะ"
},
{
text: "ลำดบสดทายหลงการประมวลผลหล ึ่ tokenizer จะเพิ่ token เศษเขาไปใน vocabulary",
explain: "ไม ั้นตอนนี้ post-processing"
},
{
text: "ั้นตอนการสราง embeddings ให mean เทาก 0 และค standard deviation เทาก 1 ึ่งคำนวณไดโดยการลบค mean ออกจากคาหล และ หารโดย standard deviation",
explain: "ี่เปนขั้นตอน normalization สำหรบงานดาน computer vision ี่เอาไวใชปรบคาของ pixel ใหเปนมาตรฐาน แตี้ใชไมไดใน NLP"
}
]}
/>
### 7. อะไรคือขั้นตอนการ pre-tokenization ของ subword tokenizer?
<Question
choices={[
{
text: "ั้นตอนกอนการ tokenize ี่การทำ data augmentation เช random masking",
explain: "ไม ั้นตอนนี้เปนสวนหนึ่งในการประมวลผลหล"
},
{
text: "ั้นตอนกอนการ tokenize ี่อความจะถกทำความสะอาด (cleanup)",
explain: "ไม ั้นตอนนี้เรยกว normalization"
},
{
text: "ั้นตอนกอนการ tokenize ี่อความจะถกแยกออกเปนคำๆ",
explain: "กตอง!",
correct: true
},
{
text: "ั้นตอนกอนการ tokenize ี่อความจะถกแยกออกเป token",
explain: "ไม ี่อขั้นตอนหลกของ tokenizer"
}
]}
/>
### 8. เลือกข้อความที่ถูกต้อง เกี่ยวกับ BPE model?
<Question
choices={[
{
text: "BPE ออลกอรมแบบ subword ี่เริ่มการเทรนดวย vocabulary ขนาดเล และมนจะเรยนกฎเพื่อรวม token (merge rules)",
explain: "กตอง!",
correct: true
},
{
text: "BPE ออลกอรมแบบ subword ี่เริ่มการเทรนดวย vocabulary ขนาดใหญและมนจะพยายามจะลบ token ออกจาก vocabulary เรื่อยๆ",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
{
text: "BPE เปาหมายคอการเรยนกฎเพื่อรวม token เขาดวยก (merge rules) โดยมนจะรวมคู่ของ token ี่พบบอยที่ดเขาดวยก",
explain: "กตอง!",
correct: true
},
{
text: "BPE เปาหมายคอการเรยนกฎเพื่อรวม token เขาดวยก (merge rules) นจะรวมคู่ของ token ี่score งที่ดเขาดวยก าหากคู่ token ี้จำนวนมากและแตละ token ในคู่จำนวนนอย ู่ี้จะมscore ",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
{
text: "BPE ดคำออกเปนคำยอย (subwords) โดยแบงแตละคำออกเปนตวอกษร แลวใชmerge rules เพื่อรวมคำยอยพวกนี้เขาดวยก",
explain: "กตอง!",
correct: true
},
{
text: "BPE ดคำออกเปนคำยอย (subwords) โดยจะแบงคำเมื่อเจอคำยอยที่ยาวที่ดที่อยู่ใน vocabulary เริ่มจากตนคำ จากนั้ นจะทำแบบเดยวกนนี้บสวนที่เหลอของขอความไปเรื่อยๆ",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
]}
/>
### 9. เลือกข้อความที่ถูกต้อง เกี่ยวกับ WordPiece model?
<Question
choices={[
{
text: "WordPiece ออลกอรมแบบ subword ี่เริ่มการเทรนดวย vocabulary ขนาดเล และเรยนกฎสำหรบการรวม token (merge rules)",
explain: "กตอง!",
correct: true
},
{
text: "WordPiece ออลกอรมแบบ subword ี่เริ่มการเทรนดวย vocabulary ขนาดใหญและมนจะพยายามจะลบ token ออกจาก vocabulary เรื่อยๆ",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
{
text: "WordPiece เปาหมายคอการเรยนกฎเพื่อรวม token เขาดวยก (merge rules) โดยมนจะรวมคู่ของ token ี่พบบอยที่ดเขาดวยก",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
{
text: "WordPiece เปาหมายคอการเรยนกฎเพื่อรวม token เขาดวยก (merge rules) นจะรวมคู่ของ token ี่score งที่ดเขาดวยก าหากคู่ token ี้จำนวนมากและแตละ token ในคู่จำนวนนอย ู่ี้จะมscore ",
explain: "กตอง!",
correct: true
},
{
text: "WordPiece ดคำใหเปนคำยอย (subwords) โดยเลอก segmentation ี่ความเปนไปไดมากที่ดเปนคำตอบ",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
{
text: "WordPiece ดคำออกเปนคำยอย (subwords) โดยจะแบงคำเมื่อเจอคำยอยที่ยาวที่ดที่อยู่ใน vocabulary เริ่มจากตนคำ จากนั้ นจะทำแบบเดยวกนนี้บสวนที่เหลอของขอความไปเรื่อยๆ",
explain: "กตอง ี่อวี่ WordPiece ทำการ encoding",
correct: true
},
]}
/>
### 10. เลือกข้อความที่ถูกต้อง เกี่ยวกับ Unigram model?
<Question
choices={[
{
text: "Unigram ออลกอรมแบบ subword ี่เริ่มการเทรนดวย vocabulary ขนาดเล และเรยนกฎสำหรบการรวม token (merge rules)",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
{
text: "Unigram ออลกอรมแบบ subword ี่เริ่มการเทรนดวย vocabulary ขนาดใหญและมนจะพยายามจะลบ token ออกจาก vocabulary เรื่อยๆ",
explain: "กตอง!",
correct: true
},
{
text: "Unigram จะปร vocabulary โดยพยายามลดให loss ของ corpus",
explain: "กตอง!",
correct: true
},
{
text: "Unigram จะปร vocabulary โดยเลอกเก token ี่ความถี่งไว้",
explain: "ไม"
},
{
text: "Unigram WordPiece ดคำใหเปนคำยอย (subwords) โดยเลอก segmentation ี่ความเปนไปไดมากที่ดเปนคำตอบ",
explain: "กตอง!",
correct: true
},
{
text: "Unigram ดคำออกเปนคำยอย (subwords) โดยแบงแตละคำออกเปนตวอกษร แลวใชmerge rules เพื่อรวมคำยอยพวกนี้เขาดวยก",
explain: "ไม ี่อคำอธบายของอลกอรมอกประเภทตางหาก"
},
]}
/>
<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/th/chapter6/10.mdx" />

Xet Storage Details

Size:
21.9 kB
·
Xet hash:
cb8a5e1f9e6ea4997fab75ef60bb0bd8c50cc25a9f0d5c0f55ec0772641bd44b

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.