Buckets:

rtrm's picture
|
download
raw
13.9 kB
# Đố vui cuối chương
Cùng kiểm tra xem bạn đã học được những gì trong chương này!
### 1. Khi nào ta nên huấn luyện 1 tokenizer mới?
<Question
choices={[
{
text: "Khi tập dữ liệu của bạn tương tự với tập dữ liệu được sử dụng bởi một hình huấn luyện trước hiện bạn muốn huấn luyện trước một hình mới",
explain: "Trong trường hợp này, để tiết kiệm thời gian tính toán tài nguyên, lựa chọn tốt hơn sẽ sử dụng cùng một trình tokenize như hình được huấn luyện trước thay vào đó tinh chỉnh hình đó."
},
{
text: "Khi tập dữ liệu của bạn tương tự với tập dữ liệu được sử dụng bởi một hình huấn luyện trước hiện bạn muốn tinh chỉnh một hình mới bằng cách sử dụng hình huấn luyện trước này",
explain: "Để tinh chỉnh một hình từ một hình đã được huấn luyện trước, bạn nên luôn sử dụng cùng một trình tokenizer."
},
{
text: "Khi tập dữ liệu của bạn khác với tập dữ liệu được sử dụng bởi hình huấn luyện trước hiện bạn muốn huấn luyện trước một hình mới",
explain: "Đúng! Trong trường hợp này, không lợi ích khi sử dụng cùng một tokenizer.",
correct: true
},
{
text: "Khi tập dữ liệu của bạn khác với tập dữ liệu được sử dụng bởi một hình huấn luyện trước hiện , nhưng bạn muốn tinh chỉnh một hình mới bằng cách sử dụng hình huấn luyện trước này",
explain: "Để tinh chỉnh một hình từ một hình đã được huấn luyện trước, bạn nên luôn sử dụng cùng một trình tokenizer."
}
]}
/>
### 2. Ưu điểm của việc sử dụng trình tạo danh sách văn bản so với danh sách các danh sách văn bản khi sử dụng `train_new_from_iterator()` là gì?
<Question
choices={[
{
text: "Đó kiểu duy nhất phương thức <code>train_new_from_iterator()</code> chấp nhận.",
explain: "Danh sách các danh sách văn bản là một loại trình tạo danh sách văn bản cụ thể, vì vậy phương pháp cũng sẽ chấp nhận điều này. Hãy thử lại!"
},
{
text: "Bạn sẽ tránh tải toàn bộ tập dữ liệu vào bộ nhớ cùng một lúc.",
explain: "Đúng vậy! Mỗi loạt văn bản sẽ được giải phóng khỏi bộ nhớ khi bạn lặp lại và phần thu được sẽ đặc biệt rõ ràng nếu bạn sử dụng 🤗 Datasets để lưu trữ văn bản của mình.",
correct: true
},
{
text: "Điều này sẽ cho phép thư viện 🤗 Tokenizers sử dụng quá trình xử lý đa luồng.",
explain: "Không, với cách nào xử lý đa luồng cũng sẽ được sử dụng."
},
{
text: "Tokenizer mà bạn huấn luyện sẽ tạo ra các văn bản tốt hơn.",
explain: "Tokenize không tạo ra văn bản -- bạn có đang nhầm lẫn với mô hình ngôn ngữ không?"
}
]}
/>
### 3. Ưu điểm của tokenize "nhanh" là gì?
<Question
choices={[
{
text: " thể xử dữ liệu đầu vào nhanh hơn tokenizer chậm khi bạn gộp nhiều đầu vào với nhau.",
explain: "Đúng! Nhờ tính năng song song được triển khai trong Rust, sẽ nhanh hơn trên các đầu vào. Bạn thể nghĩ đến lợi ích nào khác không?",
correct: true
},
{
text: "Tokenizer nhanh luôn tokenize nhanh hơn các trình chậm khác.",
explain: "Một tokenizer nhanh thể chậm hơn khi bạn chỉ nhận một hoặc một vài đoạn văn bản, không thể sử dụng song song."
},
{
text: " thể áp dụng đệm cắt bớt.",
explain: "Đúng, nhưng tokenize chậm cũng làm được điều đó."
},
{
text: " một số tính năng bổ sung cho phép bạn ánh xạ các tokenize với khoảng văn bản đã tạo ra chúng.",
explain: "Thật vậy - chúng được gọi ánh xạ offset. Tuy nhiên, đó không phải lợi thế duy nhất.",
correct: true
}
]}
/>
### 4. Pipeline `token-classification` xử lý các thực thể trải dài trên nhiều token như thế nào?
<Question
choices={[
{
text: "Các thực thể cùng nhãn được hợp nhất thành một thực thể.",
explain: "Đó đơn giản hóa mọi thứ một chút rồi. Hãy thử lại!"
},
{
text: " một nhãn cho sự bắt đầu của một thực thể một nhãn cho sự tiếp tục của một thực thể.",
explain: "Chính xác!",
correct: true
},
{
text: "Trong một từ nhất định, miễn token đầu tiên nhãn của thực thể, toàn bộ từ được coi được gắn nhãn với thực thể đó.",
explain: "Đó một chiến lược để xử các thực thể. Còn những câu trả lời nào khác đây áp dụng không?",
correct: true
},
{
text: "Khi token nhãn của một thực thể nhất định, bất kỳ token nào khác phía sau cùng nhãn được coi một phần của cùng một thực thể, trừ khi được gắn nhãn phần bắt đầu của một thực thể mới.",
explain: "Đó cách phổ biến nhất để nhóm các thực thể lại với nhau - tuy nhiên, đó không phải câu trả lời đúng duy nhất.",
correct: true
}
]}
/>
### 5. Pipeline `question-answering` xử lý ngữ cảnh dài như thế nào?
<Question
choices={[
{
text: " không thực sự xử , cắt đi những ngữ cảnh dài quá độ dài tối đa được chấp nhận của hình.",
explain: " một thủ thuật bạn thể sử dụng để xử các ngữ cảnh dài. Bạn nhớ không?"
},
{
text: " chia ngữ cảnh thành nhiều phần trung bình kết quả thu được từ các phần.",
explain: "Không, khá nghĩa khi lấy trung bình các kết quả, do một số phần của ngữ cảnh không chứa câu trả lời."
},
{
text: " chia ngữ cảnh thành nhiều phần ( giao thoa) tìm điểm cao nhất cho câu trả lời mỗi phần.",
explain: "Đó câu trả lời chính xác!",
correct: true
},
{
text: " chia ngữ cảnh thành nhiều phần (không giao thoa, để tăng hiệu quả) tìm điểm cao nhất cho câu trả lời mỗi phần.",
explain: "Không, bao gồm một số trùng lặp giữa các phần để tránh tình huống câu trả lời sẽ bị chia thành hai phần."
}
]}
/>
### 6. Chuẩn hoá là gì?
<Question
choices={[
{
text: "Đó bất kỳ thao tác dọn dẹp nào tokenizer thực hiện trên các văn bản trong giai đoạn đầu.",
explain: "Đúng vậy - dụ: thể liên quan đến việc xóa dấu hoặc khoảng trắng, hoặc viết thường các đầu vào.",
correct: true
},
{
text: "Đó thuật gia tăng dữ liệu bao gồm khả năng tạo ta các văn bản chuẩn hơn bằng cách loại bỏ từ hiếm.",
explain: "Điều đó không chính xác! Hãy thử lại."
},
{
text: "Đó bước hậu xử cuối cùng khi tokenizer thêm các token đặc biệt.",
explain: "Bước tả trên chỉ đơn giản hậu xử lý."
},
{
text: "Đó khi biểu diễn từ được tạo ra với trung bình bằng 0 độ lệch chuẩn bằng 1, được tính bằng cách trừ trung bình chia cho độ lệch chuẩn.",
explain: "Quá trình này thường được gọi chuẩn hoá khi áp dụng lên các giá trị pixel trong thị giác máy tính, nhưng không phải ý nghĩa của chuẩn hoá trong NLP."
}
]}
/>
### 7. Pre-tokenization cho một tokenizer từ phụ là sao?
<Question
choices={[
{
text: "Đó bước trước khi tokenize, áp dụng phương pháp tăng dữ liệu (như tạo các lớp che ngẫu nhiên).",
explain: "Không, bước này chỉ một phần của tiền xử thôi."
},
{
text: "Đó bước trước khi tokenize, áp dụng các bước dọn dẹp cho văn bản.",
explain: "Không, bước này chỉ bước chuẩn hoá thôi."
},
{
text: "Đó bước trước khi tokenize, áo dụng hình để chia đầu vào thành các từ.",
explain: "Chính xác!",
correct: true
},
{
text: "Đó bước trước khi tokenize, áp dụng hình để chia đầu vào thành các token.",
explain: "Không, chia đầu vào thành các token nhiệm vụ của hình tokenize."
}
]}
/>
### 8. Chọn các câu áp dụng mô hình BPE để tokenize?
<Question
choices={[
{
text: "BPE một thuật toán tokenize từ phụ bắt đầu với một từ vựng nhỏ học các quy tắc hợp nhất.",
explain: "Đây quả thực câu trả lời!",
correct: true
},
{
text: "BPE một thuật tokenize từ phụ bắt đầu với một lượng từ vựng lớn loại bỏ dần các token khỏi nó.",
explain: "Không, đây hướng tiếp cận của thuật toán tokenize khác."
},
{
text: "BPE tokenizer học các quy tắc hợp nhất bằng cách gộp các cặp token tần suất cao nhất.",
explain: "Chính xác!",
correct: true
},
{
text: "BPE tokenizer học các quy tắc hợp nhất bằng cách gộp các cặp token tối đa hoá điểm của các cặp tần suất cao so với các phần nhân tần suất ít hơn.",
explain: "Không, đây chiến lược của thuật toán tokenie khác."
},
{
text: "BPE tokenize các từ thành các từ phụ bằng cách chia chúng thành các tự áp dụng quy tắc hợp nhất.",
explain: "Chính xác!",
correct: true
},
{
text: "BPE tokenize các từ thành các từ phụ bằng cách tìm từ phụ dài nhất bắt đầu từ phần đầu trong từ vựng, sau đó lặp lại quy trình cho phần còn lại của văn bản.",
explain: "Không, đây cách phương pháp tokenize khác làm."
},
]}
/>
### 9. Chọn các câu áp dụng mô hình WordPiece để tokenize?
<Question
choices={[
{
text: "WordPiece một thuật toán tokenize từ phụ bắt đầu với một từ vựng nhỏ học các quy tắc hợp nhất.",
explain: "Đây quả thực câu trả lời!",
correct: true
},
{
text: "WordPiece một thuật tokenize từ phụ bắt đầu với một lượng từ vựng lớn loại bỏ dần các token khỏi nó.",
explain: "Không, đây hướng tiếp cận của thuật toán tokenize khác."
},
{
text: "WordPiece tokenizer học các quy tắc hợp nhất bằng cách gộp các cặp token tần suất cao nhất.",
explain: "Không, đây chiến lược của thuật toán tokenie khác."
},
{
text: "WordPiece tokenizer học các quy tắc hợp nhất bằng cách gộp các cặp token tối đa hoá điểm của các cặp tần suất cao với các token nhân của tần suất ít hơn.",
explain: "Chính xác!",
correct: true
},
{
text: "WordPiece tokenize từ thành các từ phụ bằng cách tìm ra những phân đoạn khả năng tách thành token nhất dựa theo hình.",
explain: "Không, đây cách phương pháp tokenize khác làm."
},
{
text: "WordPiece tokenize các từ thành các từ phụ bằng cách tìm từ phụ dài nhất bắt đầu từ phần đầu trong từ vựng, sau đó lặp lại quy trình cho phần còn lại của văn bản.",
explain: "Đúng, đây chính cách WordPiece xử hoá.",
correct: true
},
]}
/>
### 10. Chọn các câu áp dụng mô hình Unigram để tokenize?
<Question
choices={[
{
text: "Unigram một thuật toán tokenize từ phụ bắt đầu với một từ vựng nhỏ học các quy tắc hợp nhất.",
explain: "Không, đây chiến lược của thuật toán tokenie khác."
},
{
text: "Unigram một thuật tokenize từ phụ bắt đầu với một lượng từ vựng lớn loại bỏ dần các token khỏi nó.",
explain: "Chính xác!",
correct: true
},
{
text: "Unigram điều chỉnh vốn từ vựng của bằng cách giảm thiểu sự mất mát được tính trên toàn bộ kho ngữ liệu.",
explain: "Chính xác!",
correct: true
},
{
text: "Unigram điều chỉnh vốn từ vựng của bằng cách chỉ giữ lại những từ phụ hay xuất hiện.",
explain: "Không hính xác!",
},
{
text: "Unigram tokenize từ thành các từ phụ bằng cách tìm ra những phân đoạn khả năng tách thành token nhất dựa theo hình.",
explain: "Chính xác!",
correct: true
},
{
text: "Unigram tokenizes từ thành các từ phụ bằng cách tách từ đó thành tự rồi áp dụng quy tắc hợp nhất.",
explain: "Không, đây chiến lược của thuật toán tokenie khác."
},
]}
/>
<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/vi/chapter6/10.mdx" />

Xet Storage Details

Size:
13.9 kB
·
Xet hash:
a96200642ab44de546776fe0de110290ab18e22eae0b8dd9c40f25b8037cacf3

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.