Buckets:

rtrm's picture
|
download
raw
14.6 kB
# Đố vui cuối chương
Cùng kiểm tra xem bạn đã học được những gì trong chương này!
### 1. Tác vụ nào sau đây có thể được coi là vấn đề phân loại token?
<Question
choices={[
{
text: "Tìm các thành phần ngữ pháp trong một câu.",
explain: "Đúng! Sau đó, chúng tôi thể gắn nhãn mỗi từ danh từ, động từ, v.v.",
correct: true
},
{
text: "Tìm xem một câu đúng ngữ pháp hay không.",
explain: "Không, đây một bài toán phân loại chuỗi."
},
{
text: "Tìm thực thể người được đề cập trong một câu.",
explain: "Đúng! Chúng ta thể gắn nhãn từng từ phải thực thể người không.",
correct: true
},
{
text: "Tìm đoạn từ trong một câu trả lời cho một câu hỏi.",
explain: "Không, đó sẽ một vấn đề hỏi đáp."
}
]}
/>
### 2. Phần tiền xử lý để phân loại token khác với các pipeline tiền xử lý khác ở điểm nào?
<Question
choices={[
{
text: "Không cần phải làm cả; các văn bản đã được tokenize",
explain: "Các văn bản thực sự được cung cấp dưới dạng các từ riêng biệt, nhưng chúng ta vẫn cần áp dụng hình tokenize từ phụ."
},
{
text: "Các văn bản được cung cấp dưới dạng từ, vậy chúng ta chỉ cần áp dụng tokenize từ phụ.",
explain: "Chính xác! Điều này khác với quy trình tiền xử thông thường, đó chúng ta cần áp dụng quy trình tokenize đầy đủ. Bạn thể nghĩ xem còn sự khác biệt nào khác không?",
correct: true
},
{
text: "Ta sử dụng <code>-100</code> để đánh nhãn các token đặc biệt.",
explain: "Điều đó không dành riêng cho việc phân loại token -- ta luôn sử dụng <code>-100</code> như nhãn của token ta muốn bỏ quả trong hàm mất mát."
},
{
text: "Chúng ta cần đảm bảo cắt bớt hoặc đệm các nhãn có cùng kích thước với các đầu vào khi áp dụng phép cắt bớt/đệm.",
explain: "Thật vậy! Tuy nhiên đó không phải là sự khác biệt duy nhất.",
correct: true
}
]}
/>
### 3. Vấn đề gì phát sinh khi ta tokenize các từ trong bài toán phân loại token và muốn đánh nhãn token?
<Question
choices={[
{
text: "Trình tokenizer thêm các tự token đặc biệt ta không nhãn cho chúng.",
explain: "Ta đãnh nhãn <code>-100</code> cho chúng để chúng bị bỏ qua khi tính sự mất mát."
},
{
text: "Mỗi từ có thể tạo ra nhiều token, nên đến cuối ta sẽ có nhiều token hơn số nhãn.",
explain: "Đó là vấn đề chính và chúng ta cần phải căn chỉnh các nhãn gốc với các token.",
correct: true
},
{
text: "Các token được thêm không có nhãn, nên không có vấn đề gì.",
explain: "Không chính xác; ta cần số nhãn tương ứng số token nếu không mô hình sẽ báo lỗi."
}
]}
/>
### 4. "Thích ứng chuyên môn" là gì?
<Question
choices={[
{
text: "Đó khi chúng ta chạy một hình trên tập dữ liệu nhận các dự đoán cho từng mẫu trong tập dữ liệu đó.",
explain: "Không, đây chỉ chạy quá trình luận suy."
},
{
text: "Đó khi chúng ta huấn luyện một hình trên tập dữ liệu.",
explain: "Không, đây huấn luyện một hình; không sự thích nghi đây."
},
{
text: "Đó khi chúng ta tinh chỉnh một hình được huấn luyện trước trên một tập dữ liệu mới đưa ra các dự đoán phù hợp hơn với tập dữ liệu đó",
explain: "Đúng! hình đã điều chỉnh kiến ​​thức của để phù hợp với tập dữ liệu mới.",
correct: true
},
{
text: "Đó khi chúng ta thêm các mẫu bị phân loại sai vào tập dữ liệu để làm cho hình mạnh mẽ hơn.",
explain: "Đó chắc chắn điều bạn nên làm nếu huấn luyện lại hình của mình thường xuyên, nhưng đó không phải thích ứng chuyên môn."
}
]}
/>
### 5. Các nhãn trong bài toán mô hình ngôn ngữ bị ẩn đi là gì?
<Question
choices={[
{
text: "Một số token đầu vào bị che ngẫu nhiên nhãn các token đầu vào ban đầu.",
explain: "Chính !",
correct: true
},
{
text: "Một số token đầu vào bị che ngẫu nhiên nhãn các token đầu vào ban đầu, được dịch sang bên trái.",
explain: "Không, dịch các nhãn sang bên trái tương ứng với dự đoán từ tiếp theo hay hình ngôn ngữ nhân quả."
},
{
text: "Một số token đầu vào bị che ngẫu nhiên nhãn các câu phủ định hay khẳng định.",
explain: "Đó vấn đề phân loại chuỗi với tăng cường dữ liệu, không phải hình ngôn ngữ bị che đi."
},
{
text: "Một số token trong hai câu đầu vào bị che đi ngẫu nhiên, nhãn hai câu đó giống nhau hay không.",
explain: "Đó vấn đề phân loại chuỗi với tăng cường dữ liệu, không phải hình ngôn ngữ bị che đi."
}
]}
/>
### 6. Tác vụ nào sau đây có thể được coi là bài toán chuỗi sang chuỗi?
<Question
choices={[
{
text: "Viết đánh giá ngắn về tài liệu dài",
explain: "Đúng, đó một bài toán tóm tắt. Hãy thử một câu trả lời khác!",
correct: true
},
{
text: "Trả lời câu hỏi về một tài liệu",
explain: "Đây thể được coi một bài toán chuỗi sang chuỗi. Tuy nhiên, đây không phải câu trả lời đúng duy nhất.",
correct: true
},
{
text: "Dịch một văn bản bằng tiếng Trung sang tiếng Anh",
explain: "Đó chắc chắn bài toán chuỗi sang chuỗi. Bạn thể tìm thấy đáp án nào nữa không?",
correct: true
},
{
text: "Sửa các tin nhắn do cháu trai/ bạn tôi gửi để chúng được viết bằng tiếng Anh chuẩn",
explain: "Đó một dạng dịch máy, nên chắc chắn bài toán chuỗi sang chuỗi. Tuy nhiên, đó không phải đáp án đúng duy nhất!",
correct: true
}
]}
/>
### 7. Đây là phuwong pháp phù hợp để tiền xử lý dữ liệu cho bài toán chuỗi sang chuỗi?
<Question
choices={[
{
text: "Đầu vào nhãn phải được gửi cùng nhau tới tokenizer qua <code>inputs=...</code><code>targets=...</code>.",
explain: "Đây có thể là một API mà chúng tôi sẽ thêm vào trong tương lai, nhưng điều đó không khả thi ở thời điểm hiện tại."
},
{
text: "Đầu vào và nhãn đều phải được tiền xử lý, trong hai lệch gọi riêng biệt tới tokenizer.",
explain: "Điều đó đúng, nhưng chưa đủ. Bạn cần phải làm gì đó nữa để đảm bảo trình tokenizer xử lý đúng cả hai."
},
{
text: "Như thường lệ, chúng ta chỉ phhải tokenize đầu vào.",
explain: "Không phải với bài toán phân loại chuỗi; nhãn cũng là văn bản nên ta cần chuyển sang dạng số!"
},
{
text: "Đầu vào phải đước gửi tới trình tokenizer, và nhãn cũng vậy, nhưng theo trình quản lý ngữ cảnh đặc biệt.",
explain: "Đúng vậy, tokenizer cần xử lý nhãn dựa trên trình quản lý ngữ cảnh.",
correct: true
}
]}
/>
{#if fw === 'pt'}
### 8. Vì sao lại có lớp con `Trainer` cho các bài toán chuỗi sang chuỗi?
<Question
choices={[
{
text: " các vấn đề chuỗi sang chuỗi sử dụng một hàm mất mát tuỳ chỉnh để bỏ qua tập hợp nhãn <code>-100</code>",
explain: "Đây không phải là tuỳ chỉnh mất mát, mà là cách sự mất mát vẫn luôn được tính toán."
},
{
text: "Vì các vấn đề chuỗi sang chuỗi cần một vòng đánh giá đặc biệt",
explain: "Chính xác. Các dự đoán mô hình chuỗi sang chuỗi thường được chạy sử dụng phương thức <code>generate()</code>.",
correct: true
},
{
text: "Bởi vì nhãn là văn bản trong bài toán chuỗi sang chuỗi",
explain: "<code>Trainer</code> không thực sự quan tâm vì chúng đã được tiền xử lý trước đó."
},
{
text: "Vì ta sử dụng hai mô hình trong bài toán chuỗi sang chuỗi",
explain: "Chúng ta sử dụng hai mô hình cùng một cách, một trình mã hoá và một trình giải mã, nhưng ta sẽ nhóm chúng lại trong một mô hình."
}
]}
/>
{:else}
### 9. Vì sao không cần thiết chỉ định hàm mất mát khi gọi `compile()` trong mô hình Transformer?
<Question
choices={[
{
text: " các hình Transformer models được huấn luyện phi giám sát",
explain: "Không hẳn -- kể cả học phi giám sát cùng cần hàm mất mát!"
},
{
text: " mất mát bên trong của đầu ra được sử dụng theo mặc định",
explain: "Chính xác!",
correct: true
},
{
text: " thay vào đó chúng ta tính các thước đo sau khi huấn luyện",
explain: "Ta thường làm vậy, nhưng không giải thích cho việc nhận giá trị mất mát khi ta tối ưu trong khi huấn luyện."
},
{
text: " sự mất mát được chỉ định cụ thể trong `model.fit()`",
explain: "Không, hàm mất mát luôn cố định khi bạn chạy `model.compile()`, không thể thay đổi trong `model.fit()`."
}
]}
/>
{/if}
### 10. Khi nào bạn nên huấn luyện trước một mô hình mới?
<Question
choices={[
{
text: "Khi không hình huấn luyện sẵn cho ngôn ngữ của bạn",
explain: "Chính xác.",
correct: true
},
{
text: "Khi bạn rất nhiều dữ liệu sẵn, ngay cả khi đã một hình huấn luyện trước thể hoạt động trên đó",
explain: "Trong trường hợp này, bạn nên sử dụng hình đã được huấn luyện sẵn tinh chỉnh theo dữ liệu của bạn, tránh chi phí tính toán lớn."
},
{
text: "Khi bạn lăn tăn về sự sai lệch của hình huấn luyện trước bạn sử dụng",
explain: "Đúng, nhưng bạn phải đảm bảo rằng dữ liệu bạn sử dụng cho huấn luyện sẽ luôn tốt hơn.",
correct: true
},
{
text: "Khi các hình huấn luyện trước sẵn không đủ tốt",
explain: "Bạn chắc bạn đã gỡ lỗi đúng cách cho quá trình huấn luyện của mình không?"
}
]}
/>
### 11. Vì sao ta dễ huấn luyện trước một mô hình ngôn ngữ khi có khối lượng văn bản khổng lồ?
<Question
choices={[
{
text: " rất nhiều dữ liệu văn bản sẵn trên mạng",
explain: " đúng, nhưng không thực sự đáp án cho câu hỏi. Hãy thử lại!"
},
{
text: " mục đích huấn luyện trước không cần con người gán nhãn dữ liệu the pretraining objective does not require humans to label the data",
explain: "Chính xác, hình ngôn ngữ bài toán tự giám sát.",
correct: true
},
{
text: " thư viện 🤗 Transformers chỉ yêu cầu một vài dòng để bắt đầu huấn luyện",
explain: " đúng, nhưng không thực sự đáp án cho câu hỏi. Hãy thử đáp án khác"
}
]}
/>
### 12. Đâu là những thách thức chính khi tiền xử lí dữ liệu cho tác vụ hỏi đáp?
<Question
choices={[
{
text: "Bạn cần tokenize đầu vào.",
explain: "Chính xác, nhưng đó thực sự một thách thức chính?"
},
{
text: "Bạn cần xử chuỗi ngữ cảnh dài nhận nhiều đặc trưng huấn luyện thể chứa đáp án bên trong hoặc không.",
explain: "Đây chắc chắn một trong những thách thức.",
correct: true
},
{
text: "Bạn cần tokenize câu trả lời của câu hỏi cũng như đầu vào.",
explain: "Không, trừ khi bạn đang coi vấn đề hỏi đáp một tác vụ chuỗi sang chuỗi."
},
{
text: "Từ mảng câu trả lời trong văn bản, bạn phải tìm ra token bắt đầu kết thúc trong đầu vào đã được tokenize.",
explain: "Đây chính một trong những phần khó nhất, chính xác!",
correct: true
}
]}
/>
### 13. Làm thể nào để hậu xử lý trong bài toán hỏi đáp?
<Question
choices={[
{
text: " hình cung cấp cho bạn vị trí bắt đầu kết thúc của câu trả lời bạn chỉ cần giải khoảng token tương ứng..",
explain: "Đó thể một cách để làm điều đó, nhưng hơi quá đơn giản."
},
{
text: " hình cung cấp cho bạn vị trí bắt đầu kết thúc của câu trả lời cho mỗi đặc trưng được tạo bởi một mẫu bạn chỉ cần giải khoảng token tương ứng của cái điểm tốt nhất.",
explain: " gần giống quá trình hậu xử chúng ta đã học, nhưng không hoàn toàn đúng."
},
{
text: " hình cung cấp cho bạn vị trí bắt đầu kết thúc của câu trả lời cho mỗi đặc trưng được tạo bởi một mẫu bạn chỉ cần đối sánh chúng với khoảng trong ngữ cảnh của cái điểm tốt nhất.",
explain: "Chính !",
correct: true
},
{
text: " hình tạo ra một câu trả lời bạn chỉ cần giải nó.",
explain: "Không, trừ khi bạn đang coi vấn đề hỏi đáp một tác vụ chuỗi sang chuỗi."
}
]}
/>
<EditOnGithub source="https://github.com/huggingface/course/blob/main/chapters/vi/chapter7/9.mdx" />

Xet Storage Details

Size:
14.6 kB
·
Xet hash:
b02d660e568b1f5983abf4000053eaa84bfe89083f8715303dcc02ac48d69467

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.