Buckets:

rtrm's picture
|
download
raw
4.32 kB
# Đố vui cuối chương
### 1. Thứ tự của một quy trình mô hình hóa ngôn ngữ là gì?
### 2. Đầu ra tensor của mô hình Transformer cơ sở có bao nhiêu chiều, và chúng là gì?
### 3. Trường hợp nào dưới đây không phải là ví dụ về tokenize theo từ phụ?
### 4. Model head (Đầu mô hình) là gì?
{#if fw === 'pt'}
### 5. AutoModel là gì?
AutoTrain của chúng tôi không?"
},
{
text: "Một đối tượng trả về kiến trúc chính xác dựa trên checkpoint",
explain: "Chính xác: AutoModel chỉ cần biết checkpoint từ đó khởi tạo để trả về kiến trúc chính xác.",
correct: true
},
{
text: "Một mô hình tự động phát hiện ngôn ngữ được sử dụng cho đầu vào của nó để tải các trọng số chính xác",
explain: "Không chính xác; trong khi một số checkpoint và mô hình có khả năng xử lý đa ngôn ngữ, không có công cụ tích hợp nào để lựa chọn checkpoint tự động theo ngôn ngữ. Bạn nên truy cập Model Hub để tìm checkpoint tốt nhất cho tác vụ của bạn!"
}
]}
/>
{:else}
### 5. TFAutoModel là gì?
AutoTrain của chúng tôi không?"
},
{
text: "Một đối tượng trả về kiến trúc chính xác dựa trên checkpoint",
explain: "Chính xác: TFAutoModel chỉ cần biết checkpoint từ đó khởi tạo để trả về kiến trúc chính xác.",
correct: true
},
{
text: "Một mô hình tự động phát hiện ngôn ngữ được sử dụng cho đầu vào của nó để tải các trọng số chính xác",
explain: "Không chính xác; trong khi một số checkpoint và mô hình có khả năng xử lý đa ngôn ngữ, không có công cụ tích hợp nào để lựa chọn checkpoint tự động theo ngôn ngữ. Bạn nên truy cập Model Hub để tìm checkpoint tốt nhất cho tác vụ của bạn!"
}
]}
/>
{/if}
### 6. Các kỹ thuật cần lưu ý khi ghép các chuỗi có độ dài khác nhau với nhau là gì?
### 7. Mục đích của việc áp dụng hàm SoftMax vào đầu ra logit của mô hình phân loại là gì?
### 8. Phần lớn API tokenizer tập trung vào phương pháp nào?
encode, vì nó có thể mã hóa văn bản thành ID và ID thành dự đoán",
explain: "Sai! Mặc dù phương thứcencode tồn tại trên tokenizers, nhưng nó không tồn tại trên các mô hình."
},
{
text: "Gọi trực tiếp đối tượng tokenizer.",
explain: "Chính xác! Phương thức __call__ của tokenizer là một phương pháp rất mạnh có thể xử lý khá nhiều thứ. Nó cũng là phương pháp được sử dụng để truy xuất các dự đoán từ một mô hình.",
correct: true
},
{
text: "Đệm thêm",
explain: "Sai! Đệm thêm rất hữu ích, nhưng nó chỉ là một phần của tokenizer API."
},
{
text: "tokenize",
explain: "Phương thức tokenize được cho là một trong những phương pháp hữu ích nhất, nhưng nó không phải là cốt lõi của API tokenizer."
}
]}
/>
### 9. Biến `result` chứa gì trong đoạn mã dưới đây?
```py
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")
```
__call__ hoặc convert_tokens_to_ids làm!"
},
{
text: "Một chuỗi chứa tất cả các token",
explain: "Điều này sẽ là không tối ưu, vì mục tiêu là chia chuỗi thành nhiều token."
}
]}
/>
{#if fw === 'pt'}
### 10. Có điều gì đó sai với đoạn mã sau đây?
```py
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")
encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)
```
{:else}
### 10. Có điều gì đó sai với đoạn mã sau đây?
```py
from transformers import AutoTokenizer, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = TFAutoModel.from_pretrained("gpt2")
encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)
```
{/if}

Xet Storage Details

Size:
4.32 kB
·
Xet hash:
0bd7581380e3ef0d49ec9ad05fa9147c43200f16ada3bcc0cdcfa7770a727ecb

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.