Buckets:
| # Quiz de fin de chapitre | |
| ### 1. Quel est l'ordre du pipeline de modélisation du langage ? | |
| tokenizer donne un sens à ces prédictions et les reconvertit en texte si nécessaire.", | |
| explain: " Le modèle ne peut pas comprendre le texte ! Le tokenizer doit d'abord tokeniser le texte et le convertir en identifiants afin qu'il soit compréhensible par le modèle."}, | |
| { | |
| text: " Tout d'abord, le tokenizer, qui traite le texte et renvoie des identifiants. Puis le modèle traite ces identifiants et produit une prédiction, qui peut être du texte.", | |
| explain: " La prédiction du modèle ne peut pas être du texte immédiatement. Le tokenizer doit être utilisé afin de reconvertir la prédiction en texte !"}, | |
| { | |
| text: " Le tokenizer traite le texte et renvoie des identifiants. Le modèle traite ces identifiants et produit une prédiction. Le tokenizer peut alors être utilisé à nouveau pour reconvertir ces prédictions en texte.", | |
| explain: " Le tokenizer peut être utilisé à la fois pour la tokenisation et la dé-tokénisation.", | |
| correct: true | |
| } | |
| ]} | |
| /> | |
| ### 2. Combien de dimensions le tenseur produit par le transformer de base possède-t-il et quelles sont-elles ? | |
| transformers gèrent les batchs, même avec une seule séquence ce serait une taille de batch de 1 !" | |
| }, | |
| { | |
| text: "3: la longueur de la séquence, la taille du batch et la taille cachée.", | |
| explain: "", | |
| correct: true | |
| } | |
| ]} | |
| /> | |
| ### 3. Lequel des éléments suivants est un exemple de tokenisation en sous-mots ? | |
| ### 4. Qu'est-ce qu'une tête de modèle ? | |
| transformer de base qui redirige les tenseurs vers leurs couches correctes.", | |
| explain: "Il n'y a pas de tel composant." | |
| }, | |
| { | |
| text: "Également connu sous le nom de mécanisme d'auto-attention, il adapte la représentation d'un token en fonction des autres tokens de la séquence.", | |
| explain: "La couche d'auto-attention contient des têtes d'attention mais ce ne sont pas des têtes d'adaptation." | |
| }, | |
| { | |
| text: "Un composant supplémentaire, généralement constitué d'une ou plusieurs couches, pour convertir les prédictions du transformer en une sortie spécifique à la tâche.", | |
| explain: "Les têtes d'adaptation, aussi appelées simplement têtes, se présentent sous différentes formes : têtes de modélisation du langage, têtes de réponse aux questions, têtes de classification des séquences, etc.", | |
| correct: true | |
| } | |
| ]} | |
| /> | |
| {#if fw === 'pt'} | |
| ### 5. Qu'est-ce qu'un AutoModel? | |
| AutoTrain" | |
| }, | |
| { | |
| text: "Un objet qui renvoie la bonne architecture basée sur le checkpoint .", | |
| explain: "Exactement : AutoModel a seulement besoin de connaître le checkpoint à partir duquel il doit s'initialiser pour retourner à la bonne architecture.", | |
| correct: true | |
| }, | |
| { | |
| text: "Un modèle qui détecte automatiquement la langue utilisée pour ses entrées afin de charger les bonnes pondérations.", | |
| explain: "Bien que certains checkpoints et modèles soient capables de gérer plusieurs langues, il n'existe pas d'outils intégrés pour la sélection automatique des checkpoints en fonction de la langue. Vous devez vous rendre sur le Hub des modèles pour trouver le meilleur checkpoint pour votre tâche !" | |
| } | |
| ]} | |
| /> | |
| {:else} | |
| ### 5. What is an AutoModel? | |
| AutoTrain" | |
| }, | |
| { | |
| text: "Un objet qui renvoie la bonne architecture basée sur le checkpoint .", | |
| explain: "Exactement : TFAutoModel a seulement besoin de connaître le checkpoint à partir duquel il doit s'initialiser pour retourner à la bonne architecture.", | |
| correct: true | |
| }, | |
| { | |
| text: "Un modèle qui détecte automatiquement la langue utilisée pour ses entrées afin de charger les bonnes pondérations.", | |
| explain: "Bien que certains checkpoints et modèles soient capables de gérer plusieurs langues, il n'existe pas d'outils intégrés pour la sélection automatique des checkpoints en fonction de la langue. Vous devez vous rendre sur le Hub des modèles pour trouver le meilleur checkpoint pour votre tâche !" | |
| } | |
| ]} | |
| /> | |
| {/if} | |
| ### 6. Quelles sont les techniques à connaître lors de la mise en batch de séquences de longueurs différentes ? | |
| padding", | |
| explain: "Le padding est une façon correcte d'égaliser les séquences pour qu'elles tiennent dans une forme rectangulaire. Mais est-ce le seul moyen ?", | |
| correct: true | |
| }, | |
| { | |
| text: "Les masques d'attention ", | |
| explain: "Les masques d'attention sont d'une importance capitale lorsqu'on manipule des séquences de longueurs différentes. Ce n'est cependant pas la seule technique à laquelle il faut faire attention.", | |
| correct: true | |
| } | |
| ]} | |
| /> | |
| ### 7. Quel est l'intérêt d'appliquer une fonction SoftMax aux logits produits par un modèle de classification de séquences ? | |
| ### 8. Autour de quelle méthode s'articule la majeure partie de l'API tokenizer ? | |
| encode, car elle peut encoder du texte en identifiants et des identifiants en prédictions.", | |
| explain: "Bien que la méthode encode existe sur les tokenizer, elle n'existe pas sur les modèles." | |
| }, | |
| { | |
| text: "Appeler directement l'objet tokenizer", | |
| explain: "La méthode __call__ du tokenizer est une méthode très puissante qui peut traiter à peu près tout. C'est également la méthode utilisée pour récupérer les prédictions d'un modèle.", | |
| correct: true | |
| }, | |
| { | |
| text: "pad", | |
| explain: "Le padding est très utile mais ce n'est qu'une partie de l'API tokenizer." | |
| }, | |
| { | |
| text: "tokenize", | |
| explain: "La méthode tokenize est est sans doute l'une des méthodes les plus utiles, mais elle ne constitue pas le cœur de l'API tokenizer." | |
| } | |
| ]} | |
| /> | |
| ### 9. Que contient la variable `result` dans cet exemple de code ? | |
| ```py | |
| from transformers import AutoTokenizer | |
| tokenizer = AutoTokenizer.from_pretrained("bert-base-cased") | |
| result = tokenizer.tokenize("Hello!") | |
| ``` | |
| token.", | |
| explain: "Convertissez cela en identifiants, et donnez-les à un modèle !", | |
| correct: true | |
| }, | |
| { | |
| text: "Une liste d'identifiants", | |
| explain: "C'est à cela que la méthode __call__ ou la méthode convert_tokens_to_ids sert !" | |
| }, | |
| { | |
| text: "Une chaîne contenant tous les tokens", | |
| explain: "Ce serait sous-optimal car le but est de diviser la chaîne de caractères en plusieurs éléments." | |
| } | |
| ]} | |
| /> | |
| {#if fw === 'pt'} | |
| ### 10. Y a-t-il un problème avec le code suivant ? | |
| ```py | |
| from transformers import AutoTokenizer, AutoModel | |
| tokenizer = AutoTokenizer.from_pretrained("bert-base-cased") | |
| model = AutoModel.from_pretrained("gpt2") | |
| encoded = tokenizer("Hey!", return_tensors="pt") | |
| result = model(**encoded) | |
| ``` | |
| tokenizer qui a été entraîné avec un checkpoint différent est rarement une bonne idée. Le modèle n'a pas été entraîné pour donner du sens à la sortie de ce tokenizer donc la sortie du modèle (s'il peut même fonctionner !) n'aura aucun sens." | |
| }, | |
| { | |
| text: " Le tokenizer et le modèle doivent toujours provenir du même checkpoint.", | |
| explain: "", | |
| correct: true | |
| }, | |
| { | |
| text: " C'est une bonne pratique de faire du padding et de troncage avec le tokenizer car chaque entrée est un batch.", | |
| explain: "Il est vrai que chaque entrée de modèle doit être un batch. Cependant, tronquer ou compléter cette séquence n'aurait pas nécessairement de sens puisqu'il n'y en a qu'une seule. Il s'agit là de techniques permettant de mettre en batch une liste de phrases." | |
| } | |
| ]} | |
| /> | |
| {:else} | |
| ### 10. Y a-t-il un problème avec le code suivant ? | |
| ```py | |
| from transformers import AutoTokenizer, TFAutoModel | |
| tokenizer = AutoTokenizer.from_pretrained("bert-base-cased") | |
| model = TFAutoModel.from_pretrained("gpt2") | |
| encoded = tokenizer("Hey!", return_tensors="pt") | |
| result = model(**encoded) | |
| ``` | |
| tokenizer qui a été entraîné avec un checkpoint différent est rarement une bonne idée. Le modèle n'a pas été entraîné pour donner du sens à la sortie de ce tokenizer donc la sortie du modèle (s'il peut même fonctionner !) n'aura aucun sens." | |
| }, | |
| { | |
| text: " Le tokenizer et le modèle doivent toujours provenir du même checkpoint.", | |
| explain: "", | |
| correct: true | |
| }, | |
| { | |
| text: " C'est une bonne pratique de faire du padding et de troncage avec le tokenizer car chaque entrée est un batch.", | |
| explain: "Il est vrai que chaque entrée de modèle doit être un batch. Cependant, tronquer ou compléter cette séquence n'aurait pas nécessairement de sens puisqu'il n'y en a qu'une seule. Il s'agit là de techniques permettant de mettre en batch une liste de phrases." | |
| } | |
| ]} | |
| /> | |
| {/if} | |
Xet Storage Details
- Size:
- 8.57 kB
- Xet hash:
- a2ae23568f12f5a3cc8879afe96e86b1af9a251f742d9908b70816f49ddbef78
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.