Buckets:
| # Modelli sequence-to-sequence | |
| I modelli encoder-decoder (detti anche modelli *sequence-to-sequence*) utilizzano entrambi i componenti dell'architettura Transformer. Ad ogni passaggio, gli attention layer dell'encoder hanno accesso a tutte le parole della frase iniziale, mentre gli attention layer del decoder possono solo accedere alle parole che precedono linearmente una data parola nell'input. | |
| Il pre-addestramento di questi modelli può essere fatto utilizzando gli obiettivi dei modelli encoder o decoder, anche se solitamente include un livello di complessità maggiore. Ad esempio, [T5](https://huggingface.co/t5-base) è pre-addestrato rimpiazzando porzioni random di testo (che possono contenere più di una parola) con una speciale mask word, con l'obiettivo di predirre il testo rimpiazzato dalla mask word stessa. | |
| I modelli sequence-to-sequence sono più adatti ai compiti che hanno a che fare con la generazione di nuove frasi sulla base di un input preciso, come il riassunto, la traduzione, o la generazione di risposte a domande. | |
| Tra i rappresentanti di questa famiglia di modelli ci sono: | |
| - [BART](https://huggingface.co/transformers/model_doc/bart.html) | |
| - [mBART](https://huggingface.co/transformers/model_doc/mbart.html) | |
| - [Marian](https://huggingface.co/transformers/model_doc/marian.html) | |
| - [T5](https://huggingface.co/transformers/model_doc/t5.html) | |
Xet Storage Details
- Size:
- 1.38 kB
- Xet hash:
- 7d85b596e34cf8570d2e1effa1a928a285d1baddf7f644be6effa5a1efc981e1
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.