Buckets:

rtrm's picture
|
download
raw
1.57 kB

Modelos sequência a sequência

Modelos encoder-decoder (também chamados de modelos sequence-to-sequence) usam ambas as partes da arquitetura Transformer. Em cada estágio, as camadas de atenção do codificador podem acessar todas as palavras da frase inicial, enquanto as camadas de atenção do decodificador podem acessar apenas as palavras posicionadas antes de uma determinada palavra na entrada.

O pré-treinamento desses modelos pode ser feito usando os objetivos dos modelos de codificador ou decodificador, mas geralmente envolve algo um pouco mais complexo. Por exemplo, T5 é pré-treinado substituindo trechos aleatórios de texto (que podem conter várias palavras) por uma única palavra especial de máscara, e o objetivo é prever o texto que esta palavra de máscara substitui.

Os modelos de sequência a sequência são mais adequados para tarefas que envolvem a geração de novas frases dependendo de uma determinada entrada, como resumo, tradução ou resposta a perguntas generativas.

Os representantes desta família de modelos incluem:

Xet Storage Details

Size:
1.57 kB
·
Xet hash:
0b3e979eee24a0f28d9c22d39556eaa4265cfa10ec1f9252aa2d3e2c1ea238eb

Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.