Buckets:
| # โมเดล sequence-to-sequence | |
| โมเดล encoder-decoder (หรือเรียกอีกชื่อหนึ่งว่า *โมเดล sequence-to-sequence*) ใช้ทั้งสองส่วนในสถาปัตยกรรม Transformer ในแต่ละชั้น attention layer ของ encoder จะเข้าถึงคำทั้งหมดในประโยคเริ่มต้นได้ ในขณะที่ attention layer ของ decoder สามารถเข้าถึงได้เพียงคำที่อยู่ตำแหน่งก่อนหน้าคำที่กำหนดใน input เท่านั้น | |
| โมเดล pretrain สามารถเทรนมาในลักษณะเดียวกับโมเดล encoder หรือโมเดล decoder ก็ได้ แต่โดยมากแล้วจะซับซ้อนมากกว่า ตัวอย่างเช่น [T5](https://huggingface.co/t5-base) ถูกเทรนมาโดยการแทนที่กลุ่มคำ(ซึ่งอาจจะมีเพียงคำเดียวหรือหลายคำก็ได้)ด้วยคำพิเศษคำเดียว และเป้าหมายคือให้ทำนายข้อความที่คำพิเศษคำนี้แทนที่มา | |
| โมเดล sequence-to-sequence เหมาะกับงานในการสร้างประโยคขึ้นมาใหม่จาก input ที่กำหนดให้ เช่น การสรุปความ, การแปลภาษา, หรือการสร้างคำตอบจากคำถาม | |
| ตัวแทนโมเดลในกลุ่มนี้ได้แก่: | |
| - [BART](https://huggingface.co/transformers/model_doc/bart.html) | |
| - [mBART](https://huggingface.co/transformers/model_doc/mbart.html) | |
| - [Marian](https://huggingface.co/transformers/model_doc/marian.html) | |
| - [T5](https://huggingface.co/transformers/model_doc/t5.html) | |
Xet Storage Details
- Size:
- 2.19 kB
- Xet hash:
- fb2f3a3af0c9b7d8d870f64a893fe954acd442155180ba6d22ac0b729cfeea5d
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.