| <!--Copyright 2020 The HuggingFace Team. All rights reserved. | |
| Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with | |
| the License. You may obtain a copy of the License at | |
| http://www.apache.org/licenses/LICENSE-2.0 | |
| Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on | |
| an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the | |
| specific language governing permissions and limitations under the License. | |
| โ ๏ธ Note that this file is in Markdown but contain specific syntax for our doc-builder (similar to MDX) that may not be | |
| rendered properly in your Markdown viewer. | |
| --> | |
| # BARThez [[barthez]] | |
| ## ๊ฐ์ [[overview]] | |
| BARThez ๋ชจ๋ธ์ 2020๋ 10์ 23์ผ, Moussa Kamal Eddine, Antoine J.-P. Tixier, Michalis Vazirgiannis์ ์ํด [BARThez: a Skilled Pretrained French Sequence-to-Sequence Model](https://huggingface.co/papers/2010.12321)์์ ์ ์๋์์ต๋๋ค. | |
| ์ด ๋ ผ๋ฌธ์ ์ด๋ก: | |
| *์๊ธฐ์ง๋ ํ์ต์ ์ํด ๊ฐ๋ฅํด์ง ๊ท๋ฉ์ ์ ์ด ํ์ต์ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ๋ถ์ผ ์ ๋ฐ์ ๊ฑธ์ณ ํฐ ๋ฐํฅ์ ์ผ์ผ์ผฐ์ผ๋ฉฐ, | |
| BERT์ BART์ ๊ฐ์ ๋ชจ๋ธ๋ค์ ์๋ง์ ์์ฐ์ด ์ดํด ์์ ์์ ์๋ก์ด ์ต์ฒจ๋จ ์ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ผ๋ถ ์ฃผ๋ชฉํ ๋งํ ์์ธ๊ฐ ์์ง๋ง, | |
| ๋๋ถ๋ถ์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ธ๊ณผ ์ฐ๊ตฌ๋ ์์ด์ ์ง์ค๋์ด ์์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ BARThez๋ฅผ ์๊ฐํฉ๋๋ค. | |
| ์ด๋ (์ฐ๋ฆฌ๊ฐ ์๋ ํ) ํ๋์ค์ด๋ฅผ ์ํ ์ฒซ ๋ฒ์งธ BART ๋ชจ๋ธ์ ๋๋ค. | |
| BARThez๋ ๊ณผ๊ฑฐ ์ฐ๊ตฌ์์ ์ป์ ๋งค์ฐ ํฐ ํ๋์ค์ด ๋จ์ผ ์ธ์ด ๋ง๋ญ์น๋ก ์ฌ์ ํ๋ จ๋์์ผ๋ฉฐ, | |
| BART์ ๋ณํ ๋ฐฉ์์ ๋ง๊ฒ ์กฐ์ ๋์์ต๋๋ค. | |
| CamemBERT ๋ฐ FlauBERT์ ๊ฐ์ ๊ธฐ์กด์ BERT ๊ธฐ๋ฐ ํ๋์ค์ด ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ, BARThez๋ ์์ฑ ์์ ์ ํนํ ์ ํฉํฉ๋๋ค. | |
| ์ด๋ ์ธ์ฝ๋๋ฟ๋ง ์๋๋ผ ๋์ฝ๋๋ ์ฌ์ ํ๋ จ๋์๊ธฐ ๋๋ฌธ์ ๋๋ค. | |
| ์ฐ๋ฆฌ๋ FLUE ๋ฒค์น๋งํฌ์์์ ํ๋ณ ์์ ์ธ์๋ ์ด ๋ ผ๋ฌธ๊ณผ ํจ๊ป ๊ณต๊ฐํ๋ ์๋ก์ด ์์ฝ ๋ฐ์ดํฐ์ ์ธ OrangeSum์์ BARThez๋ฅผ ํ๊ฐํ์ต๋๋ค. | |
| ๋ํ ์ด๋ฏธ ์ฌ์ ํ๋ จ๋ ๋ค๊ตญ์ด BART์ ์ฌ์ ํ๋ จ์ BARThez์ ๋ง๋ญ์น๋ก ๊ณ์ ์งํํ์์ผ๋ฉฐ, | |
| ๊ฒฐ๊ณผ์ ์ผ๋ก ์ป์ด์ง ๋ชจ๋ธ์ธ mBARTHez๊ฐ ๊ธฐ๋ณธ BARThez๋ณด๋ค ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์๊ณ , | |
| CamemBERT ๋ฐ FlauBERT์ ๋๋ฑํ๊ฑฐ๋ ์ด๋ฅผ ๋ฅ๊ฐํจ์ ๋ณด์์ต๋๋ค.* | |
| ์ด ๋ชจ๋ธ์ [moussakam](https://huggingface.co/moussakam)์ด ๊ธฐ์ฌํ์ต๋๋ค. ์ ์์ ์ฝ๋๋ [์ฌ๊ธฐ](https://github.com/moussaKam/BARThez)์์ ์ฐพ์ ์ ์์ต๋๋ค. | |
| <Tip> | |
| BARThez ๊ตฌํ์ ๐ค BART์ ๋์ผํ๋, ํ ํฐํ์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ๊ตฌ์ฑ ํด๋์ค์ ๊ทธ ๋งค๊ฐ๋ณ์์ ๋ํ ์ ๋ณด๋ [BART ๋ฌธ์](bart)๋ฅผ ์ฐธ์กฐํ์ญ์์ค. | |
| BARThez ์ ์ฉ ํ ํฌ๋์ด์ ๋ ์๋์ ๋ฌธ์ํ๋์ด ์์ต๋๋ค. | |
| </Tip> | |
| ## ๋ฆฌ์์ค [[resources]] | |
| - BARThez๋ ๐ค BART์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์ํ์ค-ํฌ-์ํ์ค ์์ ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ ๋ ์ ์์ต๋๋ค. ๋ค์์ ํ์ธํ์ธ์: | |
| [examples/pytorch/summarization/](https://github.com/huggingface/transformers/tree/main/examples/pytorch/summarization/README.md). | |
| ## BarthezTokenizer [[bartheztokenizer]] | |
| [[autodoc]] BarthezTokenizer | |
| ## BarthezTokenizerFast [[bartheztokenizerfast]] | |
| [[autodoc]] BarthezTokenizerFast | |