Update README.md
Browse files
README.md
CHANGED
|
@@ -21,11 +21,13 @@ DeBERTina é um modelo [DeBERTa-v3](https://arxiv.org/abs/2111.09543) em portugu
|
|
| 21 |
|
| 22 |
*DeBERTina is a portuguese [DeBERTa-v3](https://arxiv.org/abs/2111.09543) model trained electra-style [ELECTRA](https://arxiv.org/abs/2003.10555) (with Replaced Token Detection - RTD) and gradient-disentangled embedding sharing (GDES).*
|
| 23 |
|
| 24 |
-
| Model | type | Vocabulary | Parameters
|
| 25 |
| :-: | :-: | :-: | :-: |
|
| 26 |
-
| [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 65k |82.4M |
|
| 27 |
-
| [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small) | sentence-transformer | 65k | 51M |
|
| 28 |
-
| [DeBERTina-base](https://huggingface.co/tgsc/debertina-base) | encoder | 32k |
|
|
|
|
|
|
|
| 29 |
|
| 30 |
- **Developed by:** Thacio Garcia Scandaroli
|
| 31 |
- **Model type:** DeBERTa-v3
|
|
@@ -42,12 +44,12 @@ Special tokens:
|
|
| 42 |
|
| 43 |
## Treino
|
| 44 |
|
| 45 |
-
O modelo foi treinado com
|
| 46 |
|
| 47 |
O treino consiste em um gerador e um discriminador. O gerador é treinado com *masked language modeling* em 15% dos tokens. Em seguida, tokens são substituídos pelas
|
| 48 |
predições do gerador, e o discriminador é treinado de forma a identificar quais tokens são originais e quais foram substítudos.
|
| 49 |
|
| 50 |
-
*The model was trained with
|
| 51 |
|
| 52 |
*The training is done with a generator and a discriminator. The generator is trained with maskeed language modeling as BERT, but without next sentence prediction, by masking 15% of the tokens.*
|
| 53 |
|
|
|
|
| 21 |
|
| 22 |
*DeBERTina is a portuguese [DeBERTa-v3](https://arxiv.org/abs/2111.09543) model trained electra-style [ELECTRA](https://arxiv.org/abs/2003.10555) (with Replaced Token Detection - RTD) and gradient-disentangled embedding sharing (GDES).*
|
| 23 |
|
| 24 |
+
| Model | type | Vocabulary | Backbone + Embeddings = Total Parameters |
|
| 25 |
| :-: | :-: | :-: | :-: |
|
| 26 |
+
| [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 65k | 56.6M + 25.8M = 82.4M |
|
| 27 |
+
| [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small) | sentence-transformer | 65k | 25.2 + 25.8M = 51M |
|
| 28 |
+
| [DeBERTina-base](https://huggingface.co/tgsc/debertina-base) | encoder | 32k | 85.5M + 24.6M = 110.0M |
|
| 29 |
+
| [DeBERTina-base-128k-vocab](https://huggingface.co/tgsc/debertina-base-128k-vocab) | encoder | 128k | 85.5M + 98.3M = 183.8M |
|
| 30 |
+
| [DeBERTina-xsmall](https://huggingface.co/tgsc/debertina-xsmall) | encoder | 128k | 21.5M + 49.2M = 70.6M |
|
| 31 |
|
| 32 |
- **Developed by:** Thacio Garcia Scandaroli
|
| 33 |
- **Model type:** DeBERTa-v3
|
|
|
|
| 44 |
|
| 45 |
## Treino
|
| 46 |
|
| 47 |
+
O modelo foi treinado com o corpus C4 em português, utilizando um tokenizer sentencepiece com vocabulário de tamanho 128k.
|
| 48 |
|
| 49 |
O treino consiste em um gerador e um discriminador. O gerador é treinado com *masked language modeling* em 15% dos tokens. Em seguida, tokens são substituídos pelas
|
| 50 |
predições do gerador, e o discriminador é treinado de forma a identificar quais tokens são originais e quais foram substítudos.
|
| 51 |
|
| 52 |
+
*The model was trained with the C4 corpus in portuguese with a sentencepiece tokenizer with a vocabulary of 128.*
|
| 53 |
|
| 54 |
*The training is done with a generator and a discriminator. The generator is trained with maskeed language modeling as BERT, but without next sentence prediction, by masking 15% of the tokens.*
|
| 55 |
|