|
|
--- |
|
|
library_name: transformers |
|
|
tags: |
|
|
- nlp |
|
|
- español |
|
|
- mml |
|
|
- bilma |
|
|
license: mit |
|
|
language: |
|
|
- es |
|
|
pipeline_tag: fill-mask |
|
|
--- |
|
|
|
|
|
# Modelo BilmaLat |
|
|
|
|
|
Este modelo basado en Roberta se entrenó usando más de 600 millones de tweets en español |
|
|
recolectados entre diciembre del 2015 y febrero del 2023. |
|
|
A cada mensaje se le agruegó una etiqueta de información regionalizada como sigue: |
|
|
|
|
|
_cc _year _mo Texto del mensaje. |
|
|
|
|
|
donde _cc es el código de dos letras del país de origen del mensaje, _year y _mo son el año y el mes de publicación. |
|
|
|
|
|
Por ejemplo |
|
|
|
|
|
- _do _2017 _09 Y que es lo que uno va hacer con _usr ? E ponen hoy mi Plan de dato y con 5 minutos de eso se acabó _usr _usr 😤😤 |
|
|
- _ve _2016 _08 No te necesito, ni quiero morir por ti me sobran las razones para andar este camino pero que sentido tiene, yo te vi entre tanta gente |
|
|
- _ar _2020 _03 soy demasiado buena para todo el mundo y se viven cagando en mí, que hago? me vuelvo una forra de mierda así me valoran? |
|
|
- _mx _2019 _12 Felicidades para la nueva pareja, y para usted tambien. Gracias por el pedazo de pastel. _url |
|
|
- _mx _2022 _01 Mayra, lectora de "El psicoanalista" del escritor estadounidense John Katzenbach. Felicidades. _url |
|
|
- _es _2020 _05 _usr Ansias no ,lo tradicional es en semana Santa helados Durán, vamos con retraso, tenemos que recuperar los helados perdidos, jajajaja |
|
|
|
|
|
Como se puede observar, se mantuvieron mayúsculas y minúsculas, emoticones y palabras mal escritas. |
|
|
Por motivos de privacidad, se cambiaron las menciones de usuario por el token _usr y las direcciones de internet por _url. |
|
|
|
|
|
Los tokens que se usaron para los códigos de los paíes son: |
|
|
|
|
|
|País|Código| |
|
|
|----------|----------| |
|
|
|Argentina|_ar| |
|
|
|Bolivia|_bo| |
|
|
|Colombia|_co| |
|
|
|Costa Rica|_cr| |
|
|
|Chile|_cl| |
|
|
|Cuba|_cu| |
|
|
|Ecuador|_ec| |
|
|
|El Salvador|_sv| |
|
|
|España|_es| |
|
|
|Guatemala|_gt| |
|
|
|Honduras|_hn| |
|
|
|México|_mx| |
|
|
|Nicaragua|_ni| |
|
|
|Panamá|_pa| |
|
|
|Paraguay|_py| |
|
|
|Perú|_pe| |
|
|
|República Dominicana|_do| |
|
|
|Uruguay|_uy| |
|
|
|Venezuela|_ve| |
|
|
|
|
|
Los años son _2015 a _2023 y los meses _01 hasta _12. |
|
|
|
|
|
Se creó el vocabulario de tamaño 30k usando WordPiece. El modelo se entrenaron usando el enmascaramiento de palabras con probabilidad de 0.15. |
|
|
Se usó el optimizador AdamW con una tasa de aprendizaje de 0.00002 durante una época. |
|
|
|
|
|
## Uso |
|
|
|
|
|
|
|
|
|
|
|
El modelo se puede usar con una `pipeline`: |
|
|
``` |
|
|
from transformers import pipeline |
|
|
unmasker = pipeline('fill-mask', model="guillermoruiz/bilmaLAT") |
|
|
|
|
|
``` |