guillermoruiz
/

bilmaLAT

Model card Files Files and versions

bilmaLAT / README.md

guillermoruiz's picture

Update README.md

356f6a9 verified 3 months ago

|

history blame contribute delete

2.44 kB

	---
	library_name: transformers
	tags:
	- nlp
	- español
	- mml
	- bilma
	license: mit
	language:
	- es
	pipeline_tag: fill-mask
	---

	# Modelo BilmaLat

	Este modelo basado en Roberta se entrenó usando más de 600 millones de tweets en español
	recolectados entre diciembre del 2015 y febrero del 2023.
	A cada mensaje se le agruegó una etiqueta de información regionalizada como sigue:

	_cc _year _mo Texto del mensaje.

	donde _cc es el código de dos letras del país de origen del mensaje, _year y _mo son el año y el mes de publicación.

	Por ejemplo

	- _do _2017 _09 Y que es lo que uno va hacer con _usr ? E ponen hoy mi Plan de dato y con 5 minutos de eso se acabó _usr _usr 😤😤
	- _ve _2016 _08 No te necesito, ni quiero morir por ti me sobran las razones para andar este camino pero que sentido tiene, yo te vi entre tanta gente
	- _ar _2020 _03 soy demasiado buena para todo el mundo y se viven cagando en mí, que hago? me vuelvo una forra de mierda así me valoran?
	- _mx _2019 _12 Felicidades para la nueva pareja, y para usted tambien. Gracias por el pedazo de pastel. _url
	- _mx _2022 _01 Mayra, lectora de "El psicoanalista" del escritor estadounidense John Katzenbach. Felicidades. _url
	- _es _2020 _05 _usr Ansias no ,lo tradicional es en semana Santa helados Durán, vamos con retraso, tenemos que recuperar los helados perdidos, jajajaja

	Como se puede observar, se mantuvieron mayúsculas y minúsculas, emoticones y palabras mal escritas.
	Por motivos de privacidad, se cambiaron las menciones de usuario por el token _usr y las direcciones de internet por _url.

	Los tokens que se usaron para los códigos de los paíes son:

	\|País\|Código\|
	\|----------\|----------\|
	\|Argentina\|_ar\|
	\|Bolivia\|_bo\|
	\|Colombia\|_co\|
	\|Costa Rica\|_cr\|
	\|Chile\|_cl\|
	\|Cuba\|_cu\|
	\|Ecuador\|_ec\|
	\|El Salvador\|_sv\|
	\|España\|_es\|
	\|Guatemala\|_gt\|
	\|Honduras\|_hn\|
	\|México\|_mx\|
	\|Nicaragua\|_ni\|
	\|Panamá\|_pa\|
	\|Paraguay\|_py\|
	\|Perú\|_pe\|
	\|República Dominicana\|_do\|
	\|Uruguay\|_uy\|
	\|Venezuela\|_ve\|

	Los años son _2015 a _2023 y los meses _01 hasta _12.

	Se creó el vocabulario de tamaño 30k usando WordPiece. El modelo se entrenaron usando el enmascaramiento de palabras con probabilidad de 0.15.
	Se usó el optimizador AdamW con una tasa de aprendizaje de 0.00002 durante una época.

	## Uso



	El modelo se puede usar con una `pipeline`:
	```
	from transformers import pipeline
	unmasker = pipeline('fill-mask', model="guillermoruiz/bilmaLAT")

	```