Llamacha
/

QuBERTa

Model card Files Files and versions

QuBERTa / README.md

rjzevallos's picture

Update README.md

0f6c96c about 4 years ago

|

1.41 kB

	---
	language:
	- qu
	tags:
	- Llamacha
	---


	# QuBERTa

	QuBERTa es un modelo de lenguaje basado en RoBERTa para el quechua. Nuestro modelo de lenguaje fue pre-entrenado con 5M de tokens del quechua sureño (Collao y Chanka).

	El modelo utiliza un tokenizador Byte-level BPE con un vocabulario de 52000 tokens de subpalabras.

	## Usabilidad
	Una vez descargado los pesos y el tokenizador es necesario adjuntarlo en un sola carpeta, en este caso fue `QuBERTa `.

	```python
	from transformers import pipeline

	fill_mask = pipeline(
	"fill-mask",
	model="./QuBERTa",
	tokenizer="./QuBERTa"
	)
	```
	Se hace la prueba, la cual esta en fases de mejoras.

	```python
	fill_mask("allinllachu <mask> allinlla huk wasipita.")
	```
	[{'score': 0.23992203176021576,
	'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
	'token': 334,
	'token_str': ' nisqaqa'},
	{'score': 0.061005301773548126,
	'sequence': 'allinllachu, allinlla huk wasipita.',
	'token': 16,
	'token_str': ','},
	{'score': 0.028720015659928322,
	'sequence': "allinllachu' allinlla huk wasipita.",
	'token': 11,
	'token_str': "'"},
	{'score': 0.012927944771945477,
	'sequence': 'allinllachu kay allinlla huk wasipita.',
	'token': 377,
	'token_str': ' kay'},
	{'score': 0.01230092253535986,
	'sequence': 'allinllachu. allinlla huk wasipita.',
	'token': 18,
	'token_str': '.'}]