| | --- |
| | language: |
| | - qu |
| | tags: |
| | - Llamacha |
| | --- |
| | |
| |
|
| | # QuBERTa |
| |
|
| | QuBERTa es un modelo de lenguaje basado en RoBERTa para el quechua. Nuestro modelo de lenguaje fue pre-entrenado con 5M de tokens del quechua sureño (Collao y Chanka). |
| |
|
| | El modelo utiliza un tokenizador Byte-level BPE con un vocabulario de 52000 tokens de subpalabras. |
| |
|
| | ## Usabilidad |
| | Una vez descargado los pesos y el tokenizador es necesario adjuntarlo en un sola carpeta, en este caso fue `QuBERTa `. |
| |
|
| | ```python |
| | from transformers import pipeline |
| | |
| | fill_mask = pipeline( |
| | "fill-mask", |
| | model="./QuBERTa", |
| | tokenizer="./QuBERTa" |
| | ) |
| | ``` |
| | Se hace la prueba, la cual esta en fases de mejoras. |
| |
|
| | ```python |
| | fill_mask("allinllachu <mask> allinlla huk wasipita.") |
| | ``` |
| | [{'score': 0.23992203176021576, |
| | 'sequence': 'allinllachu nisqaqa allinlla huk wasipita.', |
| | 'token': 334, |
| | 'token_str': ' nisqaqa'}, |
| | {'score': 0.061005301773548126, |
| | 'sequence': 'allinllachu, allinlla huk wasipita.', |
| | 'token': 16, |
| | 'token_str': ','}, |
| | {'score': 0.028720015659928322, |
| | 'sequence': "allinllachu' allinlla huk wasipita.", |
| | 'token': 11, |
| | 'token_str': "'"}, |
| | {'score': 0.012927944771945477, |
| | 'sequence': 'allinllachu kay allinlla huk wasipita.', |
| | 'token': 377, |
| | 'token_str': ' kay'}, |
| | {'score': 0.01230092253535986, |
| | 'sequence': 'allinllachu. allinlla huk wasipita.', |
| | 'token': 18, |
| | 'token_str': '.'}] |
| | |