Update README.md
Browse filesDescrição do Modelo — KiKBERT
KiKBERT (Kikongo Bidirectional Encoder Representations from Transformers) é o primeiro modelo de linguagem baseado em Transformers desenvolvido especificamente para a língua Kikongo, uma das principais línguas bantu faladas em Angola, República Democrática do Congo, Congo-Brazzaville e Gabão.
Inspirado na arquitetura RoBERTa, o KiKBERT foi treinado e ajustado (fine-tuned) com um corpus multivarietal de mais de 5,8 milhões de frases em Kikongo, abrangendo textos literários, religiosos, comunicacionais e jornalísticos.
O modelo busca suprir a escassez de ferramentas de Processamento de Linguagem Natural (PLN) para línguas africanas de baixa representação digital, com foco na preservação linguística, pesquisa acadêmica e aplicações práticas em IA.
Arquitetura
Backbone: RoBERTa-base
Camadas: 12
Heads de atenção: 12
Dimensão de embedding: 768
Tamanho do vocabulário: 150.000 tokens
Tipo de tokenização: Unigram Language Model (adaptado para morfologia bantu)
Objetivo de pré-treinamento: Máscara de linguagem (MLM – Masked Language Modeling)
Hardware de treino: TPU v2-8
Tempo total de treino: 2h23min
Como usar o KiKBERT
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("fhenrivx/Kikbert")
model = AutoModelForMaskedLM.from_pretrained("fhenrivx/Kikbert")
text = "beto ke zola Nzambe"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
|
@@ -1,3 +1,13 @@
|
|
| 1 |
-
---
|
| 2 |
-
license: bsd-3-clause-clear
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
license: bsd-3-clause-clear
|
| 3 |
+
language:
|
| 4 |
+
- pt
|
| 5 |
+
metrics:
|
| 6 |
+
- accuracy
|
| 7 |
+
- code_eval
|
| 8 |
+
base_model:
|
| 9 |
+
- fhenrivx/Kikbert
|
| 10 |
+
pipeline_tag: text-classification
|
| 11 |
+
tags:
|
| 12 |
+
- code
|
| 13 |
+
---
|