Update README.md

Descrição do Modelo — KiKBERT

KiKBERT (Kikongo Bidirectional Encoder Representations from Transformers) é o primeiro modelo de linguagem baseado em Transformers desenvolvido especificamente para a língua Kikongo, uma das principais línguas bantu faladas em Angola, República Democrática do Congo, Congo-Brazzaville e Gabão.

Inspirado na arquitetura RoBERTa, o KiKBERT foi treinado e ajustado (fine-tuned) com um corpus multivarietal de mais de 5,8 milhões de frases em Kikongo, abrangendo textos literários, religiosos, comunicacionais e jornalísticos.
O modelo busca suprir a escassez de ferramentas de Processamento de Linguagem Natural (PLN) para línguas africanas de baixa representação digital, com foco na preservação linguística, pesquisa acadêmica e aplicações práticas em IA.

Arquitetura

Backbone: RoBERTa-base

Camadas: 12

Heads de atenção: 12

Dimensão de embedding: 768

Tamanho do vocabulário: 150.000 tokens

Tipo de tokenização: Unigram Language Model (adaptado para morfologia bantu)

Objetivo de pré-treinamento: Máscara de linguagem (MLM – Masked Language Modeling)

Hardware de treino: TPU v2-8

Tempo total de treino: 2h23min

Como usar o KiKBERT
from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("fhenrivx/Kikbert")
model = AutoModelForMaskedLM.from_pretrained("fhenrivx/Kikbert")

text = "beto ke zola Nzambe"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

Files changed (1) hide show

README.md +13 -3

README.md CHANGED Viewed

@@ -1,3 +1,13 @@
----
-license: bsd-3-clause-clear
----

+---
+license: bsd-3-clause-clear
+language:
+- pt
+metrics:
+- accuracy
+- code_eval
+base_model:
+- fhenrivx/Kikbert
+pipeline_tag: text-classification
+tags:
+- code
+---