fhenrivx commited on
Commit
e5169e4
·
verified ·
1 Parent(s): 4625278

Update README.md

Browse files

Descrição do Modelo — KiKBERT

KiKBERT (Kikongo Bidirectional Encoder Representations from Transformers) é o primeiro modelo de linguagem baseado em Transformers desenvolvido especificamente para a língua Kikongo, uma das principais línguas bantu faladas em Angola, República Democrática do Congo, Congo-Brazzaville e Gabão.

Inspirado na arquitetura RoBERTa, o KiKBERT foi treinado e ajustado (fine-tuned) com um corpus multivarietal de mais de 5,8 milhões de frases em Kikongo, abrangendo textos literários, religiosos, comunicacionais e jornalísticos.
O modelo busca suprir a escassez de ferramentas de Processamento de Linguagem Natural (PLN) para línguas africanas de baixa representação digital, com foco na preservação linguística, pesquisa acadêmica e aplicações práticas em IA.

Arquitetura

Backbone: RoBERTa-base

Camadas: 12

Heads de atenção: 12

Dimensão de embedding: 768

Tamanho do vocabulário: 150.000 tokens

Tipo de tokenização: Unigram Language Model (adaptado para morfologia bantu)

Objetivo de pré-treinamento: Máscara de linguagem (MLM – Masked Language Modeling)

Hardware de treino: TPU v2-8

Tempo total de treino: 2h23min

Como usar o KiKBERT
from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("fhenrivx/Kikbert")
model = AutoModelForMaskedLM.from_pretrained("fhenrivx/Kikbert")

text = "beto ke zola Nzambe"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

Files changed (1) hide show
  1. README.md +13 -3
README.md CHANGED
@@ -1,3 +1,13 @@
1
- ---
2
- license: bsd-3-clause-clear
3
- ---
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: bsd-3-clause-clear
3
+ language:
4
+ - pt
5
+ metrics:
6
+ - accuracy
7
+ - code_eval
8
+ base_model:
9
+ - fhenrivx/Kikbert
10
+ pipeline_tag: text-classification
11
+ tags:
12
+ - code
13
+ ---