File size: 4,191 Bytes
7222081
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c1557bb
 
 
 
165cbfb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c1557bb
165cbfb
c1557bb
687d121
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
 
 
 
 
 
 
 
c1557bb
165cbfb
 
687d121
c1557bb
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
 
 
 
c1557bb
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
 
 
 
 
c1557bb
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
 
 
 
 
 
 
 
 
 
c1557bb
 
 
165cbfb
c1557bb
165cbfb
c1557bb
 
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
c1557bb
165cbfb
 
 
c1557bb
165cbfb
 
 
c1557bb
165cbfb
 
c1557bb
165cbfb
 
c1557bb
165cbfb
 
 
 
c1557bb
165cbfb
 
 
c1557bb
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
---
license: apache-2.0
datasets:
- TeichAI/kimi-k2-thinking-1000x
language:
- aa
metrics:
- accuracy
base_model:
- Disty0/Z-Image-Turbo-SDNQ-uint4-svd-r32
new_version: Tongyi-MAI/Z-Image-Turbo
pipeline_tag: token-classification
library_name: adapter-transformers
tags:
- agent
---
KDBERT: MODELO BASEADO EM TRANSFORMADORS PARA COMPREENSÃO DA LÍNGUA KIKONGO

KDBERT: TRANSFORMER-BASED MODEL FOR UNDERSTANDING THE KIKONGO LANGUAGE

---
language: 
    -pt    # Português (ISO 639-1)
tags:
  - kikbert
  - transformer
  - roberta
  - masked-language-model
  - nlp
  - african-language
license: apache-2.0
datasets:
  - kikongo_corpus
metrics:
  - accuracy
  - perplexity
model-index:
  - name: KiDBERT
    results:
      - task:
          name: Masked Language Modeling
          type: masked-language-modeling
        dataset:
          name: Kikongo Corpus
          type: text
        metrics:
          - name: Accuracy
            type: accuracy
            value: 0.95
          - name: Perplexity
            type: perplexity
            value: 12.5
---

#  KiDBERT: Modelo de Linguagem para Kikongo

**KiDBERT** é o primeiro modelo Transformer desenvolvido especificamente para a língua **Kikongo**, baseado na arquitetura **DISTILBERT**.  
O modelo foi treinado com um grande corpus textual de Kikongo, incluindo dados linguísticos, morfológicos e contextuais, provenientes de textos literários, religiosos e culturais.

---

##  Arquitetura do Modelo

- **Backbone:** DISTILBERT  
- **Número de camadas:** 12  
- **Cabeças de atenção:** 12  
- **Dimensão oculta:** 768  
- **Tarefas principais:**  
  - Masked Language Modeling (treino principal)  
  - Análise morfológica  
  - Classificação de sentimentos  

###  O que é o Backbone?
O **backbone** é a espinha dorsal do modelo — a parte responsável por extrair representações (features) linguísticas a partir do texto.  
No **KiDBERT**, o backbone é o **DISTILBERT**, que foi adaptado e reentreinado com o corpus Kikongo para aprender as dependências e estruturas linguísticas dessa língua.

---

##  Dados de Treino

O modelo foi treinado com o **Kikongo Corpus**, um conjunto cuidadosamente compilado com mais de **150.000 palavras**, incluindo variantes regionais como:

- **Kisikongo**  
- **Kiyombe**  
- **Kimbata**  
- **Kisolongo**

O corpus abrange textos religiosos, literários, conversacionais e educacionais, permitindo uma cobertura lexical e morfológica ampla da língua Kikongo.

---

##  Aplicações Práticas

  
- **Análise Sintática**: identificação da estrutura das frases e relações entre palavras.  
- **Análise Morfológica**: classificação das palavras em suas classes gramaticais (substantivos, verbos, adjetivos, etc.).  
- **Sumarização de Texto**: geração de resumos de textos escritos em Kikongo. 
- Ferramentas de Processamento de Linguagem Natural para línguas bantu  

---

##  Desempenho

Classe	Precisão	Revocação	F1-score	Suporte
ADJ	0.82	0.94	0.87	65
ADV	0.94	0.82	0.87	81
CONJ	0.99	1.00	0.99	92
INTERJ	0.91	0.84	0.87	90
NUM	1.00	0.99	0.99	75
PREP	0.92	0.90	0.91	146
PRON	0.99	1.00	0.99	70
SUBST	0.98	1.00	0.99	75
VERB	0.97	0.99	0.98	70



Esses resultados mostram que o modelo atinge um bom nível de compreensão linguística e coerência textual, considerando a complexidade morfológica do Kikongo.

---


![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/fYcVQLrvJV_YMEevsGZ1n.png)

![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/p_u-1k4blg8wdNoJ2ra6W.png)

## 💡 Exemplo de Uso

```python
from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch

# Carregar o modelo e o tokenizer
tokenizer = AutoTokenizer.from_pretrained("fhenrivx/KIDBERT")
model = AutoModelForMaskedLM.from_pretrained("fhenrivx/KIDBERT")

# Exemplo de frase
text = "Nzambi ke __ bantu yandi."

# Tokenização
inputs = tokenizer(text, return_tensors="pt")

# Predição
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.argmax(outputs.logits, dim=-1)

# Resultado
predicted_token = tokenizer.decode(predictions[0])
print(predicted_token)