fhenrivx commited on
Commit
8def904
·
verified ·
1 Parent(s): 6e05030

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +111 -2
README.md CHANGED
@@ -1,8 +1,117 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  from transformers import AutoTokenizer, AutoModelForMaskedLM
 
2
 
 
3
  tokenizer = AutoTokenizer.from_pretrained("fhenrivx/Kikbert")
4
  model = AutoModelForMaskedLM.from_pretrained("fhenrivx/Kikbert")
5
 
6
- text = "beto ke zola Nzambe"
 
 
 
7
  inputs = tokenizer(text, return_tensors="pt")
8
- outputs = model(**inputs)
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+
4
+ -pt # Português (ISO 639-1)
5
+ tags:
6
+ - kikbert
7
+ - transformer
8
+ - roberta
9
+ - masked-language-model
10
+ - nlp
11
+ - african-language
12
+ license: apache-2.0
13
+ datasets:
14
+ - kikongo_corpus
15
+ metrics:
16
+ - accuracy
17
+ - perplexity
18
+ model-index:
19
+ - name: KiKBERT
20
+ results:
21
+ - task:
22
+ name: Masked Language Modeling
23
+ type: masked-language-modeling
24
+ dataset:
25
+ name: Kikongo Corpus
26
+ type: text
27
+ metrics:
28
+ - name: Accuracy
29
+ type: accuracy
30
+ value: 0.95
31
+ - name: Perplexity
32
+ type: perplexity
33
+ value: 12.5
34
+ ---
35
+
36
+ # KiKBERT: Modelo de Linguagem para Kikongo
37
+
38
+ **KiKBERT** é o primeiro modelo Transformer desenvolvido especificamente para a língua **Kikongo**, baseado na arquitetura **RoBERTa-base**.
39
+ O modelo foi treinado com um grande corpus textual de Kikongo, incluindo dados linguísticos, morfológicos e contextuais, provenientes de textos literários, religiosos e culturais.
40
+
41
+ ---
42
+
43
+ ## Arquitetura do Modelo
44
+
45
+ - **Backbone:** RoBERTa-base
46
+ - **Número de camadas:** 12
47
+ - **Cabeças de atenção:** 12
48
+ - **Dimensão oculta:** 768
49
+ - **Tarefas principais:**
50
+ - Masked Language Modeling (treino principal)
51
+ - Análise morfológica
52
+ - Classificação de sentimentos
53
+
54
+ ### O que é o Backbone?
55
+ O **backbone** é a espinha dorsal do modelo — a parte responsável por extrair representações (features) linguísticas a partir do texto.
56
+ No **KiKBERT**, o backbone é o **RoBERTa-base**, que foi adaptado e reentreinado com o corpus Kikongo para aprender as dependências e estruturas linguísticas dessa língua.
57
+
58
+ ---
59
+
60
+ ## Dados de Treino
61
+
62
+ O modelo foi treinado com o **Kikongo Corpus**, um conjunto cuidadosamente compilado com mais de **150.000 palavras**, incluindo variantes regionais como:
63
+
64
+ - **Kisikongo**
65
+ - **Kiyombe**
66
+ - **Kimbata**
67
+ - **Kisolongo**
68
+
69
+ O corpus abrange textos religiosos, literários, conversacionais e educacionais, permitindo uma cobertura lexical e morfológica ampla da língua Kikongo.
70
+
71
+ ---
72
+
73
+ ## Aplicações Práticas
74
+
75
+
76
+ - Classificação de Sentimentos
77
+ - Análise Morfológica e Sintática
78
+ - Geração de texto em Kikongo
79
+ - Ferramentas de Processamento de Linguagem Natural para línguas bantu
80
+
81
+ ---
82
+
83
+ ## Desempenho
84
+
85
+ | Métrica | Valor |
86
+ |----------|--------|
87
+ | **Accuracy** | 0.95 |
88
+ | **Perplexity** | 12.5 |
89
+
90
+ Esses resultados mostram que o modelo atinge um bom nível de compreensão linguística e coerência textual, considerando a complexidade morfológica do Kikongo.
91
+
92
+ ---
93
+
94
+ ## 💡 Exemplo de Uso
95
+
96
+ ```python
97
  from transformers import AutoTokenizer, AutoModelForMaskedLM
98
+ import torch
99
 
100
+ # Carregar o modelo e o tokenizer
101
  tokenizer = AutoTokenizer.from_pretrained("fhenrivx/Kikbert")
102
  model = AutoModelForMaskedLM.from_pretrained("fhenrivx/Kikbert")
103
 
104
+ # Exemplo de frase
105
+ text = "Nzambi ke __ bantu yandi."
106
+
107
+ # Tokenização
108
  inputs = tokenizer(text, return_tensors="pt")
109
+
110
+ # Predição
111
+ with torch.no_grad():
112
+ outputs = model(**inputs)
113
+ predictions = torch.argmax(outputs.logits, dim=-1)
114
+
115
+ # Resultado
116
+ predicted_token = tokenizer.decode(predictions[0])
117
+ print(predicted_token)