--- license: apache-2.0 datasets: - TeichAI/kimi-k2-thinking-1000x language: - aa metrics: - accuracy base_model: - Disty0/Z-Image-Turbo-SDNQ-uint4-svd-r32 new_version: Tongyi-MAI/Z-Image-Turbo pipeline_tag: token-classification library_name: adapter-transformers tags: - agent --- KDBERT: MODELO BASEADO EM TRANSFORMADORS PARA COMPREENSÃO DA LÍNGUA KIKONGO KDBERT: TRANSFORMER-BASED MODEL FOR UNDERSTANDING THE KIKONGO LANGUAGE --- language: -pt # Português (ISO 639-1) tags: - kikbert - transformer - roberta - masked-language-model - nlp - african-language license: apache-2.0 datasets: - kikongo_corpus metrics: - accuracy - perplexity model-index: - name: KiDBERT results: - task: name: Masked Language Modeling type: masked-language-modeling dataset: name: Kikongo Corpus type: text metrics: - name: Accuracy type: accuracy value: 0.95 - name: Perplexity type: perplexity value: 12.5 --- # KiDBERT: Modelo de Linguagem para Kikongo **KiDBERT** é o primeiro modelo Transformer desenvolvido especificamente para a língua **Kikongo**, baseado na arquitetura **DISTILBERT**. O modelo foi treinado com um grande corpus textual de Kikongo, incluindo dados linguísticos, morfológicos e contextuais, provenientes de textos literários, religiosos e culturais. --- ## Arquitetura do Modelo - **Backbone:** DISTILBERT - **Número de camadas:** 12 - **Cabeças de atenção:** 12 - **Dimensão oculta:** 768 - **Tarefas principais:** - Masked Language Modeling (treino principal) - Análise morfológica - Classificação de sentimentos ### O que é o Backbone? O **backbone** é a espinha dorsal do modelo — a parte responsável por extrair representações (features) linguísticas a partir do texto. No **KiDBERT**, o backbone é o **DISTILBERT**, que foi adaptado e reentreinado com o corpus Kikongo para aprender as dependências e estruturas linguísticas dessa língua. --- ## Dados de Treino O modelo foi treinado com o **Kikongo Corpus**, um conjunto cuidadosamente compilado com mais de **150.000 palavras**, incluindo variantes regionais como: - **Kisikongo** - **Kiyombe** - **Kimbata** - **Kisolongo** O corpus abrange textos religiosos, literários, conversacionais e educacionais, permitindo uma cobertura lexical e morfológica ampla da língua Kikongo. --- ## Aplicações Práticas - **Análise Sintática**: identificação da estrutura das frases e relações entre palavras. - **Análise Morfológica**: classificação das palavras em suas classes gramaticais (substantivos, verbos, adjetivos, etc.). - **Sumarização de Texto**: geração de resumos de textos escritos em Kikongo. - Ferramentas de Processamento de Linguagem Natural para línguas bantu --- ## Desempenho Classe Precisão Revocação F1-score Suporte ADJ 0.82 0.94 0.87 65 ADV 0.94 0.82 0.87 81 CONJ 0.99 1.00 0.99 92 INTERJ 0.91 0.84 0.87 90 NUM 1.00 0.99 0.99 75 PREP 0.92 0.90 0.91 146 PRON 0.99 1.00 0.99 70 SUBST 0.98 1.00 0.99 75 VERB 0.97 0.99 0.98 70 Esses resultados mostram que o modelo atinge um bom nível de compreensão linguística e coerência textual, considerando a complexidade morfológica do Kikongo. --- ![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/fYcVQLrvJV_YMEevsGZ1n.png) ![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/p_u-1k4blg8wdNoJ2ra6W.png) ## 💡 Exemplo de Uso ```python from transformers import AutoTokenizer, AutoModelForMaskedLM import torch # Carregar o modelo e o tokenizer tokenizer = AutoTokenizer.from_pretrained("fhenrivx/KIDBERT") model = AutoModelForMaskedLM.from_pretrained("fhenrivx/KIDBERT") # Exemplo de frase text = "Nzambi ke __ bantu yandi." # Tokenização inputs = tokenizer(text, return_tensors="pt") # Predição with torch.no_grad(): outputs = model(**inputs) predictions = torch.argmax(outputs.logits, dim=-1) # Resultado predicted_token = tokenizer.decode(predictions[0]) print(predicted_token)