KIDBERT / README.md

Update README.md

687d121 verified about 2 months ago

4.19 kB

	---
	license: apache-2.0
	datasets:
	- TeichAI/kimi-k2-thinking-1000x
	language:
	- aa
	metrics:
	- accuracy
	base_model:
	- Disty0/Z-Image-Turbo-SDNQ-uint4-svd-r32
	new_version: Tongyi-MAI/Z-Image-Turbo
	pipeline_tag: token-classification
	library_name: adapter-transformers
	tags:
	- agent
	---
	KDBERT: MODELO BASEADO EM TRANSFORMADORS PARA COMPREENSÃO DA LÍNGUA KIKONGO

	KDBERT: TRANSFORMER-BASED MODEL FOR UNDERSTANDING THE KIKONGO LANGUAGE

	---
	language:
	-pt # Português (ISO 639-1)
	tags:
	- kikbert
	- transformer
	- roberta
	- masked-language-model
	- nlp
	- african-language
	license: apache-2.0
	datasets:
	- kikongo_corpus
	metrics:
	- accuracy
	- perplexity
	model-index:
	- name: KiDBERT
	results:
	- task:
	name: Masked Language Modeling
	type: masked-language-modeling
	dataset:
	name: Kikongo Corpus
	type: text
	metrics:
	- name: Accuracy
	type: accuracy
	value: 0.95
	- name: Perplexity
	type: perplexity
	value: 12.5
	---

	# KiDBERT: Modelo de Linguagem para Kikongo

	KiDBERT é o primeiro modelo Transformer desenvolvido especificamente para a língua Kikongo, baseado na arquitetura DISTILBERT.
	O modelo foi treinado com um grande corpus textual de Kikongo, incluindo dados linguísticos, morfológicos e contextuais, provenientes de textos literários, religiosos e culturais.

	---

	## Arquitetura do Modelo

	- Backbone: DISTILBERT
	- Número de camadas: 12
	- Cabeças de atenção: 12
	- Dimensão oculta: 768
	- Tarefas principais:
	- Masked Language Modeling (treino principal)
	- Análise morfológica
	- Classificação de sentimentos

	### O que é o Backbone?
	O backbone é a espinha dorsal do modelo — a parte responsável por extrair representações (features) linguísticas a partir do texto.
	No KiDBERT, o backbone é o DISTILBERT, que foi adaptado e reentreinado com o corpus Kikongo para aprender as dependências e estruturas linguísticas dessa língua.

	---

	## Dados de Treino

	O modelo foi treinado com o Kikongo Corpus, um conjunto cuidadosamente compilado com mais de 150.000 palavras, incluindo variantes regionais como:

	- Kisikongo
	- Kiyombe
	- Kimbata
	- Kisolongo

	O corpus abrange textos religiosos, literários, conversacionais e educacionais, permitindo uma cobertura lexical e morfológica ampla da língua Kikongo.

	---

	## Aplicações Práticas


	- Análise Sintática: identificação da estrutura das frases e relações entre palavras.
	- Análise Morfológica: classificação das palavras em suas classes gramaticais (substantivos, verbos, adjetivos, etc.).
	- Sumarização de Texto: geração de resumos de textos escritos em Kikongo.
	- Ferramentas de Processamento de Linguagem Natural para línguas bantu

	---

	## Desempenho

	Classe Precisão Revocação F1-score Suporte
	ADJ 0.82 0.94 0.87 65
	ADV 0.94 0.82 0.87 81
	CONJ 0.99 1.00 0.99 92
	INTERJ 0.91 0.84 0.87 90
	NUM 1.00 0.99 0.99 75
	PREP 0.92 0.90 0.91 146
	PRON 0.99 1.00 0.99 70
	SUBST 0.98 1.00 0.99 75
	VERB 0.97 0.99 0.98 70



	Esses resultados mostram que o modelo atinge um bom nível de compreensão linguística e coerência textual, considerando a complexidade morfológica do Kikongo.

	---


	![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/fYcVQLrvJV_YMEevsGZ1n.png)

	![image](https://cdn-uploads.huggingface.co/production/uploads/690ddbcc36f9e9b8d366a54d/p_u-1k4blg8wdNoJ2ra6W.png)

	## 💡 Exemplo de Uso

	```python
	from transformers import AutoTokenizer, AutoModelForMaskedLM
	import torch

	# Carregar o modelo e o tokenizer
	tokenizer = AutoTokenizer.from_pretrained("fhenrivx/KIDBERT")
	model = AutoModelForMaskedLM.from_pretrained("fhenrivx/KIDBERT")

	# Exemplo de frase
	text = "Nzambi ke __ bantu yandi."

	# Tokenização
	inputs = tokenizer(text, return_tensors="pt")

	# Predição
	with torch.no_grad():
	outputs = model(**inputs)
	predictions = torch.argmax(outputs.logits, dim=-1)

	# Resultado
	predicted_token = tokenizer.decode(predictions[0])
	print(predicted_token)