CASLL
/

pt-tupi-tokenizer

Model card Files Files and versions

pt-tupi-tokenizer / README.md

CASLL's picture

update readme

f5cba27 verified 5 months ago

|

history blame contribute delete

1.62 kB

	# pt-tupi-tokenizer

	Descrição
	O `pt-tupi-tokenizer` é um tokenizador projetado especificamente para o idioma Tupi, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi.

	Arquitetura

	* Baseado em [Tokenizers library](https://huggingface.co/docs/tokenizers/index) da Hugging Face.
	* Suporta WordPiece/BPE ou abordagem baseada em subword units, ajustável conforme necessidade.
	* Treinado em corpora Tupi compilados de textos históricos e linguísticos.

	Uso rápido

	```python
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer")

	text = "Teko porã"
	tokens = tokenizer.tokenize(text)
	ids = tokenizer(text)["input_ids"]

	print("Tokens:", tokens)
	print("IDs:", ids)
	```

	Exemplos de tokenização

	\| Texto Tupi \| Tokens \|
	\| ---------- \| ------------------- \|
	\| Teko porã \| \['Teko', 'porã'] \|
	\| Abaeté \| \['A', 'ba', 'eté'] \|

	Treinamento e Dados

	* Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi.
	* O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma.

	Limitações

	* Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados.
	* Não foi otimizado para variantes modernas ou dialetos locais.

	Licença
	MIT License