| # pt-tupi-tokenizer | |
| **Descrição** | |
| O `pt-tupi-tokenizer` é um tokenizador projetado especificamente para o idioma **Tupi**, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi. | |
| **Arquitetura** | |
| * Baseado em [Tokenizers library](https://huggingface.co/docs/tokenizers/index) da Hugging Face. | |
| * Suporta **WordPiece/BPE** ou abordagem baseada em **subword units**, ajustável conforme necessidade. | |
| * Treinado em corpora Tupi compilados de textos históricos e linguísticos. | |
| **Uso rápido** | |
| ```python | |
| from transformers import AutoTokenizer | |
| tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer") | |
| text = "Teko porã" | |
| tokens = tokenizer.tokenize(text) | |
| ids = tokenizer(text)["input_ids"] | |
| print("Tokens:", tokens) | |
| print("IDs:", ids) | |
| ``` | |
| **Exemplos de tokenização** | |
| | Texto Tupi | Tokens | | |
| | ---------- | ------------------- | | |
| | Teko porã | \['Teko', 'porã'] | | |
| | Abaeté | \['A', 'ba', 'eté'] | | |
| **Treinamento e Dados** | |
| * Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi. | |
| * O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma. | |
| **Limitações** | |
| * Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados. | |
| * Não foi otimizado para variantes modernas ou dialetos locais. | |
| **Licença** | |
| MIT License | |