# pt-tupi-tokenizer **Descrição** O `pt-tupi-tokenizer` é um tokenizador projetado especificamente para o idioma **Tupi**, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi. **Arquitetura** * Baseado em [Tokenizers library](https://huggingface.co/docs/tokenizers/index) da Hugging Face. * Suporta **WordPiece/BPE** ou abordagem baseada em **subword units**, ajustável conforme necessidade. * Treinado em corpora Tupi compilados de textos históricos e linguísticos. **Uso rápido** ```python from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer") text = "Teko porã" tokens = tokenizer.tokenize(text) ids = tokenizer(text)["input_ids"] print("Tokens:", tokens) print("IDs:", ids) ``` **Exemplos de tokenização** | Texto Tupi | Tokens | | ---------- | ------------------- | | Teko porã | \['Teko', 'porã'] | | Abaeté | \['A', 'ba', 'eté'] | **Treinamento e Dados** * Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi. * O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma. **Limitações** * Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados. * Não foi otimizado para variantes modernas ou dialetos locais. **Licença** MIT License