# pt-tupi-tokenizer

**Descrição**
O `pt-tupi-tokenizer` é um tokenizador projetado especificamente para o idioma **Tupi**, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi.

**Arquitetura**

* Baseado em [Tokenizers library](https://huggingface.co/docs/tokenizers/index) da Hugging Face.
* Suporta **WordPiece/BPE** ou abordagem baseada em **subword units**, ajustável conforme necessidade.
* Treinado em corpora Tupi compilados de textos históricos e linguísticos.

**Uso rápido**

```python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer")

text = "Teko porã"
tokens = tokenizer.tokenize(text)
ids = tokenizer(text)["input_ids"]

print("Tokens:", tokens)
print("IDs:", ids)
```

**Exemplos de tokenização**

| Texto Tupi | Tokens              |
| ---------- | ------------------- |
| Teko porã  | \['Teko', 'porã']   |
| Abaeté     | \['A', 'ba', 'eté'] |

**Treinamento e Dados**

* Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi.
* O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma.

**Limitações**

* Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados.
* Não foi otimizado para variantes modernas ou dialetos locais.

**Licença**
MIT License