pt-tupi-tokenizer / README.md
CASLL's picture
update readme
f5cba27 verified
# pt-tupi-tokenizer
**Descrição**
O `pt-tupi-tokenizer` é um tokenizador projetado especificamente para o idioma **Tupi**, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi.
**Arquitetura**
* Baseado em [Tokenizers library](https://huggingface.co/docs/tokenizers/index) da Hugging Face.
* Suporta **WordPiece/BPE** ou abordagem baseada em **subword units**, ajustável conforme necessidade.
* Treinado em corpora Tupi compilados de textos históricos e linguísticos.
**Uso rápido**
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer")
text = "Teko porã"
tokens = tokenizer.tokenize(text)
ids = tokenizer(text)["input_ids"]
print("Tokens:", tokens)
print("IDs:", ids)
```
**Exemplos de tokenização**
| Texto Tupi | Tokens |
| ---------- | ------------------- |
| Teko porã | \['Teko', 'porã'] |
| Abaeté | \['A', 'ba', 'eté'] |
**Treinamento e Dados**
* Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi.
* O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma.
**Limitações**
* Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados.
* Não foi otimizado para variantes modernas ou dialetos locais.
**Licença**
MIT License