File size: 1,620 Bytes

f5cba27
c59e1e6
f5cba27
 
c59e1e6
f5cba27
c59e1e6
f5cba27
 
 
c59e1e6
f5cba27
c59e1e6
f5cba27
 
c59e1e6
f5cba27
c59e1e6
f5cba27
 
 
c59e1e6
f5cba27
 
 
c59e1e6
f5cba27
c59e1e6
f5cba27
 
 
 
c59e1e6
f5cba27
c59e1e6
f5cba27
 
c59e1e6
f5cba27
c59e1e6
f5cba27
 
c59e1e6
f5cba27
 
c59e1e6

# pt-tupi-tokenizer

**Descrição**
O `pt-tupi-tokenizer` é um tokenizador projetado especificamente para o idioma **Tupi**, uma língua indígena brasileira. Ele suporta a tokenização de textos Tupi de forma eficiente, preservando a morfologia e a estrutura própria do idioma. Este tokenizador pode ser usado em tarefas de NLP, como pré-processamento para modelos de linguagem, tradução ou análise textual em Tupi.

**Arquitetura**

* Baseado em [Tokenizers library](https://huggingface.co/docs/tokenizers/index) da Hugging Face.
* Suporta **WordPiece/BPE** ou abordagem baseada em **subword units**, ajustável conforme necessidade.
* Treinado em corpora Tupi compilados de textos históricos e linguísticos.

**Uso rápido**

```python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("CASLL/pt-tupi-tokenizer")

text = "Teko porã"
tokens = tokenizer.tokenize(text)
ids = tokenizer(text)["input_ids"]

print("Tokens:", tokens)
print("IDs:", ids)
```

**Exemplos de tokenização**

| Texto Tupi | Tokens              |
| ---------- | ------------------- |
| Teko porã  | \['Teko', 'porã']   |
| Abaeté     | \['A', 'ba', 'eté'] |

**Treinamento e Dados**

* Treinado em textos públicos e materiais etnolinguísticos sobre a língua Tupi.
* O tokenizador preserva caracteres especiais, acentos e sinais próprios do idioma.

**Limitações**

* Funciona melhor com textos clássicos ou documentados do Tupi; textos com grafias muito divergentes podem gerar tokens inesperados.
* Não foi otimizado para variantes modernas ou dialetos locais.

**Licença**
MIT License