javiimts's picture
Readme modificado para eliminar comentarios de chatgpt
82aa465 verified
---
language: ca
license: mit
library_name: transformers
---
# Tokenizador Fonético para PL-BERT
Este repositorio contiene el tokenizador WordPiece (`BertTokenizer`) extraído, limpiado y adaptado para ser compatible con la biblioteca `transformers` de Hugging Face.
Este tokenizador está diseñado para trabajar con **representaciones fonéticas** (IPA) en lugar de texto estándar.
## Cómo Usar
Puedes cargar y usar este tokenizador directamente desde el Hub de Hugging Face usando `BertTokenizer.from_pretrained()`.
```python
from transformers import BertTokenizer
model_name = "javiimts/bert-ca-va-tokenizer"
# Cargar el tokenizador
tokenizer = BertTokenizer.from_pretrained(model_name)
text_ejemplo = "kɾˈɛstə kərβ"
encoded = tokenizer(text_ejemplo)
print("--- Texto de Ejemplo ---")
print(f"Texto: {text_ejemplo}")
print(f"IDs: {encoded['input_ids']}")
tokens = tokenizer.convert_ids_to_tokens(encoded['input_ids'])
print(f"Tokens: {tokens}")