Tokenizador Fonético para PL-BERT
Este repositorio contiene el tokenizador WordPiece (BertTokenizer) extraído, limpiado y adaptado para ser compatible con la biblioteca transformers de Hugging Face.
Este tokenizador está diseñado para trabajar con representaciones fonéticas (IPA) en lugar de texto estándar.
Cómo Usar
Puedes cargar y usar este tokenizador directamente desde el Hub de Hugging Face usando BertTokenizer.from_pretrained().
from transformers import BertTokenizer
model_name = "javiimts/bert-ca-va-tokenizer"
# Cargar el tokenizador
tokenizer = BertTokenizer.from_pretrained(model_name)
text_ejemplo = "kɾˈɛstə kərβ"
encoded = tokenizer(text_ejemplo)
print("--- Texto de Ejemplo ---")
print(f"Texto: {text_ejemplo}")
print(f"IDs: {encoded['input_ids']}")
tokens = tokenizer.convert_ids_to_tokens(encoded['input_ids'])
print(f"Tokens: {tokens}")
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support