javiimts's picture
Readme modificado para eliminar comentarios de chatgpt
82aa465 verified
metadata
language: ca
license: mit
library_name: transformers

Tokenizador Fonético para PL-BERT

Este repositorio contiene el tokenizador WordPiece (BertTokenizer) extraído, limpiado y adaptado para ser compatible con la biblioteca transformers de Hugging Face.

Este tokenizador está diseñado para trabajar con representaciones fonéticas (IPA) en lugar de texto estándar.

Cómo Usar

Puedes cargar y usar este tokenizador directamente desde el Hub de Hugging Face usando BertTokenizer.from_pretrained().

from transformers import BertTokenizer

model_name = "javiimts/bert-ca-va-tokenizer"

# Cargar el tokenizador
tokenizer = BertTokenizer.from_pretrained(model_name)

text_ejemplo = "kɾˈɛstə kərβ"
encoded = tokenizer(text_ejemplo)

print("--- Texto de Ejemplo ---")
print(f"Texto: {text_ejemplo}")
print(f"IDs: {encoded['input_ids']}")

tokens = tokenizer.convert_ids_to_tokens(encoded['input_ids'])
print(f"Tokens: {tokens}")