| language: ca | |
| license: mit | |
| library_name: transformers | |
| # Tokenizador Fonético para PL-BERT | |
| Este repositorio contiene el tokenizador WordPiece (`BertTokenizer`) extraído, limpiado y adaptado para ser compatible con la biblioteca `transformers` de Hugging Face. | |
| Este tokenizador está diseñado para trabajar con **representaciones fonéticas** (IPA) en lugar de texto estándar. | |
| ## Cómo Usar | |
| Puedes cargar y usar este tokenizador directamente desde el Hub de Hugging Face usando `BertTokenizer.from_pretrained()`. | |
| ```python | |
| from transformers import BertTokenizer | |
| model_name = "javiimts/bert-ca-va-tokenizer" | |
| # Cargar el tokenizador | |
| tokenizer = BertTokenizer.from_pretrained(model_name) | |
| text_ejemplo = "kɾˈɛstə kərβ" | |
| encoded = tokenizer(text_ejemplo) | |
| print("--- Texto de Ejemplo ---") | |
| print(f"Texto: {text_ejemplo}") | |
| print(f"IDs: {encoded['input_ids']}") | |
| tokens = tokenizer.convert_ids_to_tokens(encoded['input_ids']) | |
| print(f"Tokens: {tokens}") |