Readme modificado para eliminar comentarios de chatgpt

82aa465 verified about 2 months ago

968 Bytes

	---
	language: ca
	license: mit
	library_name: transformers
	---

	# Tokenizador Fonético para PL-BERT

	Este repositorio contiene el tokenizador WordPiece (`BertTokenizer`) extraído, limpiado y adaptado para ser compatible con la biblioteca `transformers` de Hugging Face.

	Este tokenizador está diseñado para trabajar con representaciones fonéticas (IPA) en lugar de texto estándar.

	## Cómo Usar

	Puedes cargar y usar este tokenizador directamente desde el Hub de Hugging Face usando `BertTokenizer.from_pretrained()`.

	```python
	from transformers import BertTokenizer

	model_name = "javiimts/bert-ca-va-tokenizer"

	# Cargar el tokenizador
	tokenizer = BertTokenizer.from_pretrained(model_name)

	text_ejemplo = "kɾˈɛstə kərβ"
	encoded = tokenizer(text_ejemplo)

	print("--- Texto de Ejemplo ---")
	print(f"Texto: {text_ejemplo}")
	print(f"IDs: {encoded['input_ids']}")

	tokens = tokenizer.convert_ids_to_tokens(encoded['input_ids'])
	print(f"Tokens: {tokens}")