lanstat0123
/

multilingual_tokenizer

Model card Files Files and versions

multilingual_tokenizer / README.md

lanstat0123's picture

Upload converted tokenizer

c2cd4b6 verified 21 days ago

|

history blame contribute delete

440 Bytes

	---
	library_name: transformers
	tags:
	- tokenizer
	- sentencepiece
	---

	# SentencePiece-based Hugging Face tokenizer

	This repository contains a Hugging Face tokenizer converted from a SentencePiece model.

	## Load

	```python
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained("lanstat0123/multilingual_tokenizer")
	```

	## Special tokens

	```python
	print(tokenizer.special_tokens_map)
	print(len(tokenizer))
	```