goryden
/

mn_tokenizer

Model card Files Files and versions

mn_tokenizer / README.md

goryden's picture

Update README.md

d4c0e45 verified 8 months ago

|

history blame contribute delete

431 Bytes

	---
	datasets:
	- saillab/alpaca-mongolian-cleaned
	language:
	- mn
	---
	## Usage
	```python
	from transformers import AutoTokenizer
	text = "сайн уу"

	mn_tokenizer = AutoTokenizer.from_pretrained("goryden/mn_tokenizer")

	tokens = mn_tokenizer.tokenize(text)
	encoded = mn_tokenizer.encode(text)
	decoded = mn_tokenizer.decode(encoded)

	print("Original:", text)
	print("Mongolian tokenizer tokens:", tokens)
	print("Decoded :", decoded)