PraneetNS
/

indic-tokenizer-v2-2

Model card Files Files and versions

indic-tokenizer-v2-2 / README.md

PraneetNS's picture

Upload folder using huggingface_hub

8d85ec0 verified about 2 months ago

|

history blame contribute delete

492 Bytes

	# Indic Tokenizer v2

	Custom SentencePiece Unigram tokenizer trained on:
	- Hindi, Tamil, Telugu corpora
	- Code-mixed Hinglish data

	## Features
	- 40–70% fewer tokens vs GPT-2
	- Script-aware tokenization
	- Better handling of Indic languages

	## Usage

	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained(
	"your-username/indic-tokenizer-v2",
	trust_remote_code=True
	)

	print(tokenizer.tokenize("नमस्ते मित्र, कैसे हो?"))