flax-community
/

gpt-2-tamil

Text Generation

text-generation-inference

Model card Files Files and versions

Metrics Training metrics Community

gpt-2-tamil / src /train_tokenizer.py

Abinaya Mahendiran

Updated baseline

3d74ff6 over 4 years ago

history blame contribute delete

754 Bytes

	from datasets import load_dataset
	from tokenizers import ByteLevelBPETokenizer # Tokenizer, normalizers, trainers

	model_dir = "../gpt-2-tamil" # ${MODEL_DIR}

	# load dataset
	dataset = load_dataset("oscar", "unshuffled_deduplicated_ta", split="train")

	# Instantiate tokenizer
	tokenizer = ByteLevelBPETokenizer()


	def batch_iterator(batch_size=1000):
	for i in range(0, len(dataset), batch_size):
	yield dataset[i : i + batch_size]["text"]


	# Customized training
	tokenizer.train_from_iterator(
	batch_iterator(),
	vocab_size=50265,
	min_frequency=2,
	special_tokens=[
	"<s>",
	"<pad>",
	"</s>",
	"<unk>",
	"<mask>",
	],
	)

	# Save files to disk
	tokenizer.save(f"{model_dir}/tokenizer.json")