LH-Tech-AI
/

Quark-v2-0.5M

Text Generation

text-generation-inference

Model card Files Files and versions

Quark-v2-0.5M / train_tokenizer.py

LH-Tech-AI's picture

Create train_tokenizer.py

b54e272 verified 7 days ago

history blame contribute delete

703 Bytes

	%%writefile train_tokenizer.py
	print("[*] Loading libraries...")
	from datasets import load_dataset
	from tokenizers import ByteLevelBPETokenizer

	dataset = load_dataset("HuggingFaceFW/fineweb-edu", "sample-10BT", split="train", streaming=True)
	def get_training_corpus():
	dataset_iter = iter(dataset)
	for _ in range(50000):
	yield next(dataset_iter)["text"]

	tokenizer = ByteLevelBPETokenizer()

	print("[*] Training tokenizer...")

	tokenizer.train_from_iterator(
	get_training_corpus(),
	vocab_size=500,
	min_frequency=2,
	special_tokens=["<s>", "<pad>", "</s>", "<unk>", "<mask>"]
	)

	tokenizer.save_model(".", "custom_llama_tokenizer")
	print("[*] Tokenizer training complete!")