SmallDoge
/

SmolDoge-tokenizer

Model card Files Files and versions

SmolDoge-tokenizer / README.md

JingzeShi's picture

Update README.md

42631d6 verified about 1 year ago

|

371 Bytes

	---
	library_name: transformers
	datasets:
	- HuggingFaceTB/smollm-corpus
	---

	# Doge-tokenizer
	Tokenizer for the training model on [smollm-corpus](https://huggingface.co/datasets/HuggingFaceTB/smollm-corpus), and support reasoning fine-tuning like R1.
	This tokenizer was trained on 2M samples from:
	- FineWeb-Edu 70%
	- Cosmopedia v2 20%
	- Python-Edu 5%
	- FineMath 5%