Mike369williams
/

Sanchari

Text Generation

foundation-model

instruction-following

investor-preview

Model card Files Files and versions

Sanchari / tokenizer /README.md

Mike369williams's picture

Mike369williams

Create tokenizer/README.md

79dd5bc verified about 1 month ago

|

history blame contribute delete

644 Bytes

Sanchari Tokenizer

This folder contains scripts and placeholder artifacts for the Sanchari tokenizer.

The tokenizer is based on SentencePiece (Unigram or BPE) with a ~50k vocabulary optimized for:

English (India)
Hindi
Telugu
Mixed-script content
Code + instruction-level text

Tokenization goals:

Normalize Unicode (NFKC)
Efficient segmentation for Indic languages
Stable handling of whitespace, punctuation, emojis, and mixed-language text

Final tokenizer files (sanchari_spm.model and sanchari_spm.vocab) will be generated after dataset aggregation.

This version contains placeholders only for investor preview.