NeuronUz
/

NeuronAI-Uzbek

Text Generation

tokenizer-optimization

Eval Results (legacy)

Model card Files Files and versions

kmamaroziqov commited on Jan 21

Commit

e538114

·

verified ·

1 Parent(s): 54f3f39

token correction

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -134,7 +134,7 @@ We optimized the tokenizer specifically for Uzbek, achieving significantly bette
 1. **Tokenizer Surgery**: Extended vocabulary with 40,000 Uzbek-optimized tokens
 2. **Embedding Initialization**: Semantic initialization using subword composition
-3. **Continual Pretraining**: Trained on 22GB Uzbek text corpus
 4. **Instruction Fine-tuning**: Aligned using Uzbek and English instruction datasets
 ### Training Data

 1. **Tokenizer Surgery**: Extended vocabulary with 40,000 Uzbek-optimized tokens
 2. **Embedding Initialization**: Semantic initialization using subword composition
+3. **Continual Pretraining**: Trained on 2B tokens of Uzbek and English text corpus
 4. **Instruction Fine-tuning**: Aligned using Uzbek and English instruction datasets
 ### Training Data