flexitok
/

bpe_fw_edu_32000

+---
+license: mit
+language:
+- fw
+tags:
+- tokenizer
+- bpe
+- flexitok
+- fineweb2
+---
+# Byte-Level BPE Tokenizer: fw_edu (32K)
+A **Byte-Level BPE** tokenizer trained on **fw_edu** data from Fineweb-2-HQ.
+## Training Details
+| Parameter | Value |
+|-----------|-------|
+| Algorithm | Byte-Level BPE |
+| Language | `fw_edu` |
+| Target Vocab Size | 32,000 |
+| Final Vocab Size | 0 |
+| Pre-tokenizer | ByteLevel |
+| Normalizer | NFC |
+| Special Tokens | `<s>`, `</s>`, `<pad>`, `<unk>` |
+| Training Shards | 2 |
+| Data Source | `/scratch/gsa/data/flexitok//fw_edu/` |
+## Usage
+```python
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained("<repo_id>")
+tokens = tokenizer.encode("Hello, world!")
+```
+## Files
+- `tokenizer.json` — Full HuggingFace tokenizer
+- `vocab.json` — Vocabulary mapping
+- `merges.txt` — BPE merge rules