2796gauravc
/

tinyguardrail-tokenizer

2796gauravc commited on Dec 30, 2025

Commit

bbeb0b9

verified ·

1 Parent(s): af58c45

Upload README.md with huggingface_hub

Files changed (1) hide show

README.md ADDED Viewed

+# TinyGuardrail Tokenizer
+Advanced BPE-based tokenizer for TinyGuardrail safety model.
+## Specifications
+- **Vocabulary Size**: 16,000
+- **Max Length**: 512
+- **Min Frequency**: 2
+- **Special Tokens**: <pad>, <unk>, <cls>, <sep>
+- **BPE Merges**: 141
+## Usage
+```python
+from src.data.tokenizer import load_tokenizer
+# Load from HuggingFace
+tokenizer = load_tokenizer(hf_repo="2796gauravc/tinyguardrail-tokenizer")
+# Or load from local path
+tokenizer = load_tokenizer("outputs/tokenizer.pkl")
+# Encode text
+tokens = tokenizer.encode("Your text here")
+# Decode tokens
+text = tokenizer.decode(tokens)
+```