Corianas
/

char128_shift_tokenizer

Model card Files Files and versions

Corianas commited on Aug 27, 2025

Commit

4281937

·

verified ·

1 Parent(s): 83f012f

Update README.md

Files changed (1) hide show

README.md +6 -5

README.md CHANGED Viewed

@@ -1,7 +1,8 @@
----
-language:
-- en
----
 # char128-shift Tokenizer
 A fixed-size Hugging Face–compatible **character tokenizer** with a dedicated **SHIFT** token (`↨`) to represent uppercase letters. Instead of assigning separate tokens to uppercase `A–Z`, each uppercase is encoded as `↨` + lowercase (e.g., `H` → `↨h`).
@@ -135,7 +136,7 @@ Your model’s `vocab_size` must match (128).
 ## License
-MIT (or your chosen license).
 ---

+---
+language:
+- en
+license: mit
+---
 # char128-shift Tokenizer
 A fixed-size Hugging Face–compatible **character tokenizer** with a dedicated **SHIFT** token (`↨`) to represent uppercase letters. Instead of assigning separate tokens to uppercase `A–Z`, each uppercase is encoded as `↨` + lowercase (e.g., `H` → `↨h`).
 ## License
+MIT
 ---