nilq
/

baby-tokenizer

Model card Files Files and versions

nilq commited on Jan 21, 2024

Commit

7357b8a

·

verified ·

1 Parent(s): 11d0588

Update README.md

Files changed (1) hide show

README.md +18 -1

README.md CHANGED Viewed

@@ -5,13 +5,30 @@ language:
 tags:
 - babylm
 - tokenizer
-library_name: transformers
 ---
 ## Baby Tokenizer
 Compact sentencepiece tokenizer for sample-efficient English language modeling, simply tokenizing natural language.
 ### Data
 This tokeniser is derived from the BabyLM 100M dataset of mixed domain data, consisting of the following sources:

 tags:
 - babylm
 - tokenizer
 ---
 ## Baby Tokenizer
 Compact sentencepiece tokenizer for sample-efficient English language modeling, simply tokenizing natural language.
+### Usage
+#### Transformers
+```py
+from transformers import AutoTokenizer
+tokenizer_baby = AutoTokenizer.from_pretrained("nilq/baby-tokenizer")
+```
+#### Tokenizers
+```py
+from tokenizers import Tokenizer
+tokenizer_baby = Tokenizer.from_pretrained("nilq/baby-tokenizer")
+```
 ### Data
 This tokeniser is derived from the BabyLM 100M dataset of mixed domain data, consisting of the following sources: