radlab
/

polish-fast-tokenizer

Model card Files Files and versions

pkedzia commited on Aug 16, 2023

Commit

f641a86

·

1 Parent(s): dbbeae1

Update README.md

Files changed (1) hide show

README.md +12 -1

README.md CHANGED Viewed

@@ -20,4 +20,15 @@ datasets:
 This is polish fast tokenizer.
 Number of documents used to train tokenizer:
- - 25 088 398

 This is polish fast tokenizer.
 Number of documents used to train tokenizer:
+ - 25 088 398
+Sample usge with transformers:
+```[python]
+from transformers import AutoTokenizer
+tokenizer = AutoTokenizer.from_pretrained('radlab/polish-fast-tokenizer')
+tokenizer.decode(tokenizer("Ala ma kota i psa").input_ids)
+```