InfAI
/

sparql-tokenizer

Model card Files Files and versions

felixb85 commited on Sep 11, 2023

Commit

00e6621

·

1 Parent(s): 10bdd73

Update README.md

Files changed (1) hide show

README.md +4 -3

README.md CHANGED Viewed

@@ -4,13 +4,14 @@ datasets:
 - lc_quad
 ---
-This repo contains a custom tokenizer for SPARQL. Here is an example.
 ```
-Query: SELECT ?answer WHERE { wd:Q825946 wdt:P371 ?X . ?X wdt:P2048 ?answer}
 ```
-Result from default T5 tokenizer:
 ```
 ['▁', 'SEL', 'ECT', '▁', '?', 'ans', 'wer', '▁W', 'HER', 'E', '▁', '{', '▁', 'w', 'd', ':', 'Q', '82', '59', '46', '▁',
   'w', 'd', 't', ':', 'P', '37', '1', '▁', '?', 'X', '▁', '.', '▁', '?', 'X', '▁', 'w', 'd', 't', ':', 'P', '20', '48',

 - lc_quad
 ---
+This repo contains a custom tokenizer for SPARQL. Here is an example. It is a SentencePieceBPE tokenizer trained on lc_quad.
+Original query:
 ```
+SELECT ?answer WHERE { wd:Q825946 wdt:P371 ?X . ?X wdt:P2048 ?answer}
 ```
+Result from default T5 tokenizer (just as an example):
 ```
 ['▁', 'SEL', 'ECT', '▁', '?', 'ans', 'wer', '▁W', 'HER', 'E', '▁', '{', '▁', 'w', 'd', ':', 'Q', '82', '59', '46', '▁',
   'w', 'd', 't', ':', 'P', '37', '1', '▁', '?', 'X', '▁', '.', '▁', '?', 'X', '▁', 'w', 'd', 't', ':', 'P', '20', '48',