Suchinthana commited on
Commit
7e16ff3
·
1 Parent(s): 1da79f0

Upload tokenizer

Browse files
Files changed (1) hide show
  1. tokenizer.json +422 -6
tokenizer.json CHANGED
@@ -50320,7 +50320,6 @@
50320
  "බ ල",
50321
  "ත ුව",
50322
  "ස ර",
50323
- "o f",
50324
  "බ ැ",
50325
  "ශ්‍ර ී",
50326
  "න ිය",
@@ -50946,7 +50945,6 @@
50946
  "කාර ී",
50947
  "දෙ වන",
50948
  "පුද් ගල",
50949
- "b e",
50950
  "ග යේ",
50951
  "මූ ලා",
50952
  "ඩ ො",
@@ -51351,12 +51349,10 @@
51351
  "කී ර්",
51352
  "ඉංග්‍රී සි",
51353
  "පර් යේ",
51354
- "S t",
51355
  "න ූ",
51356
  "ඩ ෝ",
51357
  "ග ත්ත",
51358
  "R e",
51359
- "s h",
51360
  "නි ර",
51361
  "ලි පි",
51362
  "එක ක්",
@@ -51409,7 +51405,6 @@
51409
  "සා ර්ථ",
51410
  "උ ද",
51411
  "ත්‍ර ි",
51412
- "ic al",
51413
  "කිහි පයක්",
51414
  "කාල යේ",
51415
  "කෙ රෙහි",
@@ -52951,7 +52946,428 @@
52951
  "a nn",
52952
  "▁ —",
52953
  "er t",
52954
- "e rt"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
52955
  ]
52956
  }
52957
  }
 
50320
  "බ ල",
50321
  "ත ුව",
50322
  "ස ර",
 
50323
  "බ ැ",
50324
  "ශ්‍ර ී",
50325
  "න ිය",
 
50945
  "කාර ී",
50946
  "දෙ වන",
50947
  "පුද් ගල",
 
50948
  "ග යේ",
50949
  "මූ ලා",
50950
  "ඩ ො",
 
51349
  "කී ර්",
51350
  "ඉංග්‍රී සි",
51351
  "පර් යේ",
 
51352
  "න ූ",
51353
  "ඩ ෝ",
51354
  "ග ත්ත",
51355
  "R e",
 
51356
  "නි ර",
51357
  "ලි පි",
51358
  "එක ක්",
 
51405
  "සා ර්ථ",
51406
  "උ ද",
51407
  "ත්‍ර ි",
 
51408
  "කිහි පයක්",
51409
  "කාල යේ",
51410
  "කෙ රෙහි",
 
52946
  "a nn",
52947
  "▁ —",
52948
  "er t",
52949
+ "e rt",
52950
+ "ac e",
52951
+ "a ce",
52952
+ "sc h",
52953
+ "s ch",
52954
+ "▁n eed",
52955
+ "▁ne ed",
52956
+ "▁ need",
52957
+ "▁ à",
52958
+ "ie n",
52959
+ "i en",
52960
+ "ou gh",
52961
+ "oug h",
52962
+ "o ugh",
52963
+ "н е",
52964
+ "▁d ef",
52965
+ "▁de f",
52966
+ "▁ def",
52967
+ "i j",
52968
+ "er n",
52969
+ "e rn",
52970
+ "▁w hat",
52971
+ "▁wh at",
52972
+ "▁ what",
52973
+ "▁A r",
52974
+ "▁ Ar",
52975
+ "w o",
52976
+ "m l",
52977
+ "< /",
52978
+ "▁R e",
52979
+ "▁ Re",
52980
+ "▁e s",
52981
+ "▁ es",
52982
+ "▁in st",
52983
+ "▁ins t",
52984
+ "▁ inst",
52985
+ "b o",
52986
+ "a z",
52987
+ "▁# ##",
52988
+ "▁## #",
52989
+ "▁ б",
52990
+ "er m",
52991
+ "e rm",
52992
+ "▁A l",
52993
+ "▁ Al",
52994
+ "le d",
52995
+ "l ed",
52996
+ "д а",
52997
+ "te n",
52998
+ "t en",
52999
+ "se t",
53000
+ "s et",
53001
+ "л о",
53002
+ "▁c omm",
53003
+ "▁com m",
53004
+ "▁co mm",
53005
+ "▁ comm",
53006
+ "s h",
53007
+ "в а",
53008
+ "▁ /",
53009
+ "▁d ata",
53010
+ "▁da ta",
53011
+ "▁dat a",
53012
+ "▁ data",
53013
+ "▁/ /",
53014
+ "▁ //",
53015
+ "] (",
53016
+ "▁s tr",
53017
+ "▁st r",
53018
+ "▁ str",
53019
+ "os e",
53020
+ "o se",
53021
+ "▁U n",
53022
+ "▁ Un",
53023
+ "ve n",
53024
+ "v en",
53025
+ "S t",
53026
+ ".. .",
53027
+ ". ..",
53028
+ "▁ С",
53029
+ "ys t",
53030
+ "y st",
53031
+ "▁ «",
53032
+ "ic k",
53033
+ "i ck",
53034
+ "i x",
53035
+ "pa r",
53036
+ "p ar",
53037
+ "▁ у",
53038
+ "▁w ant",
53039
+ "▁wa nt",
53040
+ "n g",
53041
+ "ot e",
53042
+ "o te",
53043
+ "▁g r",
53044
+ "▁ gr",
53045
+ "▁d u",
53046
+ "▁ du",
53047
+ "▁ .",
53048
+ "un d",
53049
+ "u nd",
53050
+ "▁on ly",
53051
+ "▁ only",
53052
+ "▁s a",
53053
+ "▁ sa",
53054
+ "el y",
53055
+ "e ly",
53056
+ "ve rs",
53057
+ "ver s",
53058
+ "v ers",
53059
+ "▁e nt",
53060
+ "▁en t",
53061
+ "▁ ent",
53062
+ ") )",
53063
+ "( '",
53064
+ "▁m od",
53065
+ "▁mo d",
53066
+ "▁ mod",
53067
+ "av a",
53068
+ "a va",
53069
+ "to n",
53070
+ "t on",
53071
+ "▁sh ould",
53072
+ "▁sho uld",
53073
+ "▁ should",
53074
+ "em ent",
53075
+ "eme nt",
53076
+ "emen t",
53077
+ "e ment",
53078
+ "▁f orm",
53079
+ "▁for m",
53080
+ "▁fo rm",
53081
+ "▁ form",
53082
+ "▁al so",
53083
+ "▁als o",
53084
+ "▁ also",
53085
+ "▁s c",
53086
+ "▁ sc",
53087
+ "in gs",
53088
+ "ing s",
53089
+ "▁Y ou",
53090
+ "▁ You",
53091
+ "ó n",
53092
+ "▁k n",
53093
+ "▁ kn",
53094
+ "() ;",
53095
+ "( );",
53096
+ "▁ |",
53097
+ "▁w ere",
53098
+ "▁we re",
53099
+ "▁wer e",
53100
+ "s s",
53101
+ "▁Qu estion",
53102
+ "▁ Question",
53103
+ "is e",
53104
+ "i se",
53105
+ "▁th ey",
53106
+ "▁the y",
53107
+ "▁ they",
53108
+ "▁D e",
53109
+ "▁ De",
53110
+ "on d",
53111
+ "o nd",
53112
+ "▁s ol",
53113
+ "▁so l",
53114
+ "▁ sol",
53115
+ "▁f ol",
53116
+ "▁fo l",
53117
+ "▁ fol",
53118
+ "▁m ore",
53119
+ "▁mo re",
53120
+ "▁mor e",
53121
+ "▁ more",
53122
+ "▁h er",
53123
+ "▁he r",
53124
+ "▁ her",
53125
+ "▁ _",
53126
+ "▁ é",
53127
+ "at ch",
53128
+ "ft er",
53129
+ "fte r",
53130
+ "f ter",
53131
+ "▁c re",
53132
+ "▁cr e",
53133
+ "▁ cre",
53134
+ "lo ck",
53135
+ "loc k",
53136
+ "l ock",
53137
+ "tr ing",
53138
+ "tri ng",
53139
+ "t ring",
53140
+ "▁T his",
53141
+ "▁Th is",
53142
+ "▁ This",
53143
+ "z e",
53144
+ "ad o",
53145
+ "a do",
53146
+ "ul l",
53147
+ "u ll",
53148
+ "ge r",
53149
+ "g er",
53150
+ "b e",
53151
+ "▁o ther",
53152
+ "▁ot her",
53153
+ "▁ other",
53154
+ "▁T ags",
53155
+ "▁Tag s",
53156
+ "▁Ta gs",
53157
+ "▁ Tags",
53158
+ "ut ion",
53159
+ "uti on",
53160
+ "u tion",
53161
+ "ic t",
53162
+ "i ct",
53163
+ "▁h ow",
53164
+ "▁ho w",
53165
+ "▁ how",
53166
+ "▁ x",
53167
+ "▁S e",
53168
+ "▁ Se",
53169
+ "▁c he",
53170
+ "▁ch e",
53171
+ "▁ che",
53172
+ "cri pt",
53173
+ "cr ipt",
53174
+ "▁j ust",
53175
+ "▁ju st",
53176
+ "▁ just",
53177
+ "▁p os",
53178
+ "▁po s",
53179
+ "▁ pos",
53180
+ "an ge",
53181
+ "ang e",
53182
+ "if ic",
53183
+ "ifi c",
53184
+ "i fic",
53185
+ "re e",
53186
+ "r ee",
53187
+ "} }",
53188
+ "▁t ime",
53189
+ "▁tim e",
53190
+ "▁ti me",
53191
+ "▁ time",
53192
+ "ap p",
53193
+ "a pp",
53194
+ "н ы",
53195
+ "▁f ile",
53196
+ "▁fil e",
53197
+ "▁fi le",
53198
+ "▁ file",
53199
+ "ar k",
53200
+ "ic al",
53201
+ "ica l",
53202
+ "i cal",
53203
+ "▁f irst",
53204
+ "▁fir st",
53205
+ "▁ first",
53206
+ "▁in t",
53207
+ "▁i nt",
53208
+ "▁ int",
53209
+ "▁ В",
53210
+ "▁H e",
53211
+ "▁ He",
53212
+ "t a",
53213
+ "um ent",
53214
+ "ume nt",
53215
+ "umen t",
53216
+ "u ment",
53217
+ "or s",
53218
+ "o rs",
53219
+ "le ment",
53220
+ "lem ent",
53221
+ "l ement",
53222
+ "ra c",
53223
+ "r ac",
53224
+ "▁a g",
53225
+ "▁ ag",
53226
+ "▁do es",
53227
+ "▁ does",
53228
+ "y n",
53229
+ "re ad",
53230
+ "rea d",
53231
+ "r ead",
53232
+ "ua l",
53233
+ "u al",
53234
+ "▁L e",
53235
+ "▁ Le",
53236
+ "y s",
53237
+ "▁e m",
53238
+ "▁ em",
53239
+ "▁n um",
53240
+ "▁nu m",
53241
+ "▁ num",
53242
+ "ve l",
53243
+ "v el",
53244
+ "д и",
53245
+ "ov er",
53246
+ "ove r",
53247
+ "o ver",
53248
+ "▁d if",
53249
+ "▁di f",
53250
+ "et hod",
53251
+ "eth od",
53252
+ "▁I f",
53253
+ "▁ If",
53254
+ "▁s pe",
53255
+ "▁sp e",
53256
+ "▁ spe",
53257
+ "y m",
53258
+ "▁t hem",
53259
+ "▁th em",
53260
+ "▁the m",
53261
+ "▁in to",
53262
+ "▁int o",
53263
+ "▁ into",
53264
+ "▁l es",
53265
+ "▁le s",
53266
+ "▁ les",
53267
+ "▁it s",
53268
+ "▁i ts",
53269
+ "▁ its",
53270
+ "es e",
53271
+ "e se",
53272
+ "ie ld",
53273
+ "iel d",
53274
+ "i eld",
53275
+ "▁p ublic",
53276
+ "▁pub lic",
53277
+ "▁pu blic",
53278
+ "▁publi c",
53279
+ "▁ public",
53280
+ "▁ П",
53281
+ "▁d en",
53282
+ "▁de n",
53283
+ "▁ den",
53284
+ "yst em",
53285
+ "ys tem",
53286
+ "o f",
53287
+ "▁o ver",
53288
+ "▁ov er",
53289
+ "▁ over",
53290
+ "- >",
53291
+ "▁f il",
53292
+ "▁fi l",
53293
+ "▁ fil",
53294
+ "na me",
53295
+ "nam e",
53296
+ "n ame",
53297
+ "in al",
53298
+ "ina l",
53299
+ "i nal",
53300
+ "▁i l",
53301
+ "▁ il",
53302
+ "am ple",
53303
+ "amp le",
53304
+ "▁w ay",
53305
+ "▁wa y",
53306
+ "▁ way",
53307
+ "ic a",
53308
+ "i ca",
53309
+ "в о",
53310
+ "ce ss",
53311
+ "ces s",
53312
+ "c ess",
53313
+ "it t",
53314
+ "i tt",
53315
+ "uc h",
53316
+ "u ch",
53317
+ "▁w here",
53318
+ "▁wh ere",
53319
+ "▁whe re",
53320
+ "▁ where",
53321
+ "м и",
53322
+ "or g",
53323
+ "o rg",
53324
+ "htt ps",
53325
+ "http s",
53326
+ "▁v o",
53327
+ "▁ vo",
53328
+ "ie nt",
53329
+ "ien t",
53330
+ "i ent",
53331
+ "ov e",
53332
+ "o ve",
53333
+ "▁val ue",
53334
+ "▁valu e",
53335
+ "▁ value",
53336
+ "en g",
53337
+ "e ng",
53338
+ "▁L a",
53339
+ "▁ La",
53340
+ "^ {",
53341
+ "re f",
53342
+ "r ef",
53343
+ "ie d",
53344
+ "i ed",
53345
+ "E R",
53346
+ "▁s tat",
53347
+ "▁st at",
53348
+ "▁sta t",
53349
+ "▁ stat",
53350
+ "fi g",
53351
+ "f ig",
53352
+ "m e",
53353
+ "▁v on",
53354
+ "▁vo n",
53355
+ "▁ von",
53356
+ "▁in ter",
53357
+ "▁int er",
53358
+ "▁inte r",
53359
+ "▁ inter",
53360
+ "ro id",
53361
+ "r oid",
53362
+ "at er",
53363
+ "ate r",
53364
+ "a ter",
53365
+ "▁the ir",
53366
+ "▁b et",
53367
+ "▁be t",
53368
+ "▁ bet",
53369
+ "▁e in",
53370
+ "▁ ein"
53371
  ]
53372
  }
53373
  }