Commit ·
d58c074
1
Parent(s): 1a76a5d
Upload tokenizer
Browse files- tokenizer.json +281 -1
tokenizer.json
CHANGED
|
@@ -51248,7 +51248,287 @@
|
|
| 51248 |
"ර න්",
|
| 51249 |
"උදා හර",
|
| 51250 |
"පරි දි",
|
| 51251 |
-
"පැහැ දි"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 51252 |
]
|
| 51253 |
}
|
| 51254 |
}
|
|
|
|
| 51248 |
"ර න්",
|
| 51249 |
"උදා හර",
|
| 51250 |
"පරි දි",
|
| 51251 |
+
"පැහැ දි",
|
| 51252 |
+
"= =",
|
| 51253 |
+
"කෙ රේ",
|
| 51254 |
+
"C h",
|
| 51255 |
+
"ඉංග ්ර",
|
| 51256 |
+
"ල ව",
|
| 51257 |
+
"w h",
|
| 51258 |
+
"ඉන්ද ියානු",
|
| 51259 |
+
"බ ලය",
|
| 51260 |
+
"මු ණ",
|
| 51261 |
+
"ගම න්",
|
| 51262 |
+
"ග නී",
|
| 51263 |
+
"දෙ විය",
|
| 51264 |
+
"හර හා",
|
| 51265 |
+
"උ පා",
|
| 51266 |
+
"න ාව",
|
| 51267 |
+
"යු ක්",
|
| 51268 |
+
"පිළිබඳ ව",
|
| 51269 |
+
"මැතිවර ණ",
|
| 51270 |
+
"ඔහු ට",
|
| 51271 |
+
"පැර ණි",
|
| 51272 |
+
"මා නව",
|
| 51273 |
+
"වු න්",
|
| 51274 |
+
"වීම ේ",
|
| 51275 |
+
"සාමා ජ",
|
| 51276 |
+
"රා ධ",
|
| 51277 |
+
"1 1",
|
| 51278 |
+
"ඡ ා",
|
| 51279 |
+
"යුතු ය",
|
| 51280 |
+
"හේ තු",
|
| 51281 |
+
"ar e",
|
| 51282 |
+
"ට ෝ",
|
| 51283 |
+
"ග හ",
|
| 51284 |
+
"ෂ ා",
|
| 51285 |
+
"ුව ක්",
|
| 51286 |
+
"ෂ් ඨ",
|
| 51287 |
+
"චි ත",
|
| 51288 |
+
"අභ ි",
|
| 51289 |
+
"ස්ට ්ර",
|
| 51290 |
+
"දිය ු",
|
| 51291 |
+
"වි නි",
|
| 51292 |
+
"වර් ණ",
|
| 51293 |
+
"සේ ව",
|
| 51294 |
+
"චා ර",
|
| 51295 |
+
"උ තුරු",
|
| 51296 |
+
"ඥ ා",
|
| 51297 |
+
"ර ච",
|
| 51298 |
+
"උ ස",
|
| 51299 |
+
"ම ට්ට",
|
| 51300 |
+
"නිර්මා ණ",
|
| 51301 |
+
"ීම ේ",
|
| 51302 |
+
"ස් ස",
|
| 51303 |
+
"ශ ු",
|
| 51304 |
+
"ං කි",
|
| 51305 |
+
"යු ධ",
|
| 51306 |
+
"ර සා",
|
| 51307 |
+
"න් ඩ",
|
| 51308 |
+
"නී තිය",
|
| 51309 |
+
"ou n",
|
| 51310 |
+
"ඇ ර",
|
| 51311 |
+
"එ රෙහි",
|
| 51312 |
+
"සාමාජ ික",
|
| 51313 |
+
"දු රට",
|
| 51314 |
+
"පිළි බද",
|
| 51315 |
+
"නය ි",
|
| 51316 |
+
"කු ත්",
|
| 51317 |
+
"ය කි",
|
| 51318 |
+
"තිබ ූ",
|
| 51319 |
+
"2 5",
|
| 51320 |
+
"බ ලා",
|
| 51321 |
+
"ස තු",
|
| 51322 |
+
"ar d",
|
| 51323 |
+
"ඉන්ද ිය",
|
| 51324 |
+
"හෙ වත්",
|
| 51325 |
+
"ත්ය න්තර",
|
| 51326 |
+
"සි ල්",
|
| 51327 |
+
"f r",
|
| 51328 |
+
"අම තර",
|
| 51329 |
+
"පො දු",
|
| 51330 |
+
"චරි ත",
|
| 51331 |
+
"තර ම්",
|
| 51332 |
+
"සි රි",
|
| 51333 |
+
"ඉංග්ර ී",
|
| 51334 |
+
"it y",
|
| 51335 |
+
"පූර් ණ",
|
| 51336 |
+
"ජී ව",
|
| 51337 |
+
"මන් ත්ර",
|
| 51338 |
+
"මේ වා",
|
| 51339 |
+
"ජා ත්යන්තර",
|
| 51340 |
+
"භා ර",
|
| 51341 |
+
"ප් ර",
|
| 51342 |
+
"ම ාව",
|
| 51343 |
+
"යන් ට",
|
| 51344 |
+
"සමන් විත",
|
| 51345 |
+
"ම යි",
|
| 51346 |
+
"නිෂ්පාද නය",
|
| 51347 |
+
"ඊ ට",
|
| 51348 |
+
"ෙ නි",
|
| 51349 |
+
"ස බැ",
|
| 51350 |
+
"වල දී",
|
| 51351 |
+
"ලද් දේ",
|
| 51352 |
+
"නා ශ",
|
| 51353 |
+
"බු ද්ධ",
|
| 51354 |
+
"නග රය",
|
| 51355 |
+
"අ දා",
|
| 51356 |
+
"සි ර",
|
| 51357 |
+
"ඇතුළ ත්",
|
| 51358 |
+
"p e",
|
| 51359 |
+
"ල ට",
|
| 51360 |
+
"රූපවාහි නී",
|
| 51361 |
+
"ම නා",
|
| 51362 |
+
"ස ව",
|
| 51363 |
+
"විශ් වාස",
|
| 51364 |
+
"ගොඩ නැ",
|
| 51365 |
+
"ම ල්",
|
| 51366 |
+
"විද්යා ත්මක",
|
| 51367 |
+
"at e",
|
| 51368 |
+
"පෙ ළ",
|
| 51369 |
+
"කර න්නේ",
|
| 51370 |
+
"ව්ය ව",
|
| 51371 |
+
"වෙළ ඳ",
|
| 51372 |
+
"සියව සේ",
|
| 51373 |
+
"න් ත්ර",
|
| 51374 |
+
"වෛ ද්ය",
|
| 51375 |
+
"ච න්ද්ර",
|
| 51376 |
+
"ජන තාව",
|
| 51377 |
+
"කාල ීන",
|
| 51378 |
+
"ප් ත",
|
| 51379 |
+
"පහ සු",
|
| 51380 |
+
"ය නය",
|
| 51381 |
+
"ou r",
|
| 51382 |
+
"සා ධ",
|
| 51383 |
+
"නැ ගෙන",
|
| 51384 |
+
"ග නු",
|
| 51385 |
+
"අවුරු දු",
|
| 51386 |
+
"හ මුව",
|
| 51387 |
+
"ලො ව",
|
| 51388 |
+
"ජනා ධිපති",
|
| 51389 |
+
"වි ල්",
|
| 51390 |
+
"ස න",
|
| 51391 |
+
"2 1",
|
| 51392 |
+
"මා ධ්ය",
|
| 51393 |
+
"ප රා",
|
| 51394 |
+
"වාද ය",
|
| 51395 |
+
"ත ෘ",
|
| 51396 |
+
"ලැබ ූ",
|
| 51397 |
+
"ේ ද",
|
| 51398 |
+
"න් ථ",
|
| 51399 |
+
"රාජධා නිය",
|
| 51400 |
+
"කි සි",
|
| 51401 |
+
"පො ළ",
|
| 51402 |
+
"නො හැකි",
|
| 51403 |
+
"a in",
|
| 51404 |
+
"බල න්න",
|
| 51405 |
+
"i es",
|
| 51406 |
+
"තු රුව",
|
| 51407 |
+
"සංඛ ්ය",
|
| 51408 |
+
"ප රී",
|
| 51409 |
+
"ඩ ී",
|
| 51410 |
+
"ෂ ්ය",
|
| 51411 |
+
"an g",
|
| 51412 |
+
"නො වේ",
|
| 51413 |
+
"ශා ක",
|
| 51414 |
+
"ඉ වත්",
|
| 51415 |
+
"යන් ගේ",
|
| 51416 |
+
"උප ත",
|
| 51417 |
+
"ලි ම්",
|
| 51418 |
+
"පරිගණ ක",
|
| 51419 |
+
"වි ම",
|
| 51420 |
+
"එ හෙ",
|
| 51421 |
+
"ක්රියා ත්මක",
|
| 51422 |
+
"භාව ය",
|
| 51423 |
+
"අභ ්ය",
|
| 51424 |
+
"ර්මා න්ත",
|
| 51425 |
+
"දේ වා",
|
| 51426 |
+
"ධ ිය",
|
| 51427 |
+
"නැ ති",
|
| 51428 |
+
"ස ෞ",
|
| 51429 |
+
"al l",
|
| 51430 |
+
"ෂ් ට",
|
| 51431 |
+
"කෙ රු",
|
| 51432 |
+
"මා නය",
|
| 51433 |
+
"ර ංග",
|
| 51434 |
+
"නා මය",
|
| 51435 |
+
"වසර ේ",
|
| 51436 |
+
"මහ තා",
|
| 51437 |
+
"ත ෙක්",
|
| 51438 |
+
"ති ර",
|
| 51439 |
+
"ජ ල",
|
| 51440 |
+
"න මින්",
|
| 51441 |
+
"q u",
|
| 51442 |
+
"ත හ",
|
| 51443 |
+
"පාර්ලිමේ න්තු",
|
| 51444 |
+
"දෙක ක්",
|
| 51445 |
+
"2 2",
|
| 51446 |
+
"හො ත්",
|
| 51447 |
+
"ෂ ි",
|
| 51448 |
+
"කී ර්",
|
| 51449 |
+
"ඉංග්රී සි",
|
| 51450 |
+
"පර් යේ",
|
| 51451 |
+
"S t",
|
| 51452 |
+
"න ූ",
|
| 51453 |
+
"ඩ ෝ",
|
| 51454 |
+
"ග ත්ත",
|
| 51455 |
+
"R e",
|
| 51456 |
+
"s h",
|
| 51457 |
+
"u b",
|
| 51458 |
+
"නි ර",
|
| 51459 |
+
"ලි පි",
|
| 51460 |
+
"එක ක්",
|
| 51461 |
+
"මු ඛ",
|
| 51462 |
+
"ස් සේ",
|
| 51463 |
+
"තී න්",
|
| 51464 |
+
"ග ික",
|
| 51465 |
+
"නි පද",
|
| 51466 |
+
"th er",
|
| 51467 |
+
"ජනය ා",
|
| 51468 |
+
"කා න්ත",
|
| 51469 |
+
"ද සු",
|
| 51470 |
+
"පු රු",
|
| 51471 |
+
"යන ුවෙන්",
|
| 51472 |
+
"ෙන් නේ",
|
| 51473 |
+
"මූ ල",
|
| 51474 |
+
"ප යේ",
|
| 51475 |
+
"ග්ර න්ථ",
|
| 51476 |
+
"වර්ධ න",
|
| 51477 |
+
"ලිංග ික",
|
| 51478 |
+
"අ දහස්",
|
| 51479 |
+
"ar t",
|
| 51480 |
+
"පහ ත",
|
| 51481 |
+
"සා හි",
|
| 51482 |
+
"එ ස්",
|
| 51483 |
+
"හා රය",
|
| 51484 |
+
"කො ර",
|
| 51485 |
+
"ජ න්",
|
| 51486 |
+
"නො මැති",
|
| 51487 |
+
"දි න්",
|
| 51488 |
+
"පැහැදි ලි",
|
| 51489 |
+
"ලා ංකි",
|
| 51490 |
+
"I I",
|
| 51491 |
+
"සාමාන්ය යෙන්",
|
| 51492 |
+
"5 0",
|
| 51493 |
+
"e w",
|
| 51494 |
+
"කා බ",
|
| 51495 |
+
"ඇ ල්",
|
| 51496 |
+
"පුද් ග",
|
| 51497 |
+
"ආ දි",
|
| 51498 |
+
"ධා ර",
|
| 51499 |
+
"ල ූ",
|
| 51500 |
+
"නි කුත්",
|
| 51501 |
+
"සංස් කෘ",
|
| 51502 |
+
"an t",
|
| 51503 |
+
"ස ෙන",
|
| 51504 |
+
"කු ණ",
|
| 51505 |
+
"සං ගීත",
|
| 51506 |
+
"ආ ග",
|
| 51507 |
+
"නි දහස්",
|
| 51508 |
+
"ප්ර ේ",
|
| 51509 |
+
"අ ම්",
|
| 51510 |
+
"ඛ ා",
|
| 51511 |
+
"සා ර්ථ",
|
| 51512 |
+
"උ ද",
|
| 51513 |
+
"ත්ර ි",
|
| 51514 |
+
"ic al",
|
| 51515 |
+
"is h",
|
| 51516 |
+
"කිහි පයක්",
|
| 51517 |
+
"කාල යේ",
|
| 51518 |
+
"කෙ රෙහි",
|
| 51519 |
+
"ඉ ස්",
|
| 51520 |
+
"සේ වය",
|
| 51521 |
+
"දී ය",
|
| 51522 |
+
"භ ි",
|
| 51523 |
+
"i p",
|
| 51524 |
+
"නු ම්",
|
| 51525 |
+
"බි හි",
|
| 51526 |
+
"කර ුව",
|
| 51527 |
+
"ූ න්",
|
| 51528 |
+
"වර් තමා",
|
| 51529 |
+
"ඇතුළ ු",
|
| 51530 |
+
"එ යට",
|
| 51531 |
+
"ත ්යා"
|
| 51532 |
]
|
| 51533 |
}
|
| 51534 |
}
|