Suchinthana commited on
Commit
d58c074
·
1 Parent(s): 1a76a5d

Upload tokenizer

Browse files
Files changed (1) hide show
  1. tokenizer.json +281 -1
tokenizer.json CHANGED
@@ -51248,7 +51248,287 @@
51248
  "ර න්",
51249
  "උදා හර",
51250
  "පරි දි",
51251
- "පැහැ දි"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
51252
  ]
51253
  }
51254
  }
 
51248
  "ර න්",
51249
  "උදා හර",
51250
  "පරි දි",
51251
+ "පැහැ දි",
51252
+ "= =",
51253
+ "කෙ රේ",
51254
+ "C h",
51255
+ "ඉංග ්‍ර",
51256
+ "ල ව",
51257
+ "w h",
51258
+ "ඉන්ද ියානු",
51259
+ "බ ලය",
51260
+ "මු ණ",
51261
+ "ගම න්",
51262
+ "ග නී",
51263
+ "දෙ විය",
51264
+ "හර හා",
51265
+ "උ පා",
51266
+ "න ාව",
51267
+ "යු ක්",
51268
+ "පිළිබඳ ව",
51269
+ "මැතිවර ණ",
51270
+ "ඔහු ට",
51271
+ "පැර ණි",
51272
+ "මා නව",
51273
+ "වු න්",
51274
+ "වීම ේ",
51275
+ "සාමා ජ",
51276
+ "රා ධ",
51277
+ "1 1",
51278
+ "ඡ ා",
51279
+ "යුතු ය",
51280
+ "හේ තු",
51281
+ "ar e",
51282
+ "ට ෝ",
51283
+ "ග හ",
51284
+ "ෂ ා",
51285
+ "ුව ක්",
51286
+ "ෂ් ඨ",
51287
+ "චි ත",
51288
+ "අභ ි",
51289
+ "ස්ට ්‍ර",
51290
+ "දිය ු",
51291
+ "වි නි",
51292
+ "වර් ණ",
51293
+ "සේ ව",
51294
+ "චා ර",
51295
+ "උ තුරු",
51296
+ "ඥ ා",
51297
+ "ර ච",
51298
+ "උ ස",
51299
+ "ම ට්ට",
51300
+ "නිර්මා ණ",
51301
+ "ීම ේ",
51302
+ "ස් ස",
51303
+ "ශ ු",
51304
+ "ං කි",
51305
+ "යු ධ",
51306
+ "ර සා",
51307
+ "න් ඩ",
51308
+ "නී තිය",
51309
+ "ou n",
51310
+ "ඇ ර",
51311
+ "එ රෙහි",
51312
+ "සාමාජ ික",
51313
+ "දු රට",
51314
+ "පිළි බද",
51315
+ "නය ි",
51316
+ "කු ත්",
51317
+ "ය කි",
51318
+ "තිබ ූ",
51319
+ "2 5",
51320
+ "බ ලා",
51321
+ "ස තු",
51322
+ "ar d",
51323
+ "ඉන්ද ිය",
51324
+ "හෙ වත්",
51325
+ "ත්‍ය න්තර",
51326
+ "සි ල්",
51327
+ "f r",
51328
+ "අම තර",
51329
+ "පො දු",
51330
+ "චරි ත",
51331
+ "තර ම්",
51332
+ "සි රි",
51333
+ "ඉංග්‍ර ී",
51334
+ "it y",
51335
+ "පූර් ණ",
51336
+ "ජී ව",
51337
+ "මන් ත්‍ර",
51338
+ "මේ වා",
51339
+ "ජා ත්‍යන්තර",
51340
+ "භා ර",
51341
+ "ප් ර",
51342
+ "ම ාව",
51343
+ "යන් ට",
51344
+ "සමන් විත",
51345
+ "ම යි",
51346
+ "නිෂ්පාද නය",
51347
+ "ඊ ට",
51348
+ "ෙ නි",
51349
+ "ස බැ",
51350
+ "වල දී",
51351
+ "ලද් දේ",
51352
+ "නා ශ",
51353
+ "බු ද්ධ",
51354
+ "නග රය",
51355
+ "අ දා",
51356
+ "සි ර",
51357
+ "ඇතුළ ත්",
51358
+ "p e",
51359
+ "ල ට",
51360
+ "රූපවාහි නී",
51361
+ "ම නා",
51362
+ "ස ව",
51363
+ "විශ් වාස",
51364
+ "ගොඩ නැ",
51365
+ "ම ල්",
51366
+ "විද්‍යා ත්මක",
51367
+ "at e",
51368
+ "පෙ ළ",
51369
+ "කර න්නේ",
51370
+ "ව්‍ය ව",
51371
+ "වෙළ ඳ",
51372
+ "සියව සේ",
51373
+ "න් ත්‍ර",
51374
+ "වෛ ද්‍ය",
51375
+ "ච න්ද්‍ර",
51376
+ "ජන තාව",
51377
+ "කාල ීන",
51378
+ "ප් ත",
51379
+ "පහ සු",
51380
+ "ය නය",
51381
+ "ou r",
51382
+ "සා ධ",
51383
+ "නැ ගෙන",
51384
+ "ග නු",
51385
+ "අවුරු දු",
51386
+ "හ මුව",
51387
+ "ලො ව",
51388
+ "ජනා ධිපති",
51389
+ "වි ල්",
51390
+ "ස න",
51391
+ "2 1",
51392
+ "මා ධ්‍ය",
51393
+ "ප රා",
51394
+ "වාද ය",
51395
+ "ත ෘ",
51396
+ "ලැබ ූ",
51397
+ "ේ ද",
51398
+ "න් ථ",
51399
+ "රාජධා නිය",
51400
+ "කි සි",
51401
+ "පො ළ",
51402
+ "නො හැකි",
51403
+ "a in",
51404
+ "බල න්න",
51405
+ "i es",
51406
+ "තු රුව",
51407
+ "සංඛ ්‍ය",
51408
+ "ප රී",
51409
+ "ඩ ී",
51410
+ "ෂ ්‍ය",
51411
+ "an g",
51412
+ "නො වේ",
51413
+ "ශා ක",
51414
+ "ඉ වත්",
51415
+ "යන් ගේ",
51416
+ "උප ත",
51417
+ "ලි ම්",
51418
+ "පරිගණ ක",
51419
+ "වි ම",
51420
+ "එ හෙ",
51421
+ "ක්‍රියා ත්මක",
51422
+ "භාව ය",
51423
+ "අභ ්‍ය",
51424
+ "ර්මා න්ත",
51425
+ "දේ වා",
51426
+ "ධ ිය",
51427
+ "නැ ති",
51428
+ "ස ෞ",
51429
+ "al l",
51430
+ "ෂ් ට",
51431
+ "කෙ රු",
51432
+ "මා නය",
51433
+ "ර ංග",
51434
+ "නා මය",
51435
+ "වසර ේ",
51436
+ "මහ තා",
51437
+ "ත ෙක්",
51438
+ "ති ර",
51439
+ "ජ ල",
51440
+ "න මින්",
51441
+ "q u",
51442
+ "ත හ",
51443
+ "පාර්ලිමේ න්තු",
51444
+ "දෙක ක්",
51445
+ "2 2",
51446
+ "හො ත්",
51447
+ "ෂ ි",
51448
+ "කී ර්",
51449
+ "ඉංග්‍රී සි",
51450
+ "පර් යේ",
51451
+ "S t",
51452
+ "න ූ",
51453
+ "ඩ ෝ",
51454
+ "ග ත්ත",
51455
+ "R e",
51456
+ "s h",
51457
+ "u b",
51458
+ "නි ර",
51459
+ "ලි පි",
51460
+ "එක ක්",
51461
+ "මු ඛ",
51462
+ "ස් සේ",
51463
+ "තී න්",
51464
+ "ග ික",
51465
+ "නි පද",
51466
+ "th er",
51467
+ "ජනය ා",
51468
+ "කා න්ත",
51469
+ "ද සු",
51470
+ "පු රු",
51471
+ "යන ුවෙන්",
51472
+ "ෙන් නේ",
51473
+ "මූ ල",
51474
+ "ප යේ",
51475
+ "ග්‍ර න්ථ",
51476
+ "වර්ධ න",
51477
+ "ලිංග ික",
51478
+ "අ දහස්",
51479
+ "ar t",
51480
+ "පහ ත",
51481
+ "සා හි",
51482
+ "එ ස්",
51483
+ "හා රය",
51484
+ "කො ර",
51485
+ "ජ න්",
51486
+ "නො මැති",
51487
+ "දි න්",
51488
+ "පැහැදි ලි",
51489
+ "ලා ංකි",
51490
+ "I I",
51491
+ "සාමාන්‍ය යෙන්",
51492
+ "5 0",
51493
+ "e w",
51494
+ "කා බ",
51495
+ "ඇ ල්",
51496
+ "පුද් ග",
51497
+ "ආ දි",
51498
+ "ධා ර",
51499
+ "ල ූ",
51500
+ "නි කුත්",
51501
+ "සංස් කෘ",
51502
+ "an t",
51503
+ "ස ෙන",
51504
+ "කු ණ",
51505
+ "සං ගීත",
51506
+ "ආ ග",
51507
+ "නි දහස්",
51508
+ "ප්‍ර ේ",
51509
+ "අ ම්",
51510
+ "ඛ ා",
51511
+ "සා ර්ථ",
51512
+ "උ ද",
51513
+ "ත්‍ර ි",
51514
+ "ic al",
51515
+ "is h",
51516
+ "කිහි පයක්",
51517
+ "කාල යේ",
51518
+ "කෙ රෙහි",
51519
+ "ඉ ස්",
51520
+ "සේ වය",
51521
+ "දී ය",
51522
+ "භ ි",
51523
+ "i p",
51524
+ "නු ම්",
51525
+ "බි හි",
51526
+ "කර ුව",
51527
+ "ූ න්",
51528
+ "වර් තමා",
51529
+ "ඇතුළ ු",
51530
+ "එ යට",
51531
+ "ත ්‍යා"
51532
  ]
51533
  }
51534
  }