Suchinthana commited on
Commit
1da79f0
·
1 Parent(s): ad897b3

Upload tokenizer

Browse files
Files changed (1) hide show
  1. tokenizer.json +446 -0
tokenizer.json CHANGED
@@ -51545,6 +51545,452 @@
51545
  "ජන ප්‍රිය",
51546
  "සට හ",
51547
  "තර ු",
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
51548
  "▁ t",
51549
  "e r",
51550
  "i n",
 
51545
  "ජන ප්‍රිය",
51546
  "සට හ",
51547
  "තර ු",
51548
+ "ගි නි",
51549
+ "ම රණ",
51550
+ "සං ග",
51551
+ "සම් මාන",
51552
+ "රජ ය",
51553
+ "විශේෂ යෙන්",
51554
+ "හ තර",
51555
+ "ම ස",
51556
+ "සම ත්",
51557
+ "පර මා",
51558
+ "ම තු",
51559
+ "ශ ෝ",
51560
+ "තී රණය",
51561
+ "නි වේද",
51562
+ "දහ ස",
51563
+ "U n",
51564
+ "එ ල්ල",
51565
+ "ච ී",
51566
+ "2 3",
51567
+ "ද් ධා",
51568
+ "සබැ ඳි",
51569
+ "පු හු",
51570
+ "කොට්ඨා සය",
51571
+ "ගි වි",
51572
+ "ඉතිහා ස",
51573
+ "ස් ක",
51574
+ "යා ගේ",
51575
+ "වීම ෙන්",
51576
+ "දියු ණු",
51577
+ "බි ම්",
51578
+ "විද්‍යා ල",
51579
+ "හ ුව",
51580
+ "ගො ස්",
51581
+ "සම ී",
51582
+ "ලෝක යේ",
51583
+ "ීම ෙන්",
51584
+ "ප්‍රමා ණයක්",
51585
+ "ාව ා",
51586
+ "ප්‍ර ංශ",
51587
+ "චිත්‍රපට ය",
51588
+ "ක යින්",
51589
+ "ස භා",
51590
+ "ච ෝ",
51591
+ "තැ න",
51592
+ "පවත් වා",
51593
+ "කථ ා",
51594
+ "ගා ර",
51595
+ "ශක් තිය",
51596
+ "ථ ි",
51597
+ "මෙහි දී",
51598
+ "ගැනීම ේ",
51599
+ "කැ ම",
51600
+ "අධි රාජ්‍ය",
51601
+ "ම රණය",
51602
+ "අර් ධ",
51603
+ "සො හො",
51604
+ "ිය ක්",
51605
+ "තු න",
51606
+ "ඤ ්",
51607
+ "භා ග",
51608
+ "සං චා",
51609
+ "වෘ ත්",
51610
+ "ගැ න්",
51611
+ "මෘ දු",
51612
+ "ද් ද",
51613
+ "ෂ් ණ",
51614
+ "අධ්‍යා පන",
51615
+ "වි ක",
51616
+ "ද ෘ",
51617
+ "ද ළ",
51618
+ "ස හා",
51619
+ "අන ෙක්",
51620
+ "රජ යේ",
51621
+ "වැර දි",
51622
+ "පහ ළ",
51623
+ "ප ල්",
51624
+ "ස ලා",
51625
+ "නි ව",
51626
+ "වා යු",
51627
+ "සම් ප්‍රදා",
51628
+ "th at",
51629
+ "අධ්‍යා පනය",
51630
+ "ක් ම",
51631
+ "ග්‍ර ී",
51632
+ "කෙ රි",
51633
+ "ළ ුව",
51634
+ "දෙ ව්",
51635
+ "සමා ගම",
51636
+ "රජු ගේ",
51637
+ "භෞ තික",
51638
+ "මාල ාව",
51639
+ "නි ශ්",
51640
+ "ගී තය",
51641
+ "ග න්",
51642
+ "ශ ත",
51643
+ "හ දුන්",
51644
+ "ජන ගහ",
51645
+ "ද ශ",
51646
+ "නය ෙන්",
51647
+ "ගත්ත ේය",
51648
+ "A n",
51649
+ "කෘ ති",
51650
+ "කාල යක්",
51651
+ "මාර් තු",
51652
+ "ෂ ික",
51653
+ "ඇර ඹ",
51654
+ "ණ ේ",
51655
+ "උත් සා",
51656
+ "හ රි",
51657
+ "වු ණු",
51658
+ "අ තී",
51659
+ "වූ හ",
51660
+ "මු ණු",
51661
+ "තව ද",
51662
+ "උස ස්",
51663
+ "ශ්‍ර ේ",
51664
+ "නි ම",
51665
+ "අ න්",
51666
+ "භ ෝ",
51667
+ "සංඛ ්‍යා",
51668
+ "ිය ේ",
51669
+ "සං කල්",
51670
+ "කා ංග",
51671
+ "රාජ වංශ",
51672
+ "තා ර",
51673
+ "යුක් ත",
51674
+ "ජ ර්",
51675
+ "ස ෙන්",
51676
+ "ල කුණු",
51677
+ "T h",
51678
+ "සු ළු",
51679
+ "බ ෑ",
51680
+ "ආය තනය",
51681
+ "යු ත්",
51682
+ "පු ළු",
51683
+ "fr om",
51684
+ "මැ යි",
51685
+ "r ic",
51686
+ "ස ත්ව",
51687
+ "තිහා සික",
51688
+ "ක්ෂ ා",
51689
+ "අඩ ංගු",
51690
+ "සුදු සු",
51691
+ "එ න",
51692
+ "ස් වර",
51693
+ "පළ මුව",
51694
+ "ඇ තුල",
51695
+ "කෙ ර",
51696
+ "ග ෞ",
51697
+ "ආ ර්",
51698
+ "මුද ල්",
51699
+ "ගනි මින්",
51700
+ "බෝ ධ",
51701
+ "දැ න්",
51702
+ "ත් තු",
51703
+ "ජී වත්",
51704
+ "දුරට ත්",
51705
+ "න න්ද",
51706
+ "ජී වී",
51707
+ "ඩ ේ",
51708
+ "නා ග",
51709
+ "ප හර",
51710
+ "වි ද්",
51711
+ "කු ල",
51712
+ "ප්‍රදේශ ය",
51713
+ "ස ත්‍ය",
51714
+ "වෙන් නේ",
51715
+ "ම ව",
51716
+ "ලි ත",
51717
+ "වෙන ුවට",
51718
+ "19 3",
51719
+ "අ මා",
51720
+ "ග ෘ",
51721
+ "ප්‍ර සිද්ධ",
51722
+ "කො න්",
51723
+ "සු ම",
51724
+ "හමුද ාව",
51725
+ "නිල ධා",
51726
+ "යු ගයේ",
51727
+ "ප ස්",
51728
+ "සහ භා",
51729
+ "ය කු",
51730
+ "හැ ඩ",
51731
+ "විදු ලි",
51732
+ "ඊ ජි",
51733
+ "ආග මික",
51734
+ "පී ඩ",
51735
+ "ු ත්",
51736
+ "ආ දී",
51737
+ "යෙ කි",
51738
+ "භාවි ක",
51739
+ "වි රු",
51740
+ "ෆ ි",
51741
+ "වැ ට",
51742
+ "වෙ බ්",
51743
+ "ප්‍ර භ",
51744
+ "පැමි ණි",
51745
+ "ලැබ ෙන",
51746
+ "ලි ස්",
51747
+ "ඔ ස්සේ",
51748
+ "ණ ුව",
51749
+ "ක්‍රියාව ලිය",
51750
+ "ර ස",
51751
+ "ර ළ",
51752
+ "වෙත ත්",
51753
+ "හි ට",
51754
+ "සම ූ",
51755
+ "ච ීන",
51756
+ "කණ්ඩාය ම",
51757
+ "ෙ ල්",
51758
+ "යා ම",
51759
+ "ස ෛ",
51760
+ "ි කා",
51761
+ "සම් පූර්ණ",
51762
+ "ජී විත",
51763
+ "ප වා",
51764
+ "නිෂ්පාද න",
51765
+ "සීම ා",
51766
+ "ද් වි",
51767
+ "රාජ කීය",
51768
+ "එහි දී",
51769
+ "2 7",
51770
+ "ඕ න",
51771
+ "ති රි",
51772
+ "ඩිය ෝ",
51773
+ "දෙවිය න්",
51774
+ "භූ මිය",
51775
+ "ර හ",
51776
+ "ව නා",
51777
+ "වී ර",
51778
+ "කරු ණු",
51779
+ "ක ලේ",
51780
+ "කාර ක",
51781
+ "එම ෙන්ම",
51782
+ "වර් ත",
51783
+ "තර ගය",
51784
+ "ලෝ කය",
51785
+ "ය නා",
51786
+ "වා සය",
51787
+ "ත්ව යක්",
51788
+ "ච් ච",
51789
+ "ක්ෂ ක",
51790
+ "රැ ස්",
51791
+ "කළ ු",
51792
+ "ද ෝ",
51793
+ "ර ියා",
51794
+ "කුම රු",
51795
+ "කොට සක්",
51796
+ "බ ිය",
51797
+ "පා සල්",
51798
+ "පුළු ල්",
51799
+ "අව ම",
51800
+ "m an",
51801
+ "පට න්",
51802
+ "ඇ මෙ",
51803
+ "ස්ට්‍ර ේ",
51804
+ "සක ස්",
51805
+ "රු ම",
51806
+ "අ ල්",
51807
+ "ප්‍රදේශ යේ",
51808
+ "මැ ද",
51809
+ "ෙ කි",
51810
+ "ච් ඡ",
51811
+ "වර්තමා නයේ",
51812
+ "ඉන්ද ියාව",
51813
+ "2 8",
51814
+ "කොට ස",
51815
+ "තිබ ෙන",
51816
+ "අධ්‍ය යනය",
51817
+ "කළ හ",
51818
+ "ආකාර ය",
51819
+ "වර්ෂ යේ",
51820
+ "හි න්දු",
51821
+ "ඓ තිහාසික",
51822
+ "පෘ ථි",
51823
+ "ව ෝ",
51824
+ "සම්බන්ධ යෙන්",
51825
+ "ී න්",
51826
+ "200 7",
51827
+ "ලන්ත ය",
51828
+ "යු ග",
51829
+ "ම් ස්",
51830
+ "සම් මානය",
51831
+ "ල ියා",
51832
+ "ඡා යා",
51833
+ "ලැයි ස්තුව",
51834
+ "ේ ල්",
51835
+ "අ තු",
51836
+ "හඳුන් වා",
51837
+ "එ කි",
51838
+ "මෘදු කාංග",
51839
+ "ළ ඟ",
51840
+ "ස්ථ ාව",
51841
+ "සම් මත",
51842
+ "නය න්",
51843
+ "පද්ධ ති",
51844
+ "2 6",
51845
+ "අ යු",
51846
+ "ර ාව",
51847
+ "සි ත",
51848
+ "යෝ ග",
51849
+ "දර ුවන්",
51850
+ "මන්ත්‍ර ී",
51851
+ "201 0",
51852
+ "ල ක්ෂ",
51853
+ "සි තුව",
51854
+ "දා ය",
51855
+ "එක තු",
51856
+ "සිය ම්",
51857
+ "ඊජි ප්",
51858
+ "ලා භ",
51859
+ "කොර ියානු",
51860
+ "මන ෝ",
51861
+ "ක දී",
51862
+ "චරි තය",
51863
+ "ණ ික",
51864
+ "ෙ යි",
51865
+ "උත්සා හ",
51866
+ "E n",
51867
+ "අ ගෝ",
51868
+ "භූ මි",
51869
+ "දිස්ත්‍රික් කයේ",
51870
+ "හ යි",
51871
+ "රැ ජි",
51872
+ "පිහිට ුව",
51873
+ "න් ස්",
51874
+ "දු රු",
51875
+ "සල ක",
51876
+ "එකි නෙ",
51877
+ "රි ස්",
51878
+ "සැල සුම්",
51879
+ "දුම් රිය",
51880
+ "තිබු ණි",
51881
+ "සිල් වා",
51882
+ "ප්‍ර වේ",
51883
+ "ද ෑ",
51884
+ "සම යේ",
51885
+ "කෙරි ණි",
51886
+ "සු ර",
51887
+ "සාධ ක",
51888
+ "ං ජි",
51889
+ "ජ පා",
51890
+ "සි න",
51891
+ "ටෙ ස්ට්",
51892
+ "පා ර්ශ",
51893
+ "ළ ෙ",
51894
+ "ස්ථ ි",
51895
+ "යුද්ධ ය",
51896
+ "අවසා න",
51897
+ "ච ු",
51898
+ "200 8",
51899
+ "පර්යේ ෂණ",
51900
+ "ස ෘ",
51901
+ ".. ..",
51902
+ "ඉදි රිය",
51903
+ "සංස් කෘතිය",
51904
+ "කර ගත්",
51905
+ "බා ධ",
51906
+ "නිය ම",
51907
+ "අ ට",
51908
+ "සිය ාව",
51909
+ "ෆ ්‍ර",
51910
+ "ජා ල",
51911
+ "පුද්ග ලය",
51912
+ "කෙ ටි",
51913
+ "ද් ග",
51914
+ "පා රි",
51915
+ "විසි නි",
51916
+ "ප ම",
51917
+ "තිය ේ",
51918
+ "ඩ ්‍ර",
51919
+ "ප්‍ර හාර",
51920
+ "1 00",
51921
+ "4 0",
51922
+ "A r",
51923
+ "2 9",
51924
+ "සිය ළු",
51925
+ "දු ර්",
51926
+ "සිදුව න",
51927
+ "ල් ස්",
51928
+ "සැ ප්",
51929
+ "ද්ග ලික",
51930
+ "ස ියානු",
51931
+ "උ ෂ්ණ",
51932
+ "යු ගය",
51933
+ "මධ්‍ය ම",
51934
+ "ං චි",
51935
+ "රට වල",
51936
+ "ation al",
51937
+ "දැ නට",
51938
+ "දැ න",
51939
+ "වා සි",
51940
+ "කා න්",
51941
+ "ල ෙන්",
51942
+ "ෙහි දී",
51943
+ "අ නා",
51944
+ "ග ණි",
51945
+ "සැප් තැ",
51946
+ "න න්",
51947
+ "අගෝ ස්තු",
51948
+ "ද න්",
51949
+ "අතී ත",
51950
+ "ස මු",
51951
+ "ජන වාරි",
51952
+ "ජූ ලි",
51953
+ "ඇ න්",
51954
+ "ක්‍ර ිය",
51955
+ "තම න්",
51956
+ "බි ම",
51957
+ "පූර් ව",
51958
+ "ම ෑ",
51959
+ "ශ බ්",
51960
+ "පෞ ද්ගලික",
51961
+ "ර යි",
51962
+ "දර්ශ න",
51963
+ "කා රි",
51964
+ "ලබ න්නේ",
51965
+ "ව්‍යා පා",
51966
+ "m at",
51967
+ "සි විල්",
51968
+ "ර තු",
51969
+ "201 5",
51970
+ "මා ලි",
51971
+ "ඉ ල්ල",
51972
+ "en c",
51973
+ "සමා ජය",
51974
+ "ආස න්න",
51975
+ "ආය තන",
51976
+ "ගෘ හ",
51977
+ "මාර් ගය",
51978
+ "ප ටි",
51979
+ "බෙ දා",
51980
+ "සැ ම",
51981
+ "වෙ මින්",
51982
+ "දෙ සැ",
51983
+ "කල ාව",
51984
+ "නූ තන",
51985
+ "සි හි",
51986
+ "වර ණය",
51987
+ "ත ක්",
51988
+ "ද් වී",
51989
+ "අ ගය",
51990
+ "ජ ්‍ය",
51991
+ "ඉස් ලා",
51992
+ "ත නි",
51993
+ "තිය ක්",
51994
  "▁ t",
51995
  "e r",
51996
  "i n",