livinNector commited on
Commit
47f62c8
·
1 Parent(s): b1f03b7

Upload tokenizer

Browse files
Files changed (3) hide show
  1. added_tokens.json +22 -7
  2. tokenizer.json +539 -539
  3. vocab.txt +95 -95
added_tokens.json CHANGED
@@ -1,9 +1,24 @@
1
  {
2
- "(": 504,
3
- ")": 505,
4
- "-": 500,
5
- "...": 506,
6
- "/": 503,
7
- ":": 501,
8
- ";": 502
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9
  }
 
1
  {
2
+ "!": 502,
3
+ "\"": 511,
4
+ "'": 510,
5
+ "(": 508,
6
+ ")": 509,
7
+ ",": 501,
8
+ "-": 504,
9
+ ".": 500,
10
+ "...": 512,
11
+ "/": 507,
12
+ "0": 513,
13
+ "1": 514,
14
+ "2": 515,
15
+ "3": 516,
16
+ "4": 517,
17
+ "5": 518,
18
+ "6": 519,
19
+ "7": 520,
20
+ "8": 521,
21
+ ":": 505,
22
+ ";": 506,
23
+ "?": 503
24
  }
tokenizer.json CHANGED
@@ -49,8 +49,8 @@
49
  "special": true
50
  },
51
  {
52
- "id": 5,
53
- "content": "!",
54
  "single_word": false,
55
  "lstrip": false,
56
  "rstrip": false,
@@ -58,8 +58,8 @@
58
  "special": false
59
  },
60
  {
61
- "id": 6,
62
- "content": "\"",
63
  "single_word": false,
64
  "lstrip": false,
65
  "rstrip": false,
@@ -67,8 +67,8 @@
67
  "special": false
68
  },
69
  {
70
- "id": 7,
71
- "content": "'",
72
  "single_word": false,
73
  "lstrip": false,
74
  "rstrip": false,
@@ -76,8 +76,8 @@
76
  "special": false
77
  },
78
  {
79
- "id": 8,
80
- "content": ",",
81
  "single_word": false,
82
  "lstrip": false,
83
  "rstrip": false,
@@ -85,8 +85,8 @@
85
  "special": false
86
  },
87
  {
88
- "id": 9,
89
- "content": ".",
90
  "single_word": false,
91
  "lstrip": false,
92
  "rstrip": false,
@@ -94,8 +94,8 @@
94
  "special": false
95
  },
96
  {
97
- "id": 10,
98
- "content": "0",
99
  "single_word": false,
100
  "lstrip": false,
101
  "rstrip": false,
@@ -103,8 +103,8 @@
103
  "special": false
104
  },
105
  {
106
- "id": 11,
107
- "content": "1",
108
  "single_word": false,
109
  "lstrip": false,
110
  "rstrip": false,
@@ -112,8 +112,8 @@
112
  "special": false
113
  },
114
  {
115
- "id": 12,
116
- "content": "2",
117
  "single_word": false,
118
  "lstrip": false,
119
  "rstrip": false,
@@ -121,8 +121,8 @@
121
  "special": false
122
  },
123
  {
124
- "id": 13,
125
- "content": "3",
126
  "single_word": false,
127
  "lstrip": false,
128
  "rstrip": false,
@@ -130,8 +130,8 @@
130
  "special": false
131
  },
132
  {
133
- "id": 14,
134
- "content": "4",
135
  "single_word": false,
136
  "lstrip": false,
137
  "rstrip": false,
@@ -139,8 +139,8 @@
139
  "special": false
140
  },
141
  {
142
- "id": 15,
143
- "content": "5",
144
  "single_word": false,
145
  "lstrip": false,
146
  "rstrip": false,
@@ -148,8 +148,8 @@
148
  "special": false
149
  },
150
  {
151
- "id": 16,
152
- "content": "6",
153
  "single_word": false,
154
  "lstrip": false,
155
  "rstrip": false,
@@ -157,8 +157,8 @@
157
  "special": false
158
  },
159
  {
160
- "id": 17,
161
- "content": "7",
162
  "single_word": false,
163
  "lstrip": false,
164
  "rstrip": false,
@@ -166,8 +166,8 @@
166
  "special": false
167
  },
168
  {
169
- "id": 18,
170
- "content": "8",
171
  "single_word": false,
172
  "lstrip": false,
173
  "rstrip": false,
@@ -175,8 +175,8 @@
175
  "special": false
176
  },
177
  {
178
- "id": 20,
179
- "content": "?",
180
  "single_word": false,
181
  "lstrip": false,
182
  "rstrip": false,
@@ -184,8 +184,8 @@
184
  "special": false
185
  },
186
  {
187
- "id": 500,
188
- "content": "-",
189
  "single_word": false,
190
  "lstrip": false,
191
  "rstrip": false,
@@ -193,8 +193,8 @@
193
  "special": false
194
  },
195
  {
196
- "id": 501,
197
- "content": ":",
198
  "single_word": false,
199
  "lstrip": false,
200
  "rstrip": false,
@@ -202,8 +202,8 @@
202
  "special": false
203
  },
204
  {
205
- "id": 502,
206
- "content": ";",
207
  "single_word": false,
208
  "lstrip": false,
209
  "rstrip": false,
@@ -211,8 +211,8 @@
211
  "special": false
212
  },
213
  {
214
- "id": 503,
215
- "content": "/",
216
  "single_word": false,
217
  "lstrip": false,
218
  "rstrip": false,
@@ -220,8 +220,8 @@
220
  "special": false
221
  },
222
  {
223
- "id": 504,
224
- "content": "(",
225
  "single_word": false,
226
  "lstrip": false,
227
  "rstrip": false,
@@ -229,8 +229,8 @@
229
  "special": false
230
  },
231
  {
232
- "id": 505,
233
- "content": ")",
234
  "single_word": false,
235
  "lstrip": false,
236
  "rstrip": false,
@@ -238,8 +238,8 @@
238
  "special": false
239
  },
240
  {
241
- "id": 506,
242
- "content": "...",
243
  "single_word": false,
244
  "lstrip": false,
245
  "rstrip": false,
@@ -348,501 +348,501 @@
348
  "[CLS]": 2,
349
  "[SEP]": 3,
350
  "[MASK]": 4,
351
- "!": 5,
352
- "\"": 6,
353
- "'": 7,
354
- ",": 8,
355
- ".": 9,
356
- "0": 10,
357
- "1": 11,
358
- "2": 12,
359
- "3": 13,
360
- "4": 14,
361
- "5": 15,
362
- "6": 16,
363
- "7": 17,
364
- "8": 18,
365
- "9": 19,
366
- "?": 20,
367
- "": 21,
368
- "": 22,
369
- "": 23,
370
- "": 24,
371
- "": 25,
372
- "": 26,
373
- "": 27,
374
- "": 28,
375
- "": 29,
376
- "": 30,
377
- "": 31,
378
- "": 32,
379
- "": 33,
380
- "": 34,
381
- "": 35,
382
- "": 36,
383
- "": 37,
384
- "": 38,
385
- "": 39,
386
- "": 40,
387
- "": 41,
388
- "": 42,
389
- "": 43,
390
- "": 44,
391
- "": 45,
392
- "": 46,
393
- "": 47,
394
- "": 48,
395
- "": 49,
396
- "": 50,
397
- "": 51,
398
- "": 52,
399
- "": 53,
400
- "": 54,
401
- "": 55,
402
- "": 56,
403
- "": 57,
404
- "": 58,
405
- "": 59,
406
- "": 60,
407
- "": 61,
408
- "": 62,
409
- "": 63,
410
- "": 64,
411
- "": 65,
412
- "": 66,
413
- "": 67,
414
- "": 68,
415
- "": 69,
416
- "": 70,
417
- "": 71,
418
- "": 72,
419
- "": 73,
420
- "ி": 74,
421
- "": 75,
422
- "": 76,
423
- "": 77,
424
- "": 78,
425
- "": 79,
426
- "": 80,
427
- "": 81,
428
- "": 82,
429
- "": 83,
430
- "": 84,
431
- "": 85,
432
- "": 86,
433
- "": 87,
434
- "": 88,
435
- "": 89,
436
- "": 90,
437
- "": 91,
438
- "": 92,
439
- "": 93,
440
- "": 94,
441
- "": 95,
442
- "": 96,
443
- "": 97,
444
- "": 98,
445
- "": 99,
446
- "": 100,
447
- "": 101,
448
- "": 102,
449
- "": 103,
450
- "": 104,
451
- "": 105,
452
- "": 106,
453
- "": 107,
454
- "": 108,
455
- "": 109,
456
- "": 110,
457
- "": 111,
458
- "௿": 112,
459
- "##": 113,
460
- "##": 114,
461
- "##": 115,
462
- "##": 116,
463
- "##": 117,
464
- "##": 118,
465
- "##ி": 119,
466
- "##": 120,
467
- "##": 121,
468
- "##": 122,
469
- "##": 123,
470
- "##": 124,
471
- "##": 125,
472
- "##": 126,
473
- "##": 127,
474
- "##": 128,
475
- "##": 129,
476
- "##": 130,
477
- "##": 131,
478
- "##": 132,
479
- "##": 133,
480
- "##": 134,
481
- "##": 135,
482
- "##": 136,
483
- "##": 137,
484
- "##": 138,
485
- "##": 139,
486
- "##": 140,
487
- "##": 141,
488
- "##": 142,
489
- "##4": 143,
490
- "##8": 144,
491
- "##7": 145,
492
- "##0": 146,
493
- "##5": 147,
494
- "##": 148,
495
- "##": 149,
496
- "##": 150,
497
- "##": 151,
498
- "##": 152,
499
- "##1": 153,
500
- "##9": 154,
501
- "##": 155,
502
- "##": 156,
503
- "##": 157,
504
- "##": 158,
505
- "##2": 159,
506
- "##3": 160,
507
- "##6": 161,
508
- "##": 162,
509
- "##": 163,
510
- "##": 164,
511
- "##": 165,
512
- "##": 166,
513
- "##": 167,
514
- "##": 168,
515
- "##": 169,
516
- "##": 170,
517
- "##": 171,
518
- "##": 172,
519
- "##": 173,
520
- "##": 174,
521
- "##": 175,
522
- "##": 176,
523
- "##": 177,
524
- "##": 178,
525
- "##": 179,
526
- "##": 180,
527
- "##": 181,
528
- "##": 182,
529
- "##": 183,
530
- "##": 184,
531
- "##": 185,
532
- "##": 186,
533
- "##": 187,
534
- "##": 188,
535
- "##௿": 189,
536
- "##": 190,
537
- "##": 191,
538
- "##": 192,
539
- "##": 193,
540
- "##": 194,
541
- "##": 195,
542
- "##": 196,
543
- "##": 197,
544
- "##": 198,
545
- "##": 199,
546
- "##": 200,
547
- "##": 201,
548
- "##": 202,
549
- "##": 203,
550
- "##": 204,
551
- "##": 205,
552
- "##": 206,
553
- "##": 207,
554
- "##": 208,
555
- "##": 209,
556
- "##": 210,
557
- "##்க": 211,
558
- "##்த": 212,
559
- "##்": 213,
560
- "##்": 214,
561
- "##்": 215,
562
- "##்க": 216,
563
- "##்ட": 217,
564
- "##ப்": 218,
565
- "##த்த": 219,
566
- "##ள்": 220,
567
- "##ும்": 221,
568
- "##ர்": 222,
569
- "##ிய": 223,
570
- "##ப்ப": 224,
571
- "##ரு": 225,
572
- "##ந்த": 226,
573
- "##": 227,
574
- "##து": 228,
575
- "##ில்": 229,
576
- "##ங்க": 230,
577
- "##ைய": 231,
578
- "##்": 232,
579
- "##ின்": 233,
580
- "##ாக": 234,
581
- "##ு": 235,
582
- "##ிர": 236,
583
- "##டு": 237,
584
- "##ி": 238,
585
- "20": 239,
586
- "##ண்ட": 240,
587
- "##்": 241,
588
- "##ு": 242,
589
- "##": 243,
590
- "##ிற": 244,
591
- "##ில": 245,
592
- "மு": 246,
593
- "##ான": 247,
594
- "##த்து": 248,
595
- "செ": 249,
596
- "என்": 250,
597
- "##டி": 251,
598
- "வி": 252,
599
- "##லை": 253,
600
- "##": 254,
601
- "##்ள": 255,
602
- "##ார": 256,
603
- "##தி": 257,
604
- "##ார்": 258,
605
- "##ப்பு": 259,
606
- "201": 260,
607
- "##ிரு": 261,
608
- "##வு": 262,
609
- "##ட்டு": 263,
610
- "##": 264,
611
- "##ரி": 265,
612
- "##வி": 266,
613
- "##க்": 267,
614
- "ு": 268,
615
- "##ான்": 269,
616
- "##ந்து": 270,
617
- "##ால்": 271,
618
- "##ளை": 272,
619
- "##ய்": 273,
620
- "##ச்ச": 274,
621
- "கொ": 275,
622
- "##": 276,
623
- "போ": 277,
624
- "இரு": 278,
625
- "##னை": 279,
626
- "அவ": 280,
627
- "ா": 281,
628
- "##்கள்": 282,
629
- "##கள்": 283,
630
- "பெ": 284,
631
- "##்": 285,
632
- "##ம்ப": 286,
633
- "##றி": 287,
634
- "##்": 288,
635
- "##ா": 289,
636
- "##ி": 290,
637
- "பு": 291,
638
- "##கள்": 292,
639
- "##கு": 293,
640
- "##ாவ": 294,
641
- "##ை": 295,
642
- "##ளு": 296,
643
- "வ": 297,
644
- "": 298,
645
- "##க்கும்": 299,
646
- "##ி": 300,
647
- "##ழு": 301,
648
- "பா": 302,
649
- "அத": 303,
650
- "ொ": 304,
651
- "இந்த": 305,
652
- "வெ": 306,
653
- "##ண்டு": 307,
654
- "##ாம்": 308,
655
- "வா": 309,
656
- "##ற்க": 310,
657
- "##த்தில்": 311,
658
- "##ை": 312,
659
- "##ன்ன": 313,
660
- "செய": 314,
661
- "##ன்ற": 315,
662
- "##்": 316,
663
- "##மா": 317,
664
- "##ிக்க": 318,
665
- "##டி": 319,
666
- "நா": 320,
667
- "மா": 321,
668
- "##்": 322,
669
- "##ரை": 323,
670
- "##ரா": 324,
671
- "##வா": 325,
672
- "##ரிய": 326,
673
- "##தை": 327,
674
- "##ையில்": 328,
675
- "##ட்": 329,
676
- "##ி": 330,
677
- "க": 331,
678
- "பொ": 332,
679
- "##வே": 333,
680
- "##ால": 334,
681
- "சு": 335,
682
- "##்த்த": 336,
683
- "தமி": 337,
684
- "மே": 338,
685
- "என": 339,
686
- "##றை": 340,
687
- "தே": 341,
688
- "சொ": 342,
689
- "பிர": 343,
690
- "##கள": 344,
691
- "##வை": 345,
692
- "##ாம": 346,
693
- "சி": 347,
694
- "##ப்பட்ட": 348,
695
- "##ற்ப": 349,
696
- "##ையும்": 350,
697
- "##ாக": 351,
698
- "ி": 352,
699
- "##மு": 353,
700
- "##": 354,
701
- "பே": 355,
702
- "##தை": 356,
703
- "##ிற": 357,
704
- "##ி": 358,
705
- "##ளுகு": 359,
706
- "தெ": 360,
707
- "என்று": 361,
708
- "##ட்ச": 362,
709
- "202": 363,
710
- "கோ": 364,
711
- "நீ": 365,
712
- "செய்த": 366,
713
- "##ிகள்": 367,
714
- "##வ்": 368,
715
- "##ி": 369,
716
- "##மான": 370,
717
- "##பு": 371,
718
- "என்ற": 372,
719
- "##வும்": 373,
720
- "##சு": 374,
721
- "##ன்று": 375,
722
- "##கள": 376,
723
- "##டு்த": 377,
724
- "##னு": 378,
725
- "##டன்": 379,
726
- "மற்ற": 380,
727
- "##லி": 381,
728
- "##்கள்": 382,
729
- "##கள": 383,
730
- "உள": 384,
731
- "##ரும்": 385,
732
- "பகு": 386,
733
- "##ி": 387,
734
- "##ற்று": 388,
735
- "##ப்பட": 389,
736
- "##ா": 390,
737
- "அர": 391,
738
- "செய்": 392,
739
- "பி": 393,
740
- "இத": 394,
741
- "##வத": 395,
742
- "##ணி": 396,
743
- "##வில்": 397,
744
- "##ின்ற": 398,
745
- "##ி": 399,
746
- "##ாய": 400,
747
- "கே": 401,
748
- "##க்கிற": 402,
749
- "என்ப": 403,
750
- "##ேன்": 404,
751
- "நட": 405,
752
- "ு": 406,
753
- "கி": 407,
754
- "##ி": 408,
755
- "##னர்": 409,
756
- "##": 410,
757
- "##": 411,
758
- "திரு": 412,
759
- "மறறும்": 413,
760
- "##டைய": 414,
761
- "##ண்டம்": 415,
762
- "##ிக்": 416,
763
- "தொட": 417,
764
- "வை": 418,
765
- "##பா": 419,
766
- "முத": 420,
767
- "##டம்": 421,
768
- "##கம்": 422,
769
- "மூ": 423,
770
- "##ங்கு": 424,
771
- "##லா": 425,
772
- "கரு": 426,
773
- "சே": 427,
774
- "##ியா": 428,
775
- "ப": 429,
776
- "செய்ய": 430,
777
- "வீ": 431,
778
- "ல": 432,
779
- "ஆக": 433,
780
- "##": 434,
781
- "வரு": 435,
782
- "##வர": 436,
783
- "10": 437,
784
- "##ி": 438,
785
- "மீ": 439,
786
- "##களை": 440,
787
- "##னால்": 441,
788
- "##்": 442,
789
- "##பபா": 443,
790
- "##ளிய": 444,
791
- "2021": 445,
792
- "இது": 446,
793
- "எழு": 447,
794
- "இருந்த": 448,
795
- "பகுபபு": 449,
796
- "அறி": 450,
797
- "தி": 451,
798
- "தமிழ்": 452,
799
- "##பி": 453,
800
- "நில": 454,
801
- "200": 455,
802
- "##மே": 456,
803
- "அந்த": 457,
804
- "##ும்": 458,
805
- "வர": 459,
806
- "பதி": 460,
807
- "##போ": 461,
808
- "##க்கிய": 462,
809
- "நே": 463,
810
- "தலை": 464,
811
- "தமிழ": 465,
812
- "##கை": 466,
813
- "##ணை": 467,
814
- "##லாம்": 468,
815
- "பார": 469,
816
- "##ின்": 470,
817
- "##விய": 471,
818
- "வழ": 472,
819
- "##ிருந்த": 473,
820
- "##டுதது": 474,
821
- "கொண்ட": 475,
822
- "##க்க": 476,
823
- "##மபர்": 477,
824
- "குறி": 478,
825
- "##ையை": 479,
826
- "ட": 480,
827
- "என்ன": 481,
828
- "##ூர்": 482,
829
- "##வ": 483,
830
- "அமை": 484,
831
- "##றகு": 485,
832
- "##ரம்": 486,
833
- "##லு": 487,
834
- "##நா": 488,
835
- "##ன்ப": 489,
836
- "##ிறது": 490,
837
- "##ிலும்": 491,
838
- "த": 492,
839
- "##ழை": 493,
840
- "##கள்": 494,
841
- "##லம்": 495,
842
- "12": 496,
843
- "##்களை": 497,
844
- "##ார்்": 498,
845
- "வெளி": 499
846
  }
847
  }
848
  }
 
49
  "special": true
50
  },
51
  {
52
+ "id": 500,
53
+ "content": ".",
54
  "single_word": false,
55
  "lstrip": false,
56
  "rstrip": false,
 
58
  "special": false
59
  },
60
  {
61
+ "id": 501,
62
+ "content": ",",
63
  "single_word": false,
64
  "lstrip": false,
65
  "rstrip": false,
 
67
  "special": false
68
  },
69
  {
70
+ "id": 502,
71
+ "content": "!",
72
  "single_word": false,
73
  "lstrip": false,
74
  "rstrip": false,
 
76
  "special": false
77
  },
78
  {
79
+ "id": 503,
80
+ "content": "?",
81
  "single_word": false,
82
  "lstrip": false,
83
  "rstrip": false,
 
85
  "special": false
86
  },
87
  {
88
+ "id": 504,
89
+ "content": "-",
90
  "single_word": false,
91
  "lstrip": false,
92
  "rstrip": false,
 
94
  "special": false
95
  },
96
  {
97
+ "id": 505,
98
+ "content": ":",
99
  "single_word": false,
100
  "lstrip": false,
101
  "rstrip": false,
 
103
  "special": false
104
  },
105
  {
106
+ "id": 506,
107
+ "content": ";",
108
  "single_word": false,
109
  "lstrip": false,
110
  "rstrip": false,
 
112
  "special": false
113
  },
114
  {
115
+ "id": 507,
116
+ "content": "/",
117
  "single_word": false,
118
  "lstrip": false,
119
  "rstrip": false,
 
121
  "special": false
122
  },
123
  {
124
+ "id": 508,
125
+ "content": "(",
126
  "single_word": false,
127
  "lstrip": false,
128
  "rstrip": false,
 
130
  "special": false
131
  },
132
  {
133
+ "id": 509,
134
+ "content": ")",
135
  "single_word": false,
136
  "lstrip": false,
137
  "rstrip": false,
 
139
  "special": false
140
  },
141
  {
142
+ "id": 510,
143
+ "content": "'",
144
  "single_word": false,
145
  "lstrip": false,
146
  "rstrip": false,
 
148
  "special": false
149
  },
150
  {
151
+ "id": 511,
152
+ "content": "\"",
153
  "single_word": false,
154
  "lstrip": false,
155
  "rstrip": false,
 
157
  "special": false
158
  },
159
  {
160
+ "id": 512,
161
+ "content": "...",
162
  "single_word": false,
163
  "lstrip": false,
164
  "rstrip": false,
 
166
  "special": false
167
  },
168
  {
169
+ "id": 513,
170
+ "content": "0",
171
  "single_word": false,
172
  "lstrip": false,
173
  "rstrip": false,
 
175
  "special": false
176
  },
177
  {
178
+ "id": 514,
179
+ "content": "1",
180
  "single_word": false,
181
  "lstrip": false,
182
  "rstrip": false,
 
184
  "special": false
185
  },
186
  {
187
+ "id": 515,
188
+ "content": "2",
189
  "single_word": false,
190
  "lstrip": false,
191
  "rstrip": false,
 
193
  "special": false
194
  },
195
  {
196
+ "id": 516,
197
+ "content": "3",
198
  "single_word": false,
199
  "lstrip": false,
200
  "rstrip": false,
 
202
  "special": false
203
  },
204
  {
205
+ "id": 517,
206
+ "content": "4",
207
  "single_word": false,
208
  "lstrip": false,
209
  "rstrip": false,
 
211
  "special": false
212
  },
213
  {
214
+ "id": 518,
215
+ "content": "5",
216
  "single_word": false,
217
  "lstrip": false,
218
  "rstrip": false,
 
220
  "special": false
221
  },
222
  {
223
+ "id": 519,
224
+ "content": "6",
225
  "single_word": false,
226
  "lstrip": false,
227
  "rstrip": false,
 
229
  "special": false
230
  },
231
  {
232
+ "id": 520,
233
+ "content": "7",
234
  "single_word": false,
235
  "lstrip": false,
236
  "rstrip": false,
 
238
  "special": false
239
  },
240
  {
241
+ "id": 521,
242
+ "content": "8",
243
  "single_word": false,
244
  "lstrip": false,
245
  "rstrip": false,
 
348
  "[CLS]": 2,
349
  "[SEP]": 3,
350
  "[MASK]": 4,
351
+ "": 5,
352
+ "": 6,
353
+ "": 7,
354
+ "": 8,
355
+ "": 9,
356
+ "": 10,
357
+ "": 11,
358
+ "": 12,
359
+ "": 13,
360
+ "": 14,
361
+ "": 15,
362
+ "": 16,
363
+ "": 17,
364
+ "": 18,
365
+ "": 19,
366
+ "": 20,
367
+ "": 21,
368
+ "": 22,
369
+ "": 23,
370
+ "": 24,
371
+ "": 25,
372
+ "": 26,
373
+ "": 27,
374
+ "": 28,
375
+ "": 29,
376
+ "": 30,
377
+ "": 31,
378
+ "": 32,
379
+ "": 33,
380
+ "": 34,
381
+ "": 35,
382
+ "": 36,
383
+ "": 37,
384
+ "": 38,
385
+ "": 39,
386
+ "": 40,
387
+ "": 41,
388
+ "": 42,
389
+ "": 43,
390
+ "": 44,
391
+ "": 45,
392
+ "": 46,
393
+ "": 47,
394
+ "": 48,
395
+ "": 49,
396
+ "": 50,
397
+ "": 51,
398
+ "": 52,
399
+ "": 53,
400
+ "": 54,
401
+ "": 55,
402
+ "": 56,
403
+ "": 57,
404
+ "ி": 58,
405
+ "": 59,
406
+ "": 60,
407
+ "": 61,
408
+ "": 62,
409
+ "": 63,
410
+ "": 64,
411
+ "": 65,
412
+ "": 66,
413
+ "": 67,
414
+ "": 68,
415
+ "": 69,
416
+ "": 70,
417
+ "": 71,
418
+ "": 72,
419
+ "": 73,
420
+ "": 74,
421
+ "": 75,
422
+ "": 76,
423
+ "": 77,
424
+ "": 78,
425
+ "": 79,
426
+ "": 80,
427
+ "": 81,
428
+ "": 82,
429
+ "": 83,
430
+ "": 84,
431
+ "": 85,
432
+ "": 86,
433
+ "": 87,
434
+ "": 88,
435
+ "": 89,
436
+ "": 90,
437
+ "": 91,
438
+ "": 92,
439
+ "": 93,
440
+ "": 94,
441
+ "": 95,
442
+ "௿": 96,
443
+ "##ல": 97,
444
+ "##ை": 98,
445
+ "##க": 99,
446
+ "##்": 100,
447
+ "##ு": 101,
448
+ "##த": 102,
449
+ "##ர": 103,
450
+ "##வ": 104,
451
+ "##ே": 105,
452
+ "##ற": 106,
453
+ "##ம": 107,
454
+ "##ப": 108,
455
+ "##ன": 109,
456
+ "##ட": 110,
457
+ "##ி": 111,
458
+ "##ா": 112,
459
+ "##": 113,
460
+ "##": 114,
461
+ "##": 115,
462
+ "##": 116,
463
+ "##": 117,
464
+ "##": 118,
465
+ "##": 119,
466
+ "##": 120,
467
+ "##": 121,
468
+ "##": 122,
469
+ "##": 123,
470
+ "##": 124,
471
+ "##": 125,
472
+ "##": 126,
473
+ "##": 127,
474
+ "##": 128,
475
+ "##": 129,
476
+ "##": 130,
477
+ "##": 131,
478
+ "##": 132,
479
+ "##": 133,
480
+ "##": 134,
481
+ "##": 135,
482
+ "##": 136,
483
+ "##": 137,
484
+ "##": 138,
485
+ "##": 139,
486
+ "##": 140,
487
+ "##": 141,
488
+ "##": 142,
489
+ "##": 143,
490
+ "##": 144,
491
+ "##": 145,
492
+ "##": 146,
493
+ "##": 147,
494
+ "##": 148,
495
+ "##": 149,
496
+ "##": 150,
497
+ "##": 151,
498
+ "##": 152,
499
+ "##": 153,
500
+ "##": 154,
501
+ "##": 155,
502
+ "##": 156,
503
+ "##": 157,
504
+ "##": 158,
505
+ "##": 159,
506
+ "##௿": 160,
507
+ "##": 161,
508
+ "##": 162,
509
+ "##": 163,
510
+ "##": 164,
511
+ "##": 165,
512
+ "##": 166,
513
+ "##": 167,
514
+ "##": 168,
515
+ "##": 169,
516
+ "##": 170,
517
+ "##": 171,
518
+ "##": 172,
519
+ "##": 173,
520
+ "##": 174,
521
+ "##": 175,
522
+ "##": 176,
523
+ "##": 177,
524
+ "##": 178,
525
+ "##": 179,
526
+ "##": 180,
527
+ "##": 181,
528
+ "##": 182,
529
+ "##": 183,
530
+ "##": 184,
531
+ "##்க": 185,
532
+ "##்த": 186,
533
+ "##ம்": 187,
534
+ "##ன்": 188,
535
+ "##ல்": 189,
536
+ "##க்க": 190,
537
+ "##்ட": 191,
538
+ "##ப்": 192,
539
+ "##த்த": 193,
540
+ "##ள்": 194,
541
+ "##ும்": 195,
542
+ "##ர்": 196,
543
+ "##ிய": 197,
544
+ "##ப்ப": 198,
545
+ "##ரு": 199,
546
+ "##ந்த": 200,
547
+ "##ட்ட": 201,
548
+ "##து": 202,
549
+ "##ில்": 203,
550
+ "##ங்க": 204,
551
+ "##ைய": 205,
552
+ "##ற்": 206,
553
+ "##ின்": 207,
554
+ "##ாக": 208,
555
+ "##று": 209,
556
+ "##ிர": 210,
557
+ "##டு": 211,
558
+ "##ிக": 212,
559
+ "##": 213,
560
+ "##்": 214,
561
+ "##கு": 215,
562
+ "##்க": 216,
563
+ "##ிற": 217,
564
+ "##ில": 218,
565
+ "மு": 219,
566
+ "##ான": 220,
567
+ "##து": 221,
568
+ "செ": 222,
569
+ "என்": 223,
570
+ "##டி": 224,
571
+ "வி": 225,
572
+ "##லை": 226,
573
+ "##": 227,
574
+ "##ள்ள": 228,
575
+ "##ார": 229,
576
+ "##தி": 230,
577
+ "##ார்": 231,
578
+ "##பு": 232,
579
+ "##ிரு": 233,
580
+ "##வு": 234,
581
+ "##ட்டு": 235,
582
+ "##ல்ல": 236,
583
+ "##ரி": 237,
584
+ "##ி": 238,
585
+ "##க்": 239,
586
+ "கு": 240,
587
+ "##ான்": 241,
588
+ "##ு": 242,
589
+ "##ால்": 243,
590
+ "##ளை": 244,
591
+ "##ய்": 245,
592
+ "##ச்ச": 246,
593
+ "கொ": 247,
594
+ "##த்": 248,
595
+ "போ": 249,
596
+ "இரு": 250,
597
+ "##னை": 251,
598
+ "வ": 252,
599
+ "கா": 253,
600
+ "##கள்": 254,
601
+ "##": 255,
602
+ "பெ": 256,
603
+ "##ண்": 257,
604
+ "##": 258,
605
+ "##றி": 259,
606
+ "##ஸ்": 260,
607
+ "##ாத": 261,
608
+ "##மி": 262,
609
+ "ு": 263,
610
+ "##கள்": 264,
611
+ "##கு": 265,
612
+ "##வ": 266,
613
+ "##மை": 267,
614
+ "##ளு": 268,
615
+ "வே": 269,
616
+ "ஒரு": 270,
617
+ "##கும்": 271,
618
+ "##ின": 272,
619
+ "##ழு": 273,
620
+ "பா": 274,
621
+ "அத": 275,
622
+ "த": 276,
623
+ "இந்த": 277,
624
+ "வெ": 278,
625
+ "##ண்டு": 279,
626
+ "##ாம்": 280,
627
+ "ா": 281,
628
+ "##்க": 282,
629
+ "##தில்": 283,
630
+ "##டை": 284,
631
+ "##": 285,
632
+ "செய": 286,
633
+ "##ன்ற": 287,
634
+ "##்": 288,
635
+ "##ா": 289,
636
+ "##ிக்க": 290,
637
+ "##டிய": 291,
638
+ "நா": 292,
639
+ "மா": 293,
640
+ "##ச்": 294,
641
+ "##ை": 295,
642
+ "##ரா": 296,
643
+ "##": 297,
644
+ "##ிய": 298,
645
+ "##தை": 299,
646
+ "##ையில்": 300,
647
+ "##ட்": 301,
648
+ "##ளி": 302,
649
+ "கூ": 303,
650
+ "ொ": 304,
651
+ "##வே": 305,
652
+ "சு": 306,
653
+ "##ால": 307,
654
+ "##்த்த": 308,
655
+ "தமி": 309,
656
+ "மே": 310,
657
+ "என": 311,
658
+ "##ை": 312,
659
+ "தே": 313,
660
+ "ச": 314,
661
+ "பிர": 315,
662
+ "##கள": 316,
663
+ "##வை": 317,
664
+ "##ாம": 318,
665
+ "ி": 319,
666
+ "##ப்பட்ட": 320,
667
+ "##ற்ப": 321,
668
+ "##ையும்": 322,
669
+ "##மாக": 323,
670
+ "நி": 324,
671
+ "##மு": 325,
672
+ "##ண்ண": 326,
673
+ "பே": 327,
674
+ "##தை": 328,
675
+ "##கிற": 329,
676
+ "##ி": 330,
677
+ "##ளு்கு": 331,
678
+ "தெ": 332,
679
+ "என்று": 333,
680
+ "##ட்ச": 334,
681
+ "கோ": 335,
682
+ "நீ": 336,
683
+ "செய்த": 337,
684
+ "##ிகள்": 338,
685
+ "##வர்": 339,
686
+ "##னி": 340,
687
+ "##மான": 341,
688
+ "##பு": 342,
689
+ "என்ற": 343,
690
+ "##வும்": 344,
691
+ "##சு": 345,
692
+ "##ன்று": 346,
693
+ "##டுத்த": 347,
694
+ "##னு": 348,
695
+ "##கள": 349,
696
+ "##டன்": 350,
697
+ "மற்ற": 351,
698
+ "##லி": 352,
699
+ "##்கள்": 353,
700
+ "##கள": 354,
701
+ "உள்ள": 355,
702
+ "##ரும்": 356,
703
+ "": 357,
704
+ "##ி": 358,
705
+ "##ு": 359,
706
+ "##ப்பட": 360,
707
+ "##ாள": 361,
708
+ "அர": 362,
709
+ "செய்": 363,
710
+ "பி": 364,
711
+ "இத": 365,
712
+ "##வத": 366,
713
+ "##ி": 367,
714
+ "##வில்": 368,
715
+ "##ின்ற": 369,
716
+ "##ழி": 370,
717
+ "##ாய": 371,
718
+ "கே": 372,
719
+ "##கிற": 373,
720
+ "என்ப": 374,
721
+ "##ன்": 375,
722
+ "நட": 376,
723
+ "த": 377,
724
+ "கி": 378,
725
+ "##்கு": 379,
726
+ "##சிய": 380,
727
+ "##னர்": 381,
728
+ "திரு": 382,
729
+ "##": 383,
730
+ "மறறும்": 384,
731
+ "##டைய": 385,
732
+ "##ண்டம்": 386,
733
+ "##ிக்": 387,
734
+ "தொட": 388,
735
+ "வை": 389,
736
+ "##ா": 390,
737
+ "முத": 391,
738
+ "##கம்": 392,
739
+ "##டம்": 393,
740
+ "மூ": 394,
741
+ "##ங்கு": 395,
742
+ "##லா": 396,
743
+ "கரு": 397,
744
+ "சே": 398,
745
+ "##ியா": 399,
746
+ "ய": 400,
747
+ "செய்ய": 401,
748
+ "வீ": 402,
749
+ "ப": 403,
750
+ "ஆக": 404,
751
+ "##மைய": 405,
752
+ "வரு": 406,
753
+ "##வர": 407,
754
+ "##ட்டி": 408,
755
+ "மீ": 409,
756
+ "##களை": 410,
757
+ "##னால்": 411,
758
+ "##வ்": 412,
759
+ "##பபா": 413,
760
+ "##ளிய": 414,
761
+ "இது": 415,
762
+ "எழு": 416,
763
+ "இருந்த": 417,
764
+ "பகுப்பு": 418,
765
+ "அறி": 419,
766
+ "தி": 420,
767
+ "ிழ்": 421,
768
+ "##பி": 422,
769
+ "நில": 423,
770
+ "##மே": 424,
771
+ "அந்த": 425,
772
+ "##ம்ப": 426,
773
+ "வர": 427,
774
+ "பதி": 428,
775
+ "##்போ": 429,
776
+ "##ககிய": 430,
777
+ "நே": 431,
778
+ "": 432,
779
+ "தமிழ": 433,
780
+ "##ை": 434,
781
+ "##ணை": 435,
782
+ "##லாம்": 436,
783
+ "பார": 437,
784
+ "##ின்": 438,
785
+ "##விய": 439,
786
+ "வழ": 440,
787
+ "##ிருந": 441,
788
+ "##டுதது": 442,
789
+ "கொண": 443,
790
+ "##ர்க்க": 444,
791
+ "##ம்பர்": 445,
792
+ "றி": 446,
793
+ "##ையை": 447,
794
+ "கட": 448,
795
+ "என": 449,
796
+ "##ூர்": 450,
797
+ "அமை": 451,
798
+ "##றகு": 452,
799
+ "##ரம்": 453,
800
+ "##": 454,
801
+ "##ன்ப": 455,
802
+ "##நா": 456,
803
+ "##கிற": 457,
804
+ "##ிலும்": 458,
805
+ "தீ": 459,
806
+ "##ழை": 460,
807
+ "##கள்": 461,
808
+ "##வது": 462,
809
+ "##லம்": 463,
810
+ "##ங்களை": 464,
811
+ "##ார்கள்": 465,
812
+ "வெளிய": 466,
813
+ "இய": 467,
814
+ "##ிகள": 468,
815
+ "ர": 469,
816
+ "##ி": 470,
817
+ "##யர்": 471,
818
+ "##ணம்": 472,
819
+ "சம": 473,
820
+ "##கில": 474,
821
+ "சா": 475,
822
+ "##திய": 476,
823
+ "சொல": 477,
824
+ "##்கி": 478,
825
+ "அதிக": 479,
826
+ "வேண்ும்": 480,
827
+ "##ாது": 481,
828
+ "##னா": 482,
829
+ "த": 483,
830
+ "நான்": 484,
831
+ "அல": 485,
832
+ "இல்": 486,
833
+ "பின்": 487,
834
+ "இல": 488,
835
+ "##ரோ": 489,
836
+ "##ி": 490,
837
+ "ி": 491,
838
+ "திர": 492,
839
+ "##க்கம்": 493,
840
+ "##": 494,
841
+ "வந": 495,
842
+ "##போ": 496,
843
+ "##ிற்க": 497,
844
+ "##டிக்": 498,
845
+ "ி": 499
846
  }
847
  }
848
  }
vocab.txt CHANGED
@@ -3,22 +3,6 @@
3
  [CLS]
4
  [SEP]
5
  [MASK]
6
- !
7
- "
8
- '
9
- ,
10
- .
11
- 0
12
- 1
13
- 2
14
- 3
15
- 4
16
- 5
17
- 6
18
- 7
19
- 8
20
- 9
21
- ?
22
 
23
 
24
 
@@ -111,103 +95,93 @@
111
 
112
 
113
  ௿
114
- ##
115
- ##ர
116
- ##்
117
- ##ம
118
  ##ை
119
- ##ய
120
- ##ி
121
  ##க
122
- ##
123
- ##
 
 
124
  ##வ
125
- ##
 
 
 
 
126
  ##ட
 
127
  ##ா
128
- ##
129
- ##ப
130
  ##ூ
131
- ##
132
- ##ன
133
- ##ொ
134
  ##ந
135
- ##த
136
  ##ோ
 
 
137
  ##ள
138
- ##ற
139
  ##ங
140
- ##
 
141
  ##ண
142
- ##
143
- ##
144
- ##4
145
- ##8
146
- ##7
147
- ##0
148
- ##5
149
  ##ஷ
 
150
  ##ஹ
151
- ##
 
152
  ##அ
 
153
  ##எ
154
- ##1
155
- ##9
156
- ##ஞ
157
- ##இ
158
- ##ஃ
159
- ##ஈ
160
- ##2
161
- ##3
162
- ##6
163
- ##ஶ
164
  ##ஆ
 
 
165
  ##ௌ
166
- ##ஒ
167
- ##௮
168
  ##ஏ
169
- ##
170
- ##௧
171
  ##ஐ
172
- ##ஓ
173
- ##ௗ
174
- ##௦
175
- ##௲
176
- ##௰
177
- ##௯
178
  ##௫
179
- ##
 
 
 
180
  ##஢
181
- ##௩
182
- ##௨
183
- ##஡
184
- ##௪
185
  ##ஔ
186
- ##
 
 
 
 
187
  ##௱
188
- ##
189
- ##
 
 
 
190
  ##௿
191
  ##ௐ
192
- ##
193
- ##௬
194
  ##௭
195
- ##஁
196
- ##஭
197
  ##஧
 
 
 
 
 
 
 
198
  ##஽
199
- ##
200
- ##
201
- ##௳
202
  ##஖
203
  ##௴
204
- ##
205
- ##
206
- ##
207
  ##௠
 
208
  ##௼
209
- ##
210
- ##஦
211
  ##஥
212
  ##்க
213
  ##்த
@@ -237,7 +211,6 @@
237
  ##ிர
238
  ##டு
239
  ##ிக
240
- 20
241
  ##ண்ட
242
  ##்ச
243
  ##க்கு
@@ -258,7 +231,6 @@
258
  ##தி
259
  ##ார்
260
  ##ப்பு
261
- 201
262
  ##ிரு
263
  ##வு
264
  ##ட்டு
@@ -332,8 +304,8 @@
332
  கூ
333
  பொ
334
  ##வே
335
- ##ால
336
  சு
 
337
  ##்த்த
338
  தமி
339
  மே
@@ -361,7 +333,6 @@
361
  தெ
362
  என்று
363
  ##ட்ச
364
- 202
365
  கோ
366
  நீ
367
  செய்த
@@ -374,9 +345,9 @@
374
  ##வும்
375
  ##சு
376
  ##ன்று
377
- ##கள
378
  ##டுத்த
379
  ##னு
 
380
  ##டன்
381
  மற்ற
382
  ##லி
@@ -406,11 +377,11 @@
406
  நட
407
  து
408
  கி
 
409
  ##சிய
410
  ##னர்
411
- ##்கு
412
- ##ஞ்ச
413
  திரு
 
414
  மற்றும்
415
  ##டைய
416
  ##ண்டும்
@@ -419,8 +390,8 @@
419
  வை
420
  ##பா
421
  முத
422
- ##டம்
423
  ##கம்
 
424
  மூ
425
  ##ங்கு
426
  ##லா
@@ -435,7 +406,6 @@
435
  ##மைய
436
  வரு
437
  ##வர
438
- 10
439
  ##ட்டி
440
  மீ
441
  ##களை
@@ -443,7 +413,6 @@
443
  ##வ்
444
  ##ப்பா
445
  ##ளிய
446
- 2021
447
  இது
448
  எழு
449
  இருந்த
@@ -453,7 +422,6 @@
453
  தமிழ்
454
  ##ப்பி
455
  நில
456
- 200
457
  ##மே
458
  அந்த
459
  ##ும்ப
@@ -481,20 +449,52 @@
481
  கட
482
  என்ன
483
  ##ூர்
484
- ##வது
485
  அமை
486
  ##ற்கு
487
  ##ரம்
488
  ##லு
489
- ##நா
490
  ##ன்ப
 
491
  ##கிறது
492
  ##ிலும்
493
  தீ
494
  ##ழை
495
  ##க்கள்
 
496
  ##லம்
497
- 12
498
  ##ங்களை
499
  ##ார்கள்
500
  வெளிய
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  [CLS]
4
  [SEP]
5
  [MASK]
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6
 
7
 
8
 
 
95
 
96
 
97
  ௿
98
+ ##
 
 
 
99
  ##ை
 
 
100
  ##க
101
+ ##
102
+ ##
103
+ ##த
104
+ ##ர
105
  ##வ
106
+ ##
107
+ ##ற
108
+ ##ம
109
+ ##ப
110
+ ##ன
111
  ##ட
112
+ ##ி
113
  ##ா
114
+ ##
 
115
  ##ூ
116
+ ##
 
 
117
  ##ந
 
118
  ##ோ
119
+ ##ொ
120
+ ##ெ
121
  ##ள
 
122
  ##ங
123
+ ##
124
+ ##ஞ
125
  ##ண
126
+ ##
127
+ ##
 
 
 
 
 
128
  ##ஷ
129
+ ##ீ
130
  ##ஹ
131
+ ##
132
+ ##ஃ
133
  ##அ
134
+ ##ஓ
135
  ##எ
 
 
 
 
 
 
 
 
 
 
136
  ##ஆ
137
+ ##ஊ
138
+ ##இ
139
  ##ௌ
 
 
140
  ##ஏ
141
+ ##
 
142
  ##ஐ
 
 
 
 
 
 
143
  ##௫
144
+ ##
145
+ ##௯
146
+ ##஑
147
+ ##ஈ
148
  ##஢
 
 
 
 
149
  ##ஔ
150
+ ##
151
+ ##௧
152
+ ##௰
153
+ ##௪
154
+ ##ஂ
155
  ##௱
156
+ ##
157
+ ##
158
+ ##஡
159
+ ##஭
160
+ ##௩
161
  ##௿
162
  ##ௐ
163
+ ##
 
164
  ##௭
 
 
165
  ##஧
166
+ ##௮
167
+ ##௨
168
+ ##௃
169
+ ##௵
170
+ ##஦
171
+ ##஬
172
+ ##௶
173
  ##஽
174
+ ##
175
+ ##
 
176
  ##஖
177
  ##௴
178
+ ##
179
+ ##
180
+ ##
181
  ##௠
182
+ ##஠
183
  ##௼
184
+ ##
 
185
  ##஥
186
  ##்க
187
  ##்த
 
211
  ##ிர
212
  ##டு
213
  ##ிக
 
214
  ##ண்ட
215
  ##்ச
216
  ##க்கு
 
231
  ##தி
232
  ##ார்
233
  ##ப்பு
 
234
  ##ிரு
235
  ##வு
236
  ##ட்டு
 
304
  கூ
305
  பொ
306
  ##வே
 
307
  சு
308
+ ##ால
309
  ##்த்த
310
  தமி
311
  மே
 
333
  தெ
334
  என்று
335
  ##ட்ச
 
336
  கோ
337
  நீ
338
  செய்த
 
345
  ##வும்
346
  ##சு
347
  ##ன்று
 
348
  ##டுத்த
349
  ##னு
350
+ ##கள
351
  ##டன்
352
  மற்ற
353
  ##லி
 
377
  நட
378
  து
379
  கி
380
+ ##்கு
381
  ##சிய
382
  ##னர்
 
 
383
  திரு
384
+ ##ஞ்ச
385
  மற்றும்
386
  ##டைய
387
  ##ண்டும்
 
390
  வை
391
  ##பா
392
  முத
 
393
  ##கம்
394
+ ##டம்
395
  மூ
396
  ##ங்கு
397
  ##லா
 
406
  ##மைய
407
  வரு
408
  ##வர
 
409
  ##ட்டி
410
  மீ
411
  ##களை
 
413
  ##வ்
414
  ##ப்பா
415
  ##ளிய
 
416
  இது
417
  எழு
418
  இருந்த
 
422
  தமிழ்
423
  ##ப்பி
424
  நில
 
425
  ##மே
426
  அந்த
427
  ##ும்ப
 
449
  கட
450
  என்ன
451
  ##ூர்
 
452
  அமை
453
  ##ற்கு
454
  ##ரம்
455
  ##லு
 
456
  ##ன்ப
457
+ ##நா
458
  ##கிறது
459
  ##ிலும்
460
  தீ
461
  ##ழை
462
  ##க்கள்
463
+ ##வது
464
  ##லம்
 
465
  ##ங்களை
466
  ##ார்கள்
467
  வெளிய
468
+ இய
469
+ ##ிகள
470
+ இர
471
+ ##ற்றி
472
+ ##யர்
473
+ ##ணம்
474
+ சம
475
+ ##ங்கில
476
+ சா
477
+ ##த்திய
478
+ சொல்ல
479
+ ##க்கி
480
+ அதிக
481
+ வேண்டும்
482
+ ##ாது
483
+ ##னா
484
+ பத
485
+ நான்
486
+ அல்ல
487
+ இல்
488
+ பின்
489
+ இல
490
+ ##ரோ
491
+ ##பி
492
+ சிற
493
+ திர
494
+ ##க்கம்
495
+ ##ஸ்ட
496
+ வந்த
497
+ ##போ
498
+ ##ிற்கு
499
+ ##டிக்க
500
+ பிற