livinNector commited on
Commit
ce00c2c
·
1 Parent(s): 191bc95

Upload tokenizer

Browse files
Files changed (4) hide show
  1. special_tokens_map.json +7 -0
  2. tokenizer.json +1150 -0
  3. tokenizer_config.json +13 -0
  4. vocab.txt +1000 -0
special_tokens_map.json ADDED
@@ -0,0 +1,7 @@
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": "[CLS]",
3
+ "mask_token": "[MASK]",
4
+ "pad_token": "[PAD]",
5
+ "sep_token": "[SEP]",
6
+ "unk_token": "[UNK]"
7
+ }
tokenizer.json ADDED
@@ -0,0 +1,1150 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "version": "1.0",
3
+ "truncation": null,
4
+ "padding": null,
5
+ "added_tokens": [
6
+ {
7
+ "id": 0,
8
+ "content": "[PAD]",
9
+ "single_word": false,
10
+ "lstrip": false,
11
+ "rstrip": false,
12
+ "normalized": false,
13
+ "special": true
14
+ },
15
+ {
16
+ "id": 1,
17
+ "content": "[UNK]",
18
+ "single_word": false,
19
+ "lstrip": false,
20
+ "rstrip": false,
21
+ "normalized": false,
22
+ "special": true
23
+ },
24
+ {
25
+ "id": 2,
26
+ "content": "[CLS]",
27
+ "single_word": false,
28
+ "lstrip": false,
29
+ "rstrip": false,
30
+ "normalized": false,
31
+ "special": true
32
+ },
33
+ {
34
+ "id": 3,
35
+ "content": "[SEP]",
36
+ "single_word": false,
37
+ "lstrip": false,
38
+ "rstrip": false,
39
+ "normalized": false,
40
+ "special": true
41
+ },
42
+ {
43
+ "id": 4,
44
+ "content": "[MASK]",
45
+ "single_word": false,
46
+ "lstrip": false,
47
+ "rstrip": false,
48
+ "normalized": false,
49
+ "special": true
50
+ }
51
+ ],
52
+ "normalizer": {
53
+ "type": "BertNormalizer",
54
+ "clean_text": true,
55
+ "handle_chinese_chars": true,
56
+ "strip_accents": null,
57
+ "lowercase": false
58
+ },
59
+ "pre_tokenizer": {
60
+ "type": "BertPreTokenizer"
61
+ },
62
+ "post_processor": {
63
+ "type": "TemplateProcessing",
64
+ "single": [
65
+ {
66
+ "SpecialToken": {
67
+ "id": "[CLS]",
68
+ "type_id": 0
69
+ }
70
+ },
71
+ {
72
+ "Sequence": {
73
+ "id": "A",
74
+ "type_id": 0
75
+ }
76
+ },
77
+ {
78
+ "SpecialToken": {
79
+ "id": "[SEP]",
80
+ "type_id": 0
81
+ }
82
+ }
83
+ ],
84
+ "pair": [
85
+ {
86
+ "SpecialToken": {
87
+ "id": "[CLS]",
88
+ "type_id": 0
89
+ }
90
+ },
91
+ {
92
+ "Sequence": {
93
+ "id": "A",
94
+ "type_id": 0
95
+ }
96
+ },
97
+ {
98
+ "SpecialToken": {
99
+ "id": "[SEP]",
100
+ "type_id": 0
101
+ }
102
+ },
103
+ {
104
+ "Sequence": {
105
+ "id": "B",
106
+ "type_id": 1
107
+ }
108
+ },
109
+ {
110
+ "SpecialToken": {
111
+ "id": "[SEP]",
112
+ "type_id": 1
113
+ }
114
+ }
115
+ ],
116
+ "special_tokens": {
117
+ "[CLS]": {
118
+ "id": "[CLS]",
119
+ "ids": [
120
+ 2
121
+ ],
122
+ "tokens": [
123
+ "[CLS]"
124
+ ]
125
+ },
126
+ "[SEP]": {
127
+ "id": "[SEP]",
128
+ "ids": [
129
+ 3
130
+ ],
131
+ "tokens": [
132
+ "[SEP]"
133
+ ]
134
+ }
135
+ }
136
+ },
137
+ "decoder": {
138
+ "type": "WordPiece",
139
+ "prefix": "##",
140
+ "cleanup": true
141
+ },
142
+ "model": {
143
+ "type": "WordPiece",
144
+ "unk_token": "[UNK]",
145
+ "continuing_subword_prefix": "##",
146
+ "max_input_chars_per_word": 100,
147
+ "vocab": {
148
+ "[PAD]": 0,
149
+ "[UNK]": 1,
150
+ "[CLS]": 2,
151
+ "[SEP]": 3,
152
+ "[MASK]": 4,
153
+ "ஂ": 5,
154
+ "ஃ": 6,
155
+ "அ": 7,
156
+ "ஆ": 8,
157
+ "இ": 9,
158
+ "ஈ": 10,
159
+ "உ": 11,
160
+ "ஊ": 12,
161
+ "எ": 13,
162
+ "ஏ": 14,
163
+ "ஐ": 15,
164
+ "ஒ": 16,
165
+ "ஓ": 17,
166
+ "ஔ": 18,
167
+ "க": 19,
168
+ "ங": 20,
169
+ "ச": 21,
170
+ "ஜ": 22,
171
+ "ஞ": 23,
172
+ "ட": 24,
173
+ "஠": 25,
174
+ "஡": 26,
175
+ "஢": 27,
176
+ "ண": 28,
177
+ "த": 29,
178
+ "஦": 30,
179
+ "஧": 31,
180
+ "ந": 32,
181
+ "ன": 33,
182
+ "ப": 34,
183
+ "ம": 35,
184
+ "ய": 36,
185
+ "ர": 37,
186
+ "ற": 38,
187
+ "ல": 39,
188
+ "ள": 40,
189
+ "ழ": 41,
190
+ "வ": 42,
191
+ "ஶ": 43,
192
+ "ஷ": 44,
193
+ "ஸ": 45,
194
+ "ஹ": 46,
195
+ "ா": 47,
196
+ "ி": 48,
197
+ "ீ": 49,
198
+ "ு": 50,
199
+ "ூ": 51,
200
+ "ெ": 52,
201
+ "ே": 53,
202
+ "ை": 54,
203
+ "௉": 55,
204
+ "ொ": 56,
205
+ "ோ": 57,
206
+ "ௌ": 58,
207
+ "்": 59,
208
+ "ௐ": 60,
209
+ "ௗ": 61,
210
+ "௦": 62,
211
+ "௧": 63,
212
+ "௨": 64,
213
+ "௩": 65,
214
+ "௪": 66,
215
+ "௫": 67,
216
+ "௬": 68,
217
+ "௭": 69,
218
+ "௮": 70,
219
+ "௯": 71,
220
+ "௰": 72,
221
+ "௱": 73,
222
+ "௲": 74,
223
+ "௳": 75,
224
+ "௴": 76,
225
+ "௵": 77,
226
+ "௶": 78,
227
+ "௸": 79,
228
+ "௹": 80,
229
+ "##ர": 81,
230
+ "##ு": 82,
231
+ "##ப": 83,
232
+ "##வ": 84,
233
+ "##ற": 85,
234
+ "##ி": 86,
235
+ "##ீ": 87,
236
+ "##ட": 88,
237
+ "##ை": 89,
238
+ "##ய": 90,
239
+ "##ள": 91,
240
+ "##ா": 92,
241
+ "##க": 93,
242
+ "##ச": 94,
243
+ "##்": 95,
244
+ "##ொ": 96,
245
+ "##ங": 97,
246
+ "##ந": 98,
247
+ "##த": 99,
248
+ "##ழ": 100,
249
+ "##ம": 101,
250
+ "##ூ": 102,
251
+ "##ே": 103,
252
+ "##ல": 104,
253
+ "##ன": 105,
254
+ "##ஸ": 106,
255
+ "##ஷ": 107,
256
+ "##ோ": 108,
257
+ "##ெ": 109,
258
+ "##ண": 110,
259
+ "##அ": 111,
260
+ "##ஞ": 112,
261
+ "##ஜ": 113,
262
+ "##எ": 114,
263
+ "##இ": 115,
264
+ "##உ": 116,
265
+ "##ௌ": 117,
266
+ "##ஐ": 118,
267
+ "##ஹ": 119,
268
+ "##ஏ": 120,
269
+ "##ஃ": 121,
270
+ "##ஓ": 122,
271
+ "##���": 123,
272
+ "##ஊ": 124,
273
+ "##ஆ": 125,
274
+ "##௫": 126,
275
+ "##௯": 127,
276
+ "##ஈ": 128,
277
+ "##ஶ": 129,
278
+ "##௦": 130,
279
+ "##௬": 131,
280
+ "##஢": 132,
281
+ "##௧": 133,
282
+ "##௪": 134,
283
+ "##௭": 135,
284
+ "##௲": 136,
285
+ "##௨": 137,
286
+ "##ௐ": 138,
287
+ "##ஂ": 139,
288
+ "##஡": 140,
289
+ "##௩": 141,
290
+ "##ஔ": 142,
291
+ "##௱": 143,
292
+ "##௶": 144,
293
+ "##஧": 145,
294
+ "##௰": 146,
295
+ "##௮": 147,
296
+ "##௸": 148,
297
+ "##௵": 149,
298
+ "##ௗ": 150,
299
+ "##௉": 151,
300
+ "##௳": 152,
301
+ "##்க": 153,
302
+ "##ம்": 154,
303
+ "##்த": 155,
304
+ "##்ப": 156,
305
+ "##ல்": 157,
306
+ "##ன்": 158,
307
+ "##ப்ப": 159,
308
+ "##்ட": 160,
309
+ "##ள்": 161,
310
+ "##ிய": 162,
311
+ "##க்க": 163,
312
+ "##ர்": 164,
313
+ "##த்த": 165,
314
+ "##ும்": 166,
315
+ "##ரு": 167,
316
+ "##ட்ட": 168,
317
+ "##ங்க": 169,
318
+ "##ந்த": 170,
319
+ "##து": 171,
320
+ "##ில்": 172,
321
+ "##ப்பு": 173,
322
+ "##ில": 174,
323
+ "##கு": 175,
324
+ "##ைய": 176,
325
+ "##ின்": 177,
326
+ "பகு": 178,
327
+ "##்ச": 179,
328
+ "##ற்": 180,
329
+ "பகுப்பு": 181,
330
+ "##ாக": 182,
331
+ "##ற்ற": 183,
332
+ "##ண்ட": 184,
333
+ "##டு": 185,
334
+ "##ிர": 186,
335
+ "##ிற": 187,
336
+ "##ான": 188,
337
+ "##ிக": 189,
338
+ "##ள்ள": 190,
339
+ "##்கள்": 191,
340
+ "##ன்ற": 192,
341
+ "##ப்": 193,
342
+ "##ங்கில": 194,
343
+ "ஆங்கில": 195,
344
+ "##ுக": 196,
345
+ "##ார": 197,
346
+ "ஆங்கிலம்": 198,
347
+ "##லை": 199,
348
+ "##ார்": 200,
349
+ "மு": 201,
350
+ "##க்கு": 202,
351
+ "##ெய": 203,
352
+ "##ின": 204,
353
+ "##ச்ச": 205,
354
+ "##த்": 206,
355
+ "##ட்டு": 207,
356
+ "##டி": 208,
357
+ "##ிரு": 209,
358
+ "##ாவ": 210,
359
+ "##த்து": 211,
360
+ "கு": 212,
361
+ "##ந்து": 213,
362
+ "##ைக": 214,
363
+ "##வர": 215,
364
+ "கொ": 216,
365
+ "வி": 217,
366
+ "##மை": 218,
367
+ "##தி": 219,
368
+ "##ரி": 220,
369
+ "பொ": 221,
370
+ "கா": 222,
371
+ "##ல்ல": 223,
372
+ "தொ": 224,
373
+ "##ியல்": 225,
374
+ "##று": 226,
375
+ "##்கள": 227,
376
+ "##ரா": 228,
377
+ "பெ": 229,
378
+ "##வு": 230,
379
+ "##ச்": 231,
380
+ "##ன்ன": 232,
381
+ "##ால்": 233,
382
+ "இந்த": 234,
383
+ "போ": 235,
384
+ "##ற்க": 236,
385
+ "##மி": 237,
386
+ "##ாய": 238,
387
+ "##ம்ப": 239,
388
+ "##வி": 240,
389
+ "##ண்": 241,
390
+ "இரு": 242,
391
+ "##த்தில்": 243,
392
+ "##ன்ப": 244,
393
+ "##டை": 245,
394
+ "##வர்": 246,
395
+ "##றி": 247,
396
+ "##ங்கள": 248,
397
+ "##கள்": 249,
398
+ "##ண்டு": 250,
399
+ "மே": 251,
400
+ "##க்": 252,
401
+ "ஒரு": 253,
402
+ "சொ": 254,
403
+ "மற்ற": 255,
404
+ "##ப்பட்ட": 256,
405
+ "கூ": 257,
406
+ "##ழு": 258,
407
+ "வெ": 259,
408
+ "##ங்கள்": 260,
409
+ "##ாத": 261,
410
+ "பு": 262,
411
+ "##ான்": 263,
412
+ "##ட்ச": 264,
413
+ "என்ற": 265,
414
+ "##ால": 266,
415
+ "மற்றும்": 267,
416
+ "வே": 268,
417
+ "##ப்பட": 269,
418
+ "செய": 270,
419
+ "உள்ள": 271,
420
+ "##ாள": 272,
421
+ "##ழ்": 273,
422
+ "கோ": 274,
423
+ "சு": 275,
424
+ "##ப்புகள்": 276,
425
+ "செ": 277,
426
+ "##ற்கள்": 278,
427
+ "##ழி": 279,
428
+ "##ாட்ட": 280,
429
+ "##டுக": 281,
430
+ "தலை": 282,
431
+ "##ச்சொ": 283,
432
+ "##ிக்க": 284,
433
+ "##ிறது": 285,
434
+ "##ுவ": 286,
435
+ "தமி": 287,
436
+ "##லா": 288,
437
+ "பொரு": 289,
438
+ "ஆக": 290,
439
+ "##ஸ்": 291,
440
+ "##மு": 292,
441
+ "##திய": 293,
442
+ "பிர": 294,
443
+ "##றை": 295,
444
+ "##க்கும்": 296,
445
+ "##வை": 297,
446
+ "##ிட": 298,
447
+ "மா": 299,
448
+ "##ளை": 300,
449
+ "அத": 301,
450
+ "##சு": 302,
451
+ "##ேர": 303,
452
+ "து": 304,
453
+ "பா": 305,
454
+ "##ின்ற": 306,
455
+ "##ற்ப": 307,
456
+ "##ைக்": 308,
457
+ "##ர்கள்": 309,
458
+ "##ையில்": 310,
459
+ "##ுகள்": 311,
460
+ "##மாக": 312,
461
+ "##னர்": 313,
462
+ "##ளி": 314,
463
+ "##ரை": 315,
464
+ "அமை": 316,
465
+ "மொ": 317,
466
+ "##மான": 318,
467
+ "##ணை": 319,
468
+ "##ரிய": 320,
469
+ "##ையும்": 321,
470
+ "சி": 322,
471
+ "##டுத்த": 323,
472
+ "##டிய": 324,
473
+ "##்ப்ப": 325,
474
+ "நா": 326,
475
+ "தே": 327,
476
+ "##வே": 328,
477
+ "முத": 329,
478
+ "##ுக்கு": 330,
479
+ "##ிகள்": 331,
480
+ "##றிய": 332,
481
+ "##வா": 333,
482
+ "##னை": 334,
483
+ "##கர": 335,
484
+ "##ணி": 336,
485
+ "##னி": 337,
486
+ "##்க்க": 338,
487
+ "##த்தின்": 339,
488
+ "அர": 340,
489
+ "வா": 341,
490
+ "##வும்": 342,
491
+ "மூ": 343,
492
+ "##டைய": 344,
493
+ "இந்திய": 345,
494
+ "திரு": 346,
495
+ "நீ": 347,
496
+ "ஆம்": 348,
497
+ "சொற்கள்": 349,
498
+ "என": 350,
499
+ "என்ப": 351,
500
+ "##ிகள": 352,
501
+ "##ட்சி": 353,
502
+ "##லி": 354,
503
+ "##ற்று": 355,
504
+ "பொருள்": 356,
505
+ "பெய": 357,
506
+ "பல": 358,
507
+ "பய": 359,
508
+ "##ைகள்": 360,
509
+ "##ும்ப": 361,
510
+ "##்த்த": 362,
511
+ "##ழக": 363,
512
+ "##ாம": 364,
513
+ "இய": 365,
514
+ "##ண்ண": 366,
515
+ "இத": 367,
516
+ "##ஞ்ச": 368,
517
+ "திர": 369,
518
+ "##ன்று": 370,
519
+ "##த்தை": 371,
520
+ "தலைப்புகள்": 372,
521
+ "##ச்சொல்": 373,
522
+ "##ூர்": 374,
523
+ "தொட": 375,
524
+ "பிற": 376,
525
+ "##டன்": 377,
526
+ "##ப்படுக": 378,
527
+ "அவ": 379,
528
+ "கூட்டு": 380,
529
+ "கி": 381,
530
+ "தெ": 382,
531
+ "##ங்கு": 383,
532
+ "நில": 384,
533
+ "##க்கிய": 385,
534
+ "##சிய": 386,
535
+ "##மா": 387,
536
+ "##ட்": 388,
537
+ "வர": 389,
538
+ "##்கு": 390,
539
+ "பி": 391,
540
+ "இர": 392,
541
+ "தமிழ்": 393,
542
+ "இது": 394,
543
+ "##ர்கள": 395,
544
+ "##வில்": 396,
545
+ "சிற": 397,
546
+ "##வத": 398,
547
+ "மக்க": 399,
548
+ "##கை": 400,
549
+ "##ாவட்ட": 401,
550
+ "கொண்ட": 402,
551
+ "சே": 403,
552
+ "நட": 404,
553
+ "நிற": 405,
554
+ "##ுள்ள": 406,
555
+ "##லிய": 407,
556
+ "மீ": 408,
557
+ "மாவட்ட": 409,
558
+ "##ாய்": 410,
559
+ "##ையின்": 411,
560
+ "கூட்டுச்சொல்": 412,
561
+ "குறி": 413,
562
+ "##நில": 414,
563
+ "மேற்க": 415,
564
+ "##ிலும்": 416,
565
+ "##ானிய": 417,
566
+ "தி": 418,
567
+ "மொழி": 419,
568
+ "##்ய": 420,
569
+ "என்று": 421,
570
+ "##ிக்": 422,
571
+ "##ாகும்": 423,
572
+ "##ள்ளது": 424,
573
+ "அவர": 425,
574
+ "##ர்ப்ப": 426,
575
+ "##ாம்": 427,
576
+ "ஆண்ட": 428,
577
+ "##ுக்": 429,
578
+ "##ங்கி": 430,
579
+ "##வ்": 431,
580
+ "##ோய": 432,
581
+ "##விய": 433,
582
+ "பார": 434,
583
+ "பெயர்": 435,
584
+ "##மைய": 436,
585
+ "##சி": 437,
586
+ "அல்ல": 438,
587
+ "வழ": 439,
588
+ "##ாடு": 440,
589
+ "ஊரா": 441,
590
+ "##ைகள": 442,
591
+ "##ைப்": 443,
592
+ "##லம்": 444,
593
+ "நூ": 445,
594
+ "உய": 446,
595
+ "##ைப்பட": 447,
596
+ "##ர்ந்த": 448,
597
+ "அறி": 449,
598
+ "பூ": 450,
599
+ "கோய": 451,
600
+ "கரு": 452,
601
+ "விள": 453,
602
+ "##ப்பட்டு": 454,
603
+ "##ப்பட்டது": 455,
604
+ "கட": 456,
605
+ "இருந்த": 457,
606
+ "இவர்": 458,
607
+ "இல": 459,
608
+ "##க்கம்": 460,
609
+ "##ுகள": 461,
610
+ "##ளிய": 462,
611
+ "வீ": 463,
612
+ "சம": 464,
613
+ "##ிருந்த": 465,
614
+ "##வாக": 466,
615
+ "எழு": 467,
616
+ "இல்": 468,
617
+ "ஆண்டு": 469,
618
+ "##லக": 470,
619
+ "##பு": 471,
620
+ "பே": 472,
621
+ "##பெய": 473,
622
+ "##த்துவ": 474,
623
+ "இட": 475,
624
+ "##சை": 476,
625
+ "தொகு": 477,
626
+ "உரு": 478,
627
+ "##வியல்": 479,
628
+ "##ியில்": 480,
629
+ "செய்த": 481,
630
+ "##த்திர": 482,
631
+ "##ச்சொற்கள்": 483,
632
+ "ஆகும்": 484,
633
+ "##ிருந்து": 485,
634
+ "திரைப்பட": 486,
635
+ "அம": 487,
636
+ "மொழிபெய": 488,
637
+ "உட": 489,
638
+ "##ழை": 490,
639
+ "பின்": 491,
640
+ "##ப்பின": 492,
641
+ "##ோள": 493,
642
+ "மொழிபெயர்ப்ப": 494,
643
+ "சா": 495,
644
+ "##ப்படுகிறது": 496,
645
+ "##ுக்க": 497,
646
+ "##ின்றன": 498,
647
+ "மரு": 499,
648
+ "##லும்": 500,
649
+ "ஆகிய": 501,
650
+ "அரச": 502,
651
+ "கால": 503,
652
+ "என்ன": 504,
653
+ "கொண்டு": 505,
654
+ "##ிற்கு": 506,
655
+ "சட்ட": 507,
656
+ "இணை": 508,
657
+ "தோ": 509,
658
+ "பொறிய": 510,
659
+ "பயன்ப": 511,
660
+ "##ொரு": 512,
661
+ "##ப்பாட்ட": 513,
662
+ "முதல்": 514,
663
+ "ஊராட்சி": 515,
664
+ "காண": 516,
665
+ "மொழிபெயர்ப்புகள்": 517,
666
+ "##ப்படும்": 518,
667
+ "வேண்ட": 519,
668
+ "தீ": 520,
669
+ "##க்கி": 521,
670
+ "அல்லது": 522,
671
+ "என்பது": 523,
672
+ "பொறியியல்": 524,
673
+ "##மே": 525,
674
+ "##ற்கு": 526,
675
+ "##ரோ": 527,
676
+ "##ய்": 528,
677
+ "##ங்களில்": 529,
678
+ "நி": 530,
679
+ "##ட்டி": 531,
680
+ "##தாக": 532,
681
+ "##ாவின்": 533,
682
+ "##தை": 534,
683
+ "அதிக": 535,
684
+ "##திர": 536,
685
+ "கே": 537,
686
+ "##த்திய": 538,
687
+ "கழக": 539,
688
+ "##ினை": 540,
689
+ "மேற்கோள": 541,
690
+ "##ருக": 542,
691
+ "கண": 543,
692
+ "வெளி": 544,
693
+ "சில": 545,
694
+ "தானிய": 546,
695
+ "மக": 547,
696
+ "மேற்கோள்கள்": 548,
697
+ "செய்ய": 549,
698
+ "கிர": 550,
699
+ "தமிழ": 551,
700
+ "##ரம்": 552,
701
+ "சூ": 553,
702
+ "##தல்": 554,
703
+ "பெயர்ச்சொற்கள்": 555,
704
+ "பெற்ற": 556,
705
+ "##ரிக்க": 557,
706
+ "##ினார்": 558,
707
+ "அடி": 559,
708
+ "##ெடு": 560,
709
+ "##ராக": 561,
710
+ "கார": 562,
711
+ "பட": 563,
712
+ "##வன்": 564,
713
+ "##னால்": 565,
714
+ "##ங்": 566,
715
+ "##ந்தர்": 567,
716
+ "அமைந்து": 568,
717
+ "பர": 569,
718
+ "பட்ட": 570,
719
+ "##வற்ற": 571,
720
+ "வள": 572,
721
+ "வெளிய": 573,
722
+ "இவர": 574,
723
+ "மக்கள்": 575,
724
+ "கட்டு": 576,
725
+ "##ம்ம": 577,
726
+ "##ோது": 578,
727
+ "##முத": 579,
728
+ "##ிலிருந்து": 580,
729
+ "சீ": 581,
730
+ "##ியா": 582,
731
+ "அக": 583,
732
+ "கொடை": 584,
733
+ "பண": 585,
734
+ "உறு": 586,
735
+ "பேர": 587,
736
+ "##ாட்டு": 588,
737
+ "##ைத்": 589,
738
+ "நகர": 590,
739
+ "கட்ட": 591,
740
+ "போன்ற": 592,
741
+ "உள்ளது": 593,
742
+ "##னு": 594,
743
+ "##த்தி": 595,
744
+ "தமிழ்ந": 596,
745
+ "வை": 597,
746
+ "வாழ": 598,
747
+ "##ப்பி": 599,
748
+ "##லாம்": 600,
749
+ "நிறுவ": 601,
750
+ "##க்கப்பட்ட": 602,
751
+ "தா": 603,
752
+ "மிக": 604,
753
+ "இக்க": 605,
754
+ "தன": 606,
755
+ "##லைக்க": 607,
756
+ "##சா": 608,
757
+ "##ல்ப": 609,
758
+ "வந்த": 610,
759
+ "##ந்திர": 611,
760
+ "##லில்": 612,
761
+ "##ியின்": 613,
762
+ "இருந்து": 614,
763
+ "##ரும்": 615,
764
+ "##ாள்": 616,
765
+ "கீ": 617,
766
+ "அள": 618,
767
+ "##ேச": 619,
768
+ "##ணம்": 620,
769
+ "##ச்சி": 621,
770
+ "மேலும்": 622,
771
+ "##பி": 623,
772
+ "கழகச்": 624,
773
+ "##ற்றி": 625,
774
+ "நிக": 626,
775
+ "சுந்தர்": 627,
776
+ "ஒன்ற": 628,
777
+ "தானியங்கி": 629,
778
+ "##கக": 630,
779
+ "##மன்ற": 631,
780
+ "##ார்கள்": 632,
781
+ "தஇ": 633,
782
+ "தஇகக": 634,
783
+ "மருத்துவ": 635,
784
+ "##லு": 636,
785
+ "##கம்": 637,
786
+ "பாட": 638,
787
+ "##ித்த": 639,
788
+ "##ையை": 640,
789
+ "அந்த": 641,
790
+ "முன்ன": 642,
791
+ "##மும்": 643,
792
+ "##தா": 644,
793
+ "##பெ": 645,
794
+ "##னம்": 646,
795
+ "##டித்த": 647,
796
+ "இரா": 648,
797
+ "##ேய": 649,
798
+ "தொழ": 650,
799
+ "##ர்வ": 651,
800
+ "##கரமுத": 652,
801
+ "##ருக்கு": 653,
802
+ "அவர்": 654,
803
+ "இற": 655,
804
+ "##ாவில்": 656,
805
+ "##ர்ப": 657,
806
+ "##ரில்": 658,
807
+ "கல்": 659,
808
+ "##ுடன்": 660,
809
+ "##ோர்": 661,
810
+ "வரலா": 662,
811
+ "##ிரி": 663,
812
+ "பொது": 664,
813
+ "##ோத": 665,
814
+ "கல": 666,
815
+ "துடு": 667,
816
+ "சொல்ல": 668,
817
+ "##ட்ப": 669,
818
+ "நெ": 670,
819
+ "##கா": 671,
820
+ "##ாலும்": 672,
821
+ "கோயில்": 673,
822
+ "##ங்கிய": 674,
823
+ "##டிவ": 675,
824
+ "##ர்ம": 676,
825
+ "##டுத்து": 677,
826
+ "##தம்": 678,
827
+ "ஏற்ப": 679,
828
+ "துடுப்பாட்ட": 680,
829
+ "##வ்வ": 681,
830
+ "தூ": 682,
831
+ "##ாட": 683,
832
+ "விரு": 684,
833
+ "மக்கள": 685,
834
+ "மெ": 686,
835
+ "உலக": 687,
836
+ "போட்ட": 688,
837
+ "##வெ": 689,
838
+ "##ாண்ட": 690,
839
+ "வரை": 691,
840
+ "##ஷ்": 692,
841
+ "##ரின்": 693,
842
+ "திட்ட": 694,
843
+ "நாட": 695,
844
+ "##்சி": 696,
845
+ "எதிர": 697,
846
+ "மல": 698,
847
+ "##த்திற்கு": 699,
848
+ "##ெரிக்க": 700,
849
+ "பெரு": 701,
850
+ "ஆவ": 702,
851
+ "##ற்றிய": 703,
852
+ "மர": 704,
853
+ "பத": 705,
854
+ "##ாளர்": 706,
855
+ "##ளம்": 707,
856
+ "மாத": 708,
857
+ "அமெரிக்க": 709,
858
+ "##ிரிய": 710,
859
+ "வில": 711,
860
+ "##ந்": 712,
861
+ "##ேன்": 713,
862
+ "##ாவது": 714,
863
+ "##ர்த்த": 715,
864
+ "மாநில": 716,
865
+ "பயன்படுத்த": 717,
866
+ "##ிறார்": 718,
867
+ "உண": 719,
868
+ "##ப்பத": 720,
869
+ "##்ட்": 721,
870
+ "மன": 722,
871
+ "##வர்கள்": 723,
872
+ "##ிருக்க": 724,
873
+ "##ங்களை": 725,
874
+ "##ஸ்த": 726,
875
+ "உறுப்பின": 727,
876
+ "##ியம்": 728,
877
+ "ஆண்டில்": 729,
878
+ "தர": 730,
879
+ "##ப்படுத்த": 731,
880
+ "##திகள": 732,
881
+ "முக்கிய": 733,
882
+ "சோ": 734,
883
+ "வரு": 735,
884
+ "இருக்க": 736,
885
+ "##ணைய": 737,
886
+ "##ண்கள்": 738,
887
+ "##ியாக": 739,
888
+ "##வர்கள": 740,
889
+ "##ானது": 741,
890
+ "##ரே": 742,
891
+ "என்னும்": 743,
892
+ "##டும்": 744,
893
+ "##ாரி": 745,
894
+ "ரா": 746,
895
+ "##தியில்": 747,
896
+ "இக்கோய": 748,
897
+ "##டிக்க": 749,
898
+ "##மீ": 750,
899
+ "##ிலுள்ள": 751,
900
+ "##ட்டை": 752,
901
+ "வட": 753,
902
+ "சேர்ந்த": 754,
903
+ "##கள": 755,
904
+ "தனது": 756,
905
+ "##ள்ளி": 757,
906
+ "தக": 758,
907
+ "##ல்கள": 759,
908
+ "##ல்கள்": 760,
909
+ "அண": 761,
910
+ "கை": 762,
911
+ "##றைய": 763,
912
+ "##ளா": 764,
913
+ "கூற": 765,
914
+ "##பா": 766,
915
+ "##டுகள": 767,
916
+ "நடை": 768,
917
+ "##கரமுதலிய": 769,
918
+ "##வன": 770,
919
+ "##ுகிறது": 771,
920
+ "அழை": 772,
921
+ "##ின்றனர்": 773,
922
+ "பல்க": 774,
923
+ "##னித": 775,
924
+ "பழ": 776,
925
+ "நேர": 777,
926
+ "##ைச்": 778,
927
+ "நூற்ற": 779,
928
+ "குறை": 780,
929
+ "##ின்ப": 781,
930
+ "பின்னர்": 782,
931
+ "##வில்லை": 783,
932
+ "##ிற்க": 784,
933
+ "##ின்றது": 785,
934
+ "##ோக": 786,
935
+ "உருவா": 787,
936
+ "##ண்மை": 788,
937
+ "அகரமுதலிய": 789,
938
+ "கோயில": 790,
939
+ "வக": 791,
940
+ "##க்கூ": 792,
941
+ "ஆனால்": 793,
942
+ "இப்ப": 794,
943
+ "குழ": 795,
944
+ "நோ": 796,
945
+ "பிரி": 797,
946
+ "##ப்பட்டுள்ளது": 798,
947
+ "##முக": 799,
948
+ "##ச்சு": 800,
949
+ "மருத்துவம்": 801,
950
+ "##ினர்": 802,
951
+ "##ர்ந்து": 803,
952
+ "டி": 804,
953
+ "பதி": 805,
954
+ "##க்கள்": 806,
955
+ "வகை": 807,
956
+ "மூலம்": 808,
957
+ "வேண்டிய": 809,
958
+ "உத": 810,
959
+ "##ிடம்": 811,
960
+ "அமைந்துள்ள": 812,
961
+ "##ம்பர்": 813,
962
+ "தய": 814,
963
+ "##ன்மை": 815,
964
+ "##வீ": 816,
965
+ "##ொண்ட": 817,
966
+ "##சிரிய": 818,
967
+ "அவர்கள": 819,
968
+ "##ைகளை": 820,
969
+ "##லைக்கழக": 821,
970
+ "ஆர": 822,
971
+ "வழங்க": 823,
972
+ "##ுடைய": 824,
973
+ "##ப்பா": 825,
974
+ "பால": 826,
975
+ "இரண்ட": 827,
976
+ "பெரிய": 828,
977
+ "தகவ": 829,
978
+ "தொகை": 830,
979
+ "##கர்": 831,
980
+ "பரி": 832,
981
+ "பார்க்க": 833,
982
+ "பல்கலைக்கழக": 834,
983
+ "அரு": 835,
984
+ "##டம்": 836,
985
+ "##னா": 837,
986
+ "முக": 838,
987
+ "கண்ட": 839,
988
+ "அல": 840,
989
+ "அற": 841,
990
+ "ஆய்": 842,
991
+ "இலங்க": 843,
992
+ "கல்ல": 844,
993
+ "##திகள்": 845,
994
+ "##தும்": 846,
995
+ "இதன்": 847,
996
+ "##வரி": 848,
997
+ "இரண்டு": 849,
998
+ "குட": 850,
999
+ "##க்கோ": 851,
1000
+ "என்": 852,
1001
+ "மாவட்டம்": 853,
1002
+ "சட்டமன்ற": 854,
1003
+ "பொருள": 855,
1004
+ "இல்ல": 856,
1005
+ "மொத���த": 857,
1006
+ "##கி": 858,
1007
+ "##ாரம்": 859,
1008
+ "விர": 860,
1009
+ "உயிர": 861,
1010
+ "வரலாறு": 862,
1011
+ "சந்த": 863,
1012
+ "பெர": 864,
1013
+ "அது": 865,
1014
+ "நிலைய": 866,
1015
+ "அனை": 867,
1016
+ "##ாண": 868,
1017
+ "##வது": 869,
1018
+ "அதன்": 870,
1019
+ "வட்ட": 871,
1020
+ "##ென": 872,
1021
+ "##வைய": 873,
1022
+ "##ாளர்கள்": 874,
1023
+ "அட": 875,
1024
+ "##ந்தது": 876,
1025
+ "இருக்கும்": 877,
1026
+ "விருது": 878,
1027
+ "மி": 879,
1028
+ "##ாகவும்": 880,
1029
+ "##ெய்": 881,
1030
+ "கிராம": 882,
1031
+ "உள்ளன": 883,
1032
+ "வச": 884,
1033
+ "விளைய": 885,
1034
+ "தமிழ்நாட்ட": 886,
1035
+ "வழி": 887,
1036
+ "போது": 888,
1037
+ "அனு": 889,
1038
+ "தனி": 890,
1039
+ "##ாது": 891,
1040
+ "##ிகளை": 892,
1041
+ "##ட்சிய": 893,
1042
+ "##ந்தார்": 894,
1043
+ "நிறுவன": 895,
1044
+ "எண்ண": 896,
1045
+ "தொகுதி": 897,
1046
+ "குறிப்ப": 898,
1047
+ "மொழ": 899,
1048
+ "அமைப்பு": 900,
1049
+ "அரசியல்": 901,
1050
+ "நான": 902,
1051
+ "ஆத": 903,
1052
+ "நு": 904,
1053
+ "தேசிய": 905,
1054
+ "கொள்ள": 906,
1055
+ "##்க்": 907,
1056
+ "##க்கள": 908,
1057
+ "##த்தொ": 909,
1058
+ "மூல": 910,
1059
+ "வேண்டும்": 911,
1060
+ "தொடர்ப": 912,
1061
+ "வய": 913,
1062
+ "##ோடு": 914,
1063
+ "வான": 915,
1064
+ "##வின்": 916,
1065
+ "திரைப்படங்கள்": 917,
1066
+ "##ர்ச்சி": 918,
1067
+ "முழு": 919,
1068
+ "முடிய": 920,
1069
+ "##ிட்ட": 921,
1070
+ "காரண": 922,
1071
+ "##க்கார": 923,
1072
+ "தன்": 924,
1073
+ "இணைப்புகள்": 925,
1074
+ "இயற்ப": 926,
1075
+ "அப்ப": 927,
1076
+ "தொழில்": 928,
1077
+ "திற": 929,
1078
+ "##வான": 930,
1079
+ "அமைந்துள்ளது": 931,
1080
+ "வடிவ": 932,
1081
+ "அகரமுதலியின்": 933,
1082
+ "##ம்பு": 934,
1083
+ "கலை": 935,
1084
+ "சொற்க": 936,
1085
+ "பிரத": 937,
1086
+ "##ர்வு": 938,
1087
+ "நப": 939,
1088
+ "##முறை": 940,
1089
+ "##யம்": 941,
1090
+ "நிலை": 942,
1091
+ "##ுவையின்": 943,
1092
+ "##ாமல்": 944,
1093
+ "சொற்குவையின்": 945,
1094
+ "##மாகும்": 946,
1095
+ "சங்க": 947,
1096
+ "##ர்களின்": 948,
1097
+ "##னே": 949,
1098
+ "சரி": 950,
1099
+ "##ன்னை": 951,
1100
+ "முடி": 952,
1101
+ "##ல்க": 953,
1102
+ "படி": 954,
1103
+ "உட்ப": 955,
1104
+ "ஆவார்": 956,
1105
+ "நடிக": 957,
1106
+ "##டுக்க": 958,
1107
+ "##ிகளில்": 959,
1108
+ "இன": 960,
1109
+ "நடைபெ": 961,
1110
+ "புற": 962,
1111
+ "நோய": 963,
1112
+ "##ரச": 964,
1113
+ "என்றும்": 965,
1114
+ "குழு": 966,
1115
+ "நாட்ட": 967,
1116
+ "வாய": 968,
1117
+ "இவற்ற": 969,
1118
+ "முறை": 970,
1119
+ "நே": 971,
1120
+ "நான்": 972,
1121
+ "மின்": 973,
1122
+ "##ஸ்ட": 974,
1123
+ "##்த்": 975,
1124
+ "மாற்ற": 976,
1125
+ "வருக": 977,
1126
+ "சிற்ற": 978,
1127
+ "##்ச்ச": 979,
1128
+ "சிவ": 980,
1129
+ "அரசு": 981,
1130
+ "##நிலை": 982,
1131
+ "மன்ற": 983,
1132
+ "இணைய": 984,
1133
+ "இந்து": 985,
1134
+ "##ரீ": 986,
1135
+ "##வாத": 987,
1136
+ "##லின்": 988,
1137
+ "வேளா": 989,
1138
+ "மனித": 990,
1139
+ "நூற்றாண்ட": 991,
1140
+ "அவர்கள்": 992,
1141
+ "தவ": 993,
1142
+ "##ங்களின்": 994,
1143
+ "ஆய": 995,
1144
+ "முதல": 996,
1145
+ "புக": 997,
1146
+ "தமிழ்நாடு": 998,
1147
+ "கிழ": 999
1148
+ }
1149
+ }
1150
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": "[CLS]",
3
+ "do_lower_case": false,
4
+ "mask_token": "[MASK]",
5
+ "model_max_length": 512,
6
+ "pad_token": "[PAD]",
7
+ "sep_token": "[SEP]",
8
+ "special_tokens_map_file": null,
9
+ "strip_accents": null,
10
+ "tokenize_chinese_chars": true,
11
+ "tokenizer_class": "DistilBertTokenizer",
12
+ "unk_token": "[UNK]"
13
+ }
vocab.txt ADDED
@@ -0,0 +1,1000 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [PAD]
2
+ [UNK]
3
+ [CLS]
4
+ [SEP]
5
+ [MASK]
6
+
7
+
8
+
9
+
10
+
11
+
12
+
13
+
14
+
15
+
16
+
17
+
18
+
19
+
20
+
21
+
22
+
23
+
24
+
25
+
26
+
27
+
28
+
29
+
30
+
31
+
32
+
33
+
34
+
35
+
36
+
37
+
38
+
39
+
40
+
41
+
42
+
43
+
44
+
45
+
46
+
47
+
48
+
49
+ ி
50
+
51
+
52
+
53
+
54
+
55
+
56
+
57
+
58
+
59
+
60
+
61
+
62
+
63
+
64
+
65
+
66
+
67
+
68
+
69
+
70
+
71
+
72
+
73
+
74
+
75
+
76
+
77
+
78
+
79
+
80
+
81
+
82
+ ##ர
83
+ ##ு
84
+ ##ப
85
+ ##வ
86
+ ##ற
87
+ ##ி
88
+ ##ீ
89
+ ##ட
90
+ ##ை
91
+ ##ய
92
+ ##ள
93
+ ##ா
94
+ ##க
95
+ ##ச
96
+ ##்
97
+ ##ொ
98
+ ##ங
99
+ ##ந
100
+ ##த
101
+ ##ழ
102
+ ##ம
103
+ ##ூ
104
+ ##ே
105
+ ##ல
106
+ ##ன
107
+ ##ஸ
108
+ ##ஷ
109
+ ##ோ
110
+ ##ெ
111
+ ##ண
112
+ ##அ
113
+ ##ஞ
114
+ ##ஜ
115
+ ##எ
116
+ ##இ
117
+ ##உ
118
+ ##ௌ
119
+ ##ஐ
120
+ ##ஹ
121
+ ##ஏ
122
+ ##ஃ
123
+ ##ஓ
124
+ ##ஒ
125
+ ##ஊ
126
+ ##ஆ
127
+ ##௫
128
+ ##௯
129
+ ##ஈ
130
+ ##ஶ
131
+ ##௦
132
+ ##௬
133
+ ##஢
134
+ ##௧
135
+ ##௪
136
+ ##௭
137
+ ##௲
138
+ ##௨
139
+ ##ௐ
140
+ ##ஂ
141
+ ##஡
142
+ ##௩
143
+ ##ஔ
144
+ ##௱
145
+ ##௶
146
+ ##஧
147
+ ##௰
148
+ ##௮
149
+ ##௸
150
+ ##௵
151
+ ##ௗ
152
+ ##௉
153
+ ##௳
154
+ ##்க
155
+ ##ம்
156
+ ##்த
157
+ ##்ப
158
+ ##ல்
159
+ ##ன்
160
+ ##ப்ப
161
+ ##்ட
162
+ ##ள்
163
+ ##ிய
164
+ ##க்க
165
+ ##ர்
166
+ ##த்த
167
+ ##ும்
168
+ ##ரு
169
+ ##ட்ட
170
+ ##ங்க
171
+ ##ந்த
172
+ ##து
173
+ ##ில்
174
+ ##ப்பு
175
+ ##ில
176
+ ##கு
177
+ ##ைய
178
+ ##ின்
179
+ பகு
180
+ ##்ச
181
+ ##ற்
182
+ பகுப்பு
183
+ ##ாக
184
+ ##ற்ற
185
+ ##ண்ட
186
+ ##டு
187
+ ##ிர
188
+ ##ிற
189
+ ##ான
190
+ ##ிக
191
+ ##ள்ள
192
+ ##்கள்
193
+ ##ன்ற
194
+ ##ப்
195
+ ##ங்கில
196
+ ஆங்கில
197
+ ##ுக
198
+ ##ார
199
+ ஆங்கிலம்
200
+ ##லை
201
+ ##ார்
202
+ மு
203
+ ##க்கு
204
+ ##ெய
205
+ ##ின
206
+ ##ச்ச
207
+ ##த்
208
+ ##ட்டு
209
+ ##டி
210
+ ##ிரு
211
+ ##ாவ
212
+ ##த்து
213
+ கு
214
+ ##ந்து
215
+ ##ைக
216
+ ##வர
217
+ கொ
218
+ வி
219
+ ##மை
220
+ ##தி
221
+ ##ரி
222
+ பொ
223
+ கா
224
+ ##ல்ல
225
+ தொ
226
+ ##ியல்
227
+ ##று
228
+ ##்கள
229
+ ##ரா
230
+ பெ
231
+ ##வு
232
+ ##ச்
233
+ ##ன்ன
234
+ ##ால்
235
+ இந்த
236
+ போ
237
+ ##ற்க
238
+ ##மி
239
+ ##ாய
240
+ ##ம்ப
241
+ ##வி
242
+ ##ண்
243
+ இரு
244
+ ##த்தில்
245
+ ##ன்ப
246
+ ##டை
247
+ ##வர்
248
+ ##றி
249
+ ##ங்கள
250
+ ##கள்
251
+ ##ண்டு
252
+ மே
253
+ ##க்
254
+ ஒரு
255
+ சொ
256
+ மற்ற
257
+ ##ப்பட்ட
258
+ கூ
259
+ ##ழு
260
+ வெ
261
+ ##ங்கள்
262
+ ##ாத
263
+ பு
264
+ ##ான்
265
+ ##ட்ச
266
+ என்ற
267
+ ##ால
268
+ மற்றும்
269
+ வே
270
+ ##ப்பட
271
+ செய
272
+ உள்ள
273
+ ##ாள
274
+ ##ழ்
275
+ கோ
276
+ சு
277
+ ##ப்புகள்
278
+ செ
279
+ ##ற்கள்
280
+ ##ழி
281
+ ##ாட்ட
282
+ ##டுக
283
+ தலை
284
+ ##ச்சொ
285
+ ##ிக்க
286
+ ##ிறது
287
+ ##ுவ
288
+ தமி
289
+ ##லா
290
+ பொரு
291
+ ஆக
292
+ ##ஸ்
293
+ ##மு
294
+ ##திய
295
+ பிர
296
+ ##றை
297
+ ##க்கும்
298
+ ##வை
299
+ ##ிட
300
+ மா
301
+ ##ளை
302
+ அத
303
+ ##சு
304
+ ##ேர
305
+ து
306
+ பா
307
+ ##ின்ற
308
+ ##ற்ப
309
+ ##ைக்
310
+ ##ர்கள்
311
+ ##ையில்
312
+ ##ுகள்
313
+ ##மாக
314
+ ##னர்
315
+ ##ளி
316
+ ##ரை
317
+ அமை
318
+ மொ
319
+ ##மான
320
+ ##ணை
321
+ ##ரிய
322
+ ##ையும்
323
+ சி
324
+ ##டுத்த
325
+ ##டிய
326
+ ##்ப்ப
327
+ நா
328
+ தே
329
+ ##வே
330
+ முத
331
+ ##ுக்கு
332
+ ##ிகள்
333
+ ##றிய
334
+ ##வா
335
+ ##னை
336
+ ##கர
337
+ ##ணி
338
+ ##னி
339
+ ##்க்க
340
+ ##த்தின்
341
+ அர
342
+ வா
343
+ ##வும்
344
+ மூ
345
+ ##டைய
346
+ இந்திய
347
+ திரு
348
+ நீ
349
+ ஆம்
350
+ சொற்கள்
351
+ என
352
+ என்ப
353
+ ##ிகள
354
+ ##ட்சி
355
+ ##லி
356
+ ##ற்று
357
+ பொருள்
358
+ பெய
359
+ பல
360
+ பய
361
+ ##ைகள்
362
+ ##ும்ப
363
+ ##்த்த
364
+ ##ழக
365
+ ##ாம
366
+ இய
367
+ ##ண்ண
368
+ இத
369
+ ##ஞ்ச
370
+ திர
371
+ ##ன்று
372
+ ##த்தை
373
+ தலைப்புகள்
374
+ ##ச்சொல்
375
+ ##ூர்
376
+ தொட
377
+ பிற
378
+ ##டன்
379
+ ##ப்படுக
380
+ அவ
381
+ கூட்டு
382
+ கி
383
+ தெ
384
+ ##ங்கு
385
+ நில
386
+ ##க்கிய
387
+ ##சிய
388
+ ##மா
389
+ ##ட்
390
+ வர
391
+ ##்கு
392
+ பி
393
+ இர
394
+ தமிழ்
395
+ இது
396
+ ##ர்கள
397
+ ##வில்
398
+ சிற
399
+ ##வத
400
+ மக்க
401
+ ##கை
402
+ ##ாவட்ட
403
+ கொண்ட
404
+ சே
405
+ நட
406
+ நிற
407
+ ##ுள்ள
408
+ ##லிய
409
+ மீ
410
+ மாவட்ட
411
+ ##ாய்
412
+ ##ையின்
413
+ கூட்டுச்சொல்
414
+ குறி
415
+ ##நில
416
+ மேற்க
417
+ ##ிலும்
418
+ ##ானிய
419
+ தி
420
+ மொழி
421
+ ##்ய
422
+ என்று
423
+ ##ிக்
424
+ ##ாகும்
425
+ ##ள்ளது
426
+ அவர
427
+ ##ர்ப்ப
428
+ ##ாம்
429
+ ஆண்ட
430
+ ##ுக்
431
+ ##ங்கி
432
+ ##வ்
433
+ ##ோய
434
+ ##விய
435
+ பார
436
+ பெயர்
437
+ ##மைய
438
+ ##சி
439
+ அல்ல
440
+ வழ
441
+ ##ாடு
442
+ ஊரா
443
+ ##ைகள
444
+ ##ைப்
445
+ ##லம்
446
+ நூ
447
+ உய
448
+ ##ைப்பட
449
+ ##ர்ந்த
450
+ அறி
451
+ பூ
452
+ கோய
453
+ கரு
454
+ விள
455
+ ##ப்பட்டு
456
+ ##ப்பட்டது
457
+ கட
458
+ இருந்த
459
+ இவர்
460
+ இல
461
+ ##க்கம்
462
+ ##ுகள
463
+ ##ளிய
464
+ வீ
465
+ சம
466
+ ##ிருந்த
467
+ ##வாக
468
+ எழு
469
+ இல்
470
+ ஆண்டு
471
+ ##லக
472
+ ##பு
473
+ பே
474
+ ##பெய
475
+ ##த்துவ
476
+ இட
477
+ ##சை
478
+ தொகு
479
+ உரு
480
+ ##வியல்
481
+ ##ியில்
482
+ செய்த
483
+ ##த்திர
484
+ ##ச்சொற்கள்
485
+ ஆகும்
486
+ ##ிருந்து
487
+ திரைப்பட
488
+ அம
489
+ மொழிபெய
490
+ உட
491
+ ##ழை
492
+ பின்
493
+ ##ப்பின
494
+ ##ோள
495
+ மொழிபெயர்ப்ப
496
+ சா
497
+ ##ப்படுகிறது
498
+ ##ுக்க
499
+ ##ின்றன
500
+ மரு
501
+ ##லும்
502
+ ஆகிய
503
+ அரச
504
+ கால
505
+ என்ன
506
+ கொண்டு
507
+ ##ிற்கு
508
+ சட்ட
509
+ இணை
510
+ தோ
511
+ பொறிய
512
+ பயன்ப
513
+ ##ொரு
514
+ ##ப்பாட்ட
515
+ முதல்
516
+ ஊராட்சி
517
+ காண
518
+ மொழிபெயர்ப்புகள்
519
+ ##ப்படும்
520
+ வேண்ட
521
+ தீ
522
+ ##க்கி
523
+ அல்லது
524
+ என்பது
525
+ பொறியியல்
526
+ ##மே
527
+ ##ற்கு
528
+ ##ரோ
529
+ ##ய்
530
+ ##ங்களில்
531
+ நி
532
+ ##ட்டி
533
+ ##தாக
534
+ ##ாவின்
535
+ ##தை
536
+ அதிக
537
+ ##திர
538
+ கே
539
+ ##த்திய
540
+ கழக
541
+ ##ினை
542
+ மேற்கோள
543
+ ##ருக
544
+ கண
545
+ வெளி
546
+ சில
547
+ தானிய
548
+ மக
549
+ மேற்கோள்கள்
550
+ செய்ய
551
+ கிர
552
+ தமிழ
553
+ ##ரம்
554
+ சூ
555
+ ##தல்
556
+ பெயர்ச்சொற்கள்
557
+ பெற்ற
558
+ ##ரிக்க
559
+ ##ினார்
560
+ அடி
561
+ ##ெடு
562
+ ##ராக
563
+ கார
564
+ பட
565
+ ##வன்
566
+ ##னால்
567
+ ##ங்
568
+ ##ந்தர்
569
+ அமைந்து
570
+ பர
571
+ பட்ட
572
+ ##வற்ற
573
+ வள
574
+ வெளிய
575
+ இவர
576
+ மக்கள்
577
+ கட்டு
578
+ ##ம்ம
579
+ ##ோது
580
+ ##முத
581
+ ##ிலிருந்து
582
+ சீ
583
+ ##ியா
584
+ அக
585
+ கொடை
586
+ பண
587
+ உறு
588
+ பேர
589
+ ##ாட்டு
590
+ ##ைத்
591
+ நகர
592
+ கட்ட
593
+ போன்ற
594
+ உள்ளது
595
+ ##னு
596
+ ##த்தி
597
+ தமிழ்ந
598
+ வை
599
+ வாழ
600
+ ##ப்பி
601
+ ##லாம்
602
+ நிறுவ
603
+ ##க்கப்பட்ட
604
+ தா
605
+ மிக
606
+ இக்க
607
+ தன
608
+ ##லைக்க
609
+ ##சா
610
+ ##ல்ப
611
+ வந்த
612
+ ##ந்திர
613
+ ##லில்
614
+ ##ியின்
615
+ இருந்து
616
+ ##ரும்
617
+ ##ாள்
618
+ கீ
619
+ அள
620
+ ##ேச
621
+ ##ணம்
622
+ ##ச்சி
623
+ மேலும்
624
+ ##பி
625
+ கழகச்
626
+ ##ற்றி
627
+ நிக
628
+ சுந்தர்
629
+ ஒன்ற
630
+ தானியங்கி
631
+ ##கக
632
+ ##மன்ற
633
+ ##ார்கள்
634
+ தஇ
635
+ தஇகக
636
+ மருத்துவ
637
+ ##லு
638
+ ##கம்
639
+ பாட
640
+ ##ித்த
641
+ ##ையை
642
+ அந்த
643
+ முன்ன
644
+ ##மும்
645
+ ##தா
646
+ ##பெ
647
+ ##னம்
648
+ ##டித்த
649
+ இரா
650
+ ##ேய
651
+ தொழ
652
+ ##ர்வ
653
+ ##கரமுத
654
+ ##ருக்கு
655
+ அவர்
656
+ இற
657
+ ##ாவில்
658
+ ##ர்ப
659
+ ##ரில்
660
+ கல்
661
+ ##ுடன்
662
+ ##ோர்
663
+ வரலா
664
+ ##ிரி
665
+ பொது
666
+ ##ோத
667
+ கல
668
+ துடு
669
+ சொல்ல
670
+ ##ட்ப
671
+ நெ
672
+ ##கா
673
+ ##ாலும்
674
+ கோயில்
675
+ ##ங்கிய
676
+ ##டிவ
677
+ ##ர்ம
678
+ ##டுத்து
679
+ ##தம்
680
+ ஏற்ப
681
+ துடுப்பாட்ட
682
+ ##வ்வ
683
+ தூ
684
+ ##ாட
685
+ விரு
686
+ மக்கள
687
+ மெ
688
+ உலக
689
+ போட்ட
690
+ ##வெ
691
+ ##ாண்ட
692
+ வரை
693
+ ##ஷ்
694
+ ##ரின்
695
+ திட்ட
696
+ நாட
697
+ ##்சி
698
+ எதிர
699
+ மல
700
+ ##த்திற்கு
701
+ ##ெரிக்க
702
+ பெரு
703
+ ஆவ
704
+ ##ற்றிய
705
+ மர
706
+ பத
707
+ ##ாளர்
708
+ ##ளம்
709
+ மாத
710
+ அமெரிக்க
711
+ ##ிரிய
712
+ வில
713
+ ##ந்
714
+ ##ேன்
715
+ ##ாவது
716
+ ##ர்த்த
717
+ மாநில
718
+ பயன்படுத்த
719
+ ##ிறார்
720
+ உண
721
+ ##ப்பத
722
+ ##்ட்
723
+ மன
724
+ ##வர்கள்
725
+ ##ிருக்க
726
+ ##ங்களை
727
+ ##ஸ்த
728
+ உறுப்பின
729
+ ##ியம்
730
+ ஆண்டில்
731
+ தர
732
+ ##ப்படுத்த
733
+ ##திகள
734
+ முக்கிய
735
+ சோ
736
+ வரு
737
+ இருக்க
738
+ ##ணைய
739
+ ##ண்கள்
740
+ ##ியாக
741
+ ##வர்கள
742
+ ##ானது
743
+ ##ரே
744
+ என்னும்
745
+ ##டும்
746
+ ##ாரி
747
+ ரா
748
+ ##தியில்
749
+ இக்கோய
750
+ ##டிக்க
751
+ ##மீ
752
+ ##ிலுள்ள
753
+ ##ட்டை
754
+ வட
755
+ சேர்ந்த
756
+ ##கள
757
+ தனது
758
+ ##ள்ளி
759
+ தக
760
+ ##ல்கள
761
+ ##ல்கள்
762
+ அண
763
+ கை
764
+ ##றைய
765
+ ##ளா
766
+ கூற
767
+ ##பா
768
+ ##டுகள
769
+ நடை
770
+ ##கரமுதலிய
771
+ ##வன
772
+ ##ுகிறது
773
+ அழை
774
+ ##ின்றனர்
775
+ பல்க
776
+ ##னித
777
+ பழ
778
+ நேர
779
+ ##ைச்
780
+ நூற்ற
781
+ குறை
782
+ ##ின்ப
783
+ பின்னர்
784
+ ##வில்லை
785
+ ##ிற்க
786
+ ##ின்றது
787
+ ##ோக
788
+ உருவா
789
+ ##ண்மை
790
+ அகரமுதலிய
791
+ கோயில
792
+ வக
793
+ ##க்கூ
794
+ ஆனால்
795
+ இப்ப
796
+ குழ
797
+ நோ
798
+ பிரி
799
+ ##ப்பட்டுள்ளது
800
+ ##முக
801
+ ##ச்சு
802
+ மருத்துவம்
803
+ ##ினர்
804
+ ##ர்ந்து
805
+ டி
806
+ பதி
807
+ ##க்கள்
808
+ வகை
809
+ மூலம்
810
+ வேண்டிய
811
+ உத
812
+ ##ிடம்
813
+ அமைந்து��்ள
814
+ ##ம்பர்
815
+ தய
816
+ ##ன்மை
817
+ ##வீ
818
+ ##ொண்ட
819
+ ##சிரிய
820
+ அவர்கள
821
+ ##ைகளை
822
+ ##லைக்கழக
823
+ ஆர
824
+ வழங்க
825
+ ##ுடைய
826
+ ##ப்பா
827
+ பால
828
+ இரண்ட
829
+ பெரிய
830
+ தகவ
831
+ தொகை
832
+ ##கர்
833
+ பரி
834
+ பார்க்க
835
+ பல்கலைக்கழக
836
+ அரு
837
+ ##டம்
838
+ ##னா
839
+ முக
840
+ கண்ட
841
+ அல
842
+ அற
843
+ ஆய்
844
+ இலங்க
845
+ கல்ல
846
+ ##திகள்
847
+ ##தும்
848
+ இதன்
849
+ ##வரி
850
+ இரண்டு
851
+ குட
852
+ ##க்கோ
853
+ என்
854
+ மாவட்டம்
855
+ சட்டமன்ற
856
+ பொருள
857
+ இல்ல
858
+ மொத்த
859
+ ##கி
860
+ ##ாரம்
861
+ விர
862
+ உயிர
863
+ வரலாறு
864
+ சந்த
865
+ பெர
866
+ அது
867
+ நிலைய
868
+ அனை
869
+ ##ாண
870
+ ##வது
871
+ அதன்
872
+ வட்ட
873
+ ##ென
874
+ ##வைய
875
+ ##ாளர்கள்
876
+ அட
877
+ ##ந்தது
878
+ இருக்கும்
879
+ விருது
880
+ மி
881
+ ##ாகவும்
882
+ ##ெய்
883
+ கிராம
884
+ உள்ளன
885
+ வச
886
+ விளைய
887
+ தமிழ்நாட்ட
888
+ வழி
889
+ போது
890
+ அனு
891
+ தனி
892
+ ##ாது
893
+ ##ிகளை
894
+ ##ட்சிய
895
+ ##ந்தார்
896
+ நிறுவன
897
+ எண்ண
898
+ தொகுதி
899
+ குறிப்ப
900
+ மொழ
901
+ அமைப்பு
902
+ அரசியல்
903
+ நான
904
+ ஆத
905
+ நு
906
+ தேசிய
907
+ கொள்ள
908
+ ##்க்
909
+ ##க்கள
910
+ ##த்தொ
911
+ மூல
912
+ வேண்டும்
913
+ தொடர்ப
914
+ வய
915
+ ##ோடு
916
+ வான
917
+ ##வின்
918
+ திரைப்படங்கள்
919
+ ##ர்ச்சி
920
+ முழு
921
+ முடிய
922
+ ##ிட்ட
923
+ காரண
924
+ ##க்கார
925
+ தன்
926
+ இணைப்புகள்
927
+ இயற்ப
928
+ அப்ப
929
+ தொழில்
930
+ திற
931
+ ##வான
932
+ அமைந்துள்ளது
933
+ வடிவ
934
+ அகரமுதலியின்
935
+ ##ம்பு
936
+ கலை
937
+ சொற்க
938
+ பிரத
939
+ ##ர்வு
940
+ நப
941
+ ##முறை
942
+ ##யம்
943
+ நிலை
944
+ ##ுவையின்
945
+ ##ாமல்
946
+ சொற்குவையின்
947
+ ##மாகும்
948
+ சங்க
949
+ ##ர்களின்
950
+ ##னே
951
+ சரி
952
+ ##ன்னை
953
+ முடி
954
+ ##ல்க
955
+ படி
956
+ உட்ப
957
+ ஆவார்
958
+ நடிக
959
+ ##டுக்க
960
+ ##ிகளில்
961
+ இன
962
+ நடைபெ
963
+ புற
964
+ நோய
965
+ ##ரச
966
+ என்றும்
967
+ குழு
968
+ நாட்ட
969
+ வாய
970
+ இவற்ற
971
+ முறை
972
+ நே
973
+ நான்
974
+ மின்
975
+ ##ஸ்ட
976
+ ##்த்
977
+ மாற்ற
978
+ வருக
979
+ சிற்ற
980
+ ##்ச்ச
981
+ சிவ
982
+ அரசு
983
+ ##நிலை
984
+ மன்ற
985
+ இணைய
986
+ இந்து
987
+ ##ரீ
988
+ ##வாத
989
+ ##லின்
990
+ வேளா
991
+ மனித
992
+ நூற்றாண்ட
993
+ அவர்கள்
994
+ தவ
995
+ ##ங்களின்
996
+ ஆய
997
+ முதல
998
+ புக
999
+ தமிழ்நாடு
1000
+ கிழ