Ransaka commited on
Commit
67f2817
·
verified ·
1 Parent(s): 25db6bc

Upload 4 files

Browse files
Files changed (4) hide show
  1. char_map.json +755 -0
  2. config.json +9 -0
  3. sinhala_chars_with_special_chars.txt +117 -0
  4. vocab.json +1020 -0
char_map.json ADDED
@@ -0,0 +1,755 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "ෆි": "fi",
3
+ "බෘ": "bru",
4
+ "ආෙ": "aa",
5
+ "ඟු": "gu",
6
+ "ශෙ": "she",
7
+ "රෘ": "ru",
8
+ "ඪ": "ta",
9
+ "පඃ": "ph",
10
+ "ණූ": "nu",
11
+ "පී": "pe",
12
+ "ෆා": "fa",
13
+ "ඌ": "u",
14
+ "ණ": "na",
15
+ "දෛ": "dai",
16
+ "හෘ": "hur",
17
+ "දෑ": "de",
18
+ "ඝෙ": "ghe",
19
+ "ලො": "lo",
20
+ "ලං": "lan",
21
+ "ළ": "la",
22
+ "වැ": "wa",
23
+ "කං": "kan",
24
+ "ඇු": "e",
25
+ "ණෘ": "nru",
26
+ "පෑ": "pe",
27
+ "කෛ": "kai",
28
+ "අඃ": "a",
29
+ "ගො": "go",
30
+ "යඃ": "yan",
31
+ "යෙ": "ye",
32
+ "නැ": "ne",
33
+ "ර": "ra",
34
+ "ඡෙ": "che",
35
+ "බෑ": "be",
36
+ "ගි": "gi",
37
+ "ථො": "tho",
38
+ "ඕ": "o",
39
+ "ටො": "to",
40
+ "ථෙ": "the",
41
+ "චී": "chi",
42
+ "ඩු": "du",
43
+ "බි": "bi",
44
+ "උ": "u",
45
+ "ගෲ": "gru",
46
+ "ලු": "lu",
47
+ "ෂෘ": "shru",
48
+ "ෂී": "shi",
49
+ "ඨං": "tan",
50
+ "එැ": "e",
51
+ "ලැ": "la",
52
+ "සෞ": "sau",
53
+ "කෙ": "ke",
54
+ "ගී": "ge",
55
+ "ඵු": "pu",
56
+ "ඇැ": "e",
57
+ "ඟැ": "ge",
58
+ "මූ": "mu",
59
+ "ගැ": "ge",
60
+ "ථ": "tha",
61
+ "ඟො": "go",
62
+ "ඤු": "du",
63
+ "නං": "nam",
64
+ "එෛ": "e",
65
+ "ටී": "ti",
66
+ "දී": "di",
67
+ "ඟි": "gi",
68
+ "ටෘ": "tru",
69
+ "ඬි": "di",
70
+ "ඵෛ": "pi",
71
+ "මා": "ma",
72
+ "භු": "bhu",
73
+ "ඳැ": "dhe",
74
+ "ඨො": "tho",
75
+ "ගෞ": "gau",
76
+ "දෙ": "de",
77
+ "ඨ": "ta",
78
+ "ඈං": "een",
79
+ "ඝා": "gha",
80
+ "ඩා": "da",
81
+ "සෘ": "ru",
82
+ "ඕං": "oon",
83
+ "උෑ": "ue",
84
+ "ඹෞ": "au",
85
+ "ජො": "jo",
86
+ "චෞ": "chau",
87
+ "ල": "la",
88
+ "මෞ": "mau",
89
+ "මො": "mo",
90
+ "ෆෑ": "fa",
91
+ "ඡු": "ju",
92
+ "සෙ": "se",
93
+ "ඩැ": "da",
94
+ "ධෛ": "dhai",
95
+ "උූ": "u",
96
+ "ඦ": "cha",
97
+ "උු": "u",
98
+ "ඇං": "en",
99
+ "රො": "ro",
100
+ "ය": "ya",
101
+ "ඛු": "ku",
102
+ "ණො": "no",
103
+ "ඤො": "gho",
104
+ "ඪා": "dha",
105
+ "රූ": "ru",
106
+ "රු": "ru",
107
+ "ඛූ": "ku",
108
+ "ණි": "ni",
109
+ "බෞ": "bau",
110
+ "ඍැ": "ru",
111
+ "ටු": "tu",
112
+ "හං": "han",
113
+ "ඩෑ": "de",
114
+ "චෛ": "chai",
115
+ "ළෙ": "le",
116
+ "ධී": "dhi",
117
+ "ඩෙ": "de",
118
+ "හො": "ho",
119
+ "කැ": "ke",
120
+ "කි": "ki",
121
+ "ඳූ": "du",
122
+ "ඳෙ": "dhe",
123
+ "ඞ": "n",
124
+ "ඟ": "ga",
125
+ "ඩෲ": "dru",
126
+ "යො": "yo",
127
+ "පැ": "pe",
128
+ "ෂ": "sha",
129
+ "ථා": "tha",
130
+ "තඃ": "th",
131
+ "ආං": "aan",
132
+ "ඵ": "pa",
133
+ "වෞ": "chau",
134
+ "යූ": "yu",
135
+ "ෆො": "fo",
136
+ "නො": "no",
137
+ "ගං": "gan",
138
+ "ටෑ": "te",
139
+ "ඳා": "dha",
140
+ "ඒ": "e",
141
+ "හඃ": "ha",
142
+ "ඖ": "au",
143
+ "කෑ": "ke",
144
+ "ඊ": "e",
145
+ "ඬා": "da",
146
+ "තෙ": "the",
147
+ "ෂං": "shan",
148
+ "කඃ": "kan",
149
+ "ජෘ": "jru",
150
+ "ඳො": "dho",
151
+ "ඨී": "ti",
152
+ "පං": "pan",
153
+ "ළො": "lo",
154
+ "ලෛ": "lai",
155
+ "ධෑ": "dee",
156
+ "අෑ": "ee",
157
+ "ධො": "dho",
158
+ "ඹී": "bi",
159
+ "ඟෙ": "ge",
160
+ "ඦා": "ja",
161
+ "ඹ": "ba",
162
+ "රෙ": "re",
163
+ "ඨැ": "te",
164
+ "සො": "so",
165
+ "ෂො": "sho",
166
+ "වූ": "wu",
167
+ "මං": "man",
168
+ "ෆූ": "fu",
169
+ "ටං": "tan",
170
+ "ඔෑ": "we",
171
+ "ඍී": "ri",
172
+ "ඤැ": "ke",
173
+ "දෞ": "dau",
174
+ "ඣා": "ja",
175
+ "ශ": "sha",
176
+ "ෂඃ": "sha",
177
+ "ඞා": "dha",
178
+ "චි": "chi",
179
+ "තු": "thu",
180
+ "ඹූ": "bhu",
181
+ "වු": "wu",
182
+ "ජෙ": "je",
183
+ "වො": "wo",
184
+ "ආා": "aa",
185
+ "ෂි": "shi",
186
+ "ථි": "thi",
187
+ "ඩ": "da",
188
+ "බං": "ban",
189
+ "සෑ": "se",
190
+ "තො": "tho",
191
+ "ධැ": "dhe",
192
+ "ෆී": "fee",
193
+ "ළැ": "le",
194
+ "ඉ": "e",
195
+ "චා": "cha",
196
+ "ෆෙ": "fe",
197
+ "දූ": "du",
198
+ "ඛී": "ki",
199
+ "හා": "ha",
200
+ "ඔී": "o",
201
+ "රි": "ri",
202
+ "හෛ": "hai",
203
+ "ඛ": "ka",
204
+ "භ": "bha",
205
+ "භෙ": "bhe",
206
+ "එී": "ee",
207
+ "නෙ": "ne",
208
+ "ස": "sa",
209
+ "දි": "di",
210
+ "ණෙ": "ne",
211
+ "ం": "n",
212
+ "ප": "pa",
213
+ "චෑ": "che",
214
+ "ළා": "la",
215
+ "ධෞ": "dhau",
216
+ "භෛ": "bhi",
217
+ "ථඃ": "tha",
218
+ "ඟා": "gha",
219
+ "පෙ": "pe",
220
+ "ගෑ": "ge",
221
+ "ශී": "shi",
222
+ "සි": "si",
223
+ "භෞ": "bhau",
224
+ "ඞී": "n",
225
+ "ලි": "li",
226
+ "ආ": "a",
227
+ "රෲ": "ru",
228
+ "අෙ": "a",
229
+ "තෑ": "the",
230
+ "බෛ": "bai",
231
+ "හෙ": "he",
232
+ "බෙ": "be",
233
+ "යෛ": "yai",
234
+ "වෛ": "wai",
235
+ "ධෲ": "dru",
236
+ "හී": "he",
237
+ "ඥ": "gha",
238
+ "ෂෙ": "she",
239
+ "වි": "vi",
240
+ "ජා": "ja",
241
+ "ටෙ": "te",
242
+ "යි": "i",
243
+ "ට": "ta",
244
+ "ඛා": "ka",
245
+ "ඬු": "du",
246
+ "ජි": "ji",
247
+ "ඬ": "da",
248
+ "ෂෑ": "she",
249
+ "ඡ": "cha",
250
+ "ධෘ": "dhru",
251
+ "ජෛ": "jai",
252
+ "ම": "ma",
253
+ "ඬෑ": "de",
254
+ "ෂෛ": "shai",
255
+ "ඡි": "chi",
256
+ "ඛෙ": "ke",
257
+ "ඳ": "da",
258
+ "බො": "bo",
259
+ "හ": "ha",
260
+ "ඡැ": "je",
261
+ "ටූ": "tu",
262
+ "ඛං": "kan",
263
+ "ග": "ga",
264
+ "ඵෑ": "pe",
265
+ "ඪි": "dhi",
266
+ "ශො": "sho",
267
+ "ο": "n",
268
+ "ඉැ": "e",
269
+ "සඃ": "san",
270
+ "ඝ": "gha",
271
+ "ඛෑ": "ke",
272
+ "වෑ": "we",
273
+ "ඊෙ": "ee",
274
+ "බී": "bi",
275
+ "සූ": "su",
276
+ "ඩී": "di",
277
+ "රා": "ra",
278
+ "ශං": "shan",
279
+ "භො": "bho",
280
+ "දං": "dan",
281
+ "ජූ": "ju",
282
+ "යෘ": "yur",
283
+ "ඉි": "e",
284
+ "ව": "wa",
285
+ "භා": "bha",
286
+ "භි": "bhi",
287
+ "ඪු": "dhu",
288
+ "ඔෘ": "au",
289
+ "කූ": "ku",
290
+ "ලී": "lee",
291
+ "දො": "do",
292
+ "බෲ": "bru",
293
+ "ටි": "ti",
294
+ "හූ": "hu",
295
+ "මෛ": "mai",
296
+ "සෲ": "ru",
297
+ "ඹෙ": "bhe",
298
+ "ගෙ": "ge",
299
+ "යී": "yi",
300
+ "ඨි": "ti",
301
+ "භං": "bhan",
302
+ "දු": "du",
303
+ "ඟූ": "ghu",
304
+ "ඩං": "dan",
305
+ "ටෲ": "tru",
306
+ "ති": "thi",
307
+ "ත": "tha",
308
+ "හෞ": "bhau",
309
+ "ෂු": "shu",
310
+ "ඉා": "e",
311
+ "ක": "ka",
312
+ "අි": "a",
313
+ "ටෛ": "tai",
314
+ "ලෑ": "le",
315
+ "ඬො": "dho",
316
+ "අැ": "e",
317
+ "කා": "ka",
318
+ "පා": "pa",
319
+ "නෑ": "ne",
320
+ "ඵො": "po",
321
+ "ජැ": "je",
322
+ "ඩො": "do",
323
+ "තූ": "thu",
324
+ "ඳි": "dhi",
325
+ "ඒං": "en",
326
+ "ඝො": "gho",
327
+ "ගෘ": "gru",
328
+ "ඤෙ": "ke",
329
+ "භෑ": "bhe",
330
+ "ඵී": "pi",
331
+ "යා": "ya",
332
+ "ගෛ": "gai",
333
+ "ඝූ": "ghu",
334
+ "ධා": "dha",
335
+ "ලෙ": "le",
336
+ "ඝෘ": "ru",
337
+ "ෆෘ": "fru",
338
+ "වෘ": "wru",
339
+ "ඩෛ": "dai",
340
+ "ඏ": "pru",
341
+ "ඬූ": "du",
342
+ "අා": "a",
343
+ "භී": "bhi",
344
+ "හි": "hi",
345
+ "බා": "ba",
346
+ "රී": "ri",
347
+ "ඍ": "ru",
348
+ "රැ": "re",
349
+ "ඡී": "chi",
350
+ "ඣී": "jhi",
351
+ "ඤ": "gha",
352
+ "න": "na",
353
+ "එි": "e",
354
+ "ශෘ": "shru",
355
+ "ණැ": "ne",
356
+ "ඇෙ": "e",
357
+ "ශෑ": "she",
358
+ "ඇ": "e",
359
+ "සැ": "se",
360
+ "ථූ": "thu",
361
+ "ඟී": "gi",
362
+ "ඕෘ": "o",
363
+ "ඵා": "pa",
364
+ "නෞ": "nau",
365
+ "උෙ": "u",
366
+ "ලෞ": "lau",
367
+ "තං": "than",
368
+ "ඞු": "du",
369
+ "රෛ": "rai",
370
+ "ඩි": "di",
371
+ "ගු": "gu",
372
+ "ඤං": "ghan",
373
+ "ෂා": "sha",
374
+ "අ": "a",
375
+ "ෆු": "fu",
376
+ "ධෙ": "dhe",
377
+ "කෞ": "kau",
378
+ "අං": "an",
379
+ "ළූ": "lu",
380
+ "ළෘ": "lu",
381
+ "ඡං": "chan",
382
+ "පෞ": "pau",
383
+ "ශි": "shi",
384
+ "ශූ": "shu",
385
+ "තෘ": "thru",
386
+ "චූ": "chu",
387
+ "චං": "chan",
388
+ "ධං": "dhan",
389
+ "ණා": "na",
390
+ "නී": "ni",
391
+ "ඬැ": "dhe",
392
+ "ගා": "ga",
393
+ "ඳී": "di",
394
+ "ෂැ": "she",
395
+ "එ": "e",
396
+ "උා": "u",
397
+ "ඉෙ": "e",
398
+ "රං": "ran",
399
+ "ථැ": "the",
400
+ "නෘ": "nru",
401
+ "ඪො": "to",
402
+ "ඵං": "pan",
403
+ "ඓ": "e",
404
+ "බු": "bu",
405
+ "ටෞ": "tau",
406
+ "කෘ": "kru",
407
+ "මඃ": "man",
408
+ "ණු": "nu",
409
+ "සී": "si",
410
+ "පූ": "pu",
411
+ "ඨා": "ta",
412
+ "චෙ": "che",
413
+ "ඵි": "phi",
414
+ "ෂූ": "shu",
415
+ "ඞො": "do",
416
+ "භූ": "bhu",
417
+ "තෛ": "thai",
418
+ "ජං": "jan",
419
+ "ඹැ": "be",
420
+ "ඔ": "o",
421
+ "දෲ": "dhru",
422
+ "ඩෘ": "dru",
423
+ "ඤා": "ghan",
424
+ "ලූ": "lu",
425
+ "වෙ": "we",
426
+ "ඔා": "o",
427
+ "උං": "un",
428
+ "බ": "ba",
429
+ "නි": "ni",
430
+ "ඝී": "ghi",
431
+ "ලා": "la",
432
+ "භෘ": "bru",
433
+ "ඣ": "gha",
434
+ "ණෑ": "ne",
435
+ "ඈ": "e",
436
+ "ෆැ": "fa",
437
+ "ෆ": "fa",
438
+ "තැ": "the",
439
+ "ඒි": "e",
440
+ "ටැ": "te",
441
+ "නු": "nu",
442
+ "යං": "yan",
443
+ "නූ": "nu",
444
+ "කු": "ku",
445
+ "යෑ": "ye",
446
+ "මෑ": "me",
447
+ "ළං": "lan",
448
+ "චො": "cho",
449
+ "ඩෞ": "dau",
450
+ "පෛ": "pai",
451
+ "ටා": "ta",
452
+ "ඳු": "du",
453
+ "කො": "ko",
454
+ "ඝං": "ghan",
455
+ "යෞ": "yau",
456
+ "ඞි": "di",
457
+ "හැ": "he",
458
+ "පු": "pu",
459
+ "ළු": "lu",
460
+ "ඝු": "gu",
461
+ "නා": "na",
462
+ "පෲ": "pru",
463
+ "ඳෑ": "de",
464
+ "ශු": "shu",
465
+ "ඣො": "gha",
466
+ "ජෑ": "je",
467
+ "ඤි": "di",
468
+ "ඡා": "cha",
469
+ "ළී": "li",
470
+ "චු": "chu",
471
+ "ධ": "dha",
472
+ "ඟං": "gan",
473
+ "ධි": "dhi",
474
+ "එා": "e",
475
+ "උී": "u",
476
+ "ඹි": "bhi",
477
+ "මී": "me",
478
+ "ඵැ": "pe",
479
+ "ඝි": "ghi",
480
+ "ඤූ": "du",
481
+ "ධූ": "dhu",
482
+ "දෘ": "dru",
483
+ "යු": "yu",
484
+ "ඹු": "bu",
485
+ "ශෞ": "shau",
486
+ "මෙ": "me",
487
+ "ඤී": "di",
488
+ "ද": "da",
489
+ "ඔං": "on",
490
+ "ඔි": "o",
491
+ "ළි": "li",
492
+ "ජී": "ji",
493
+ "ශා": "sha",
494
+ "ඨෙ": "te",
495
+ "පෘ": "pru",
496
+ "එෙ": "e",
497
+ "ශඃ": "shan",
498
+ "ඐ": "pau",
499
+ "මි": "mi",
500
+ "ධු": "dhu",
501
+ "සෛ": "sai",
502
+ "ජෞ": "jau",
503
+ "ඹෑ": "be",
504
+ "ඛි": "ki",
505
+ "о": "n",
506
+ "ඣං": "jan",
507
+ "ණී": "ni",
508
+ "හු": "hu",
509
+ "ගූ": "gu",
510
+ "ච": "cha",
511
+ "ඵෙ": "pe",
512
+ "වෲ": "wru",
513
+ "ඔෙ": "o",
514
+ "ථං": "than",
515
+ "ඵූ": "pu",
516
+ "උෘ": "u",
517
+ "බැ": "be",
518
+ "සා": "sa",
519
+ "ඳං": "dan",
520
+ "ජඃ": "jah",
521
+ "ඩූ": "du",
522
+ "රෑ": "re",
523
+ "හෲ": "hru",
524
+ "කී": "ki",
525
+ "ඡෘ": "chru",
526
+ "දා": "da",
527
+ "ළෑ": "le",
528
+ "ඡො": "cho",
529
+ "තෲ": "thru",
530
+ "පො": "po",
531
+ "ඛො": "ko",
532
+ "ඞෙ": "de",
533
+ "මෘ": "mur",
534
+ "වඃ": "wah",
535
+ "ආඃ": "an",
536
+ "ඟෑ": "ge",
537
+ "සං": "san",
538
+ "දැ": "de",
539
+ "ඨු": "tu",
540
+ "යැ": "ye",
541
+ "රෞ": "rau",
542
+ "ඹා": "bha",
543
+ "ඹො": "bho",
544
+ "කෲ": "kru",
545
+ "වං": "wan",
546
+ "චැ": "che",
547
+ "ජ": "ja",
548
+ "හෑ": "he",
549
+ "ශැ": "sha",
550
+ "ශෛ": "shai",
551
+ "ථෘ": "tru",
552
+ "වා": "wa",
553
+ "ඬෙ": "de",
554
+ "පි": "pi",
555
+ "චඃ": "chah",
556
+ "ඣි": "dhi",
557
+ "තී": "thi",
558
+ "මු": "mu",
559
+ "ඔු": "o",
560
+ "ජු": "ju",
561
+ "එං": "en",
562
+ "ඬී": "di",
563
+ "මැ": "me",
564
+ "ඒෙ": "e",
565
+ "වී": "we",
566
+ "තා": "tha",
567
+ "නෛ": "nai",
568
+ "බූ": "bu",
569
+ "ථු": "thu",
570
+ "ථී": "thi",
571
+ "සු": "su",
572
+ "ඬං": "ghan",
573
+ "ඉං": "en",
574
+ "ට්": "t",
575
+ "ෂො": "sho",
576
+ "ණේ": "no",
577
+ "ණ්": "n",
578
+ "ලෞ": "lau",
579
+ "ඣ්": "j",
580
+ "සෞ": "sau",
581
+ "යෞ": "yau",
582
+ "ක්": "k",
583
+ "ඵෝ": "po",
584
+ "බො": "bo",
585
+ "රෞ": "rau",
586
+ "ශෝ": "sho",
587
+ "ළෝ": "lo",
588
+ "ඛේ": "ke",
589
+ "වෝ": "wo",
590
+ "ඪ්": "d",
591
+ "ඹෝ": "bho",
592
+ "ඳො": "dho",
593
+ "ඳෝ": "dho",
594
+ "ෆෝ": "fho",
595
+ "ජේ": "je",
596
+ "ර්": "r",
597
+ "වො": "wo",
598
+ "ඩ්": "d",
599
+ "යො": "yo",
600
+ "ධේ": "dhe",
601
+ "චේ": "che",
602
+ "ඡේ": "che",
603
+ "භො": "bho",
604
+ "ඬේ": "de",
605
+ "භේ": "bhe",
606
+ "ඩො": "do",
607
+ "රො": "ro",
608
+ "ශේ": "she",
609
+ "එ්": "e",
610
+ "ගෞ": "gau",
611
+ "ඩෞ": "dau",
612
+ "ඤො": "gho",
613
+ "දෞ": "dhou",
614
+ "ඳ්": "d",
615
+ "ඣෝ": "do",
616
+ "ඬ්": "d",
617
+ "ඵො": "po",
618
+ "යෝ": "yo",
619
+ "ශ්": "sh",
620
+ "ධ්": "dh",
621
+ "රේ": "re",
622
+ "ඟ්": "g",
623
+ "ථො": "tho",
624
+ "ථේ": "the",
625
+ "ඤ්": "ghe",
626
+ "ඨ්": "t",
627
+ "හ්": "h",
628
+ "ඝො": "gho",
629
+ "චො": "cho",
630
+ "හේ": "he",
631
+ "ණො": "no",
632
+ "ළො": "lo",
633
+ "වේ": "we",
634
+ "තෝ": "tho",
635
+ "ජෝ": "jo",
636
+ "ඩෝ": "do",
637
+ "ඹේ": "be",
638
+ "ළ්": "l",
639
+ "ථ්": "th",
640
+ "නේ": "ne",
641
+ "මො": "mo",
642
+ "ඝේ": "ghe",
643
+ "සේ": "se",
644
+ "ප්": "p",
645
+ "ඇ්": "e",
646
+ "කෞ": "kau",
647
+ "ඞො": "do",
648
+ "මේ": "me",
649
+ "ඛො": "ko",
650
+ "හො": "ho",
651
+ "ය්": "y",
652
+ "න්": "n",
653
+ "ශො": "sho",
654
+ "ඤෝ": "gho",
655
+ "ස්": "s",
656
+ "ඡො": "cho",
657
+ "ද්": "d",
658
+ "බ්": "b",
659
+ "ඝෝ": "gho",
660
+ "ඵ්": "e",
661
+ "කො": "ko",
662
+ "වෞ": "wau",
663
+ "ඨො": "to",
664
+ "ථෝ": "tho",
665
+ "ඨෝ": "to",
666
+ "සෝ": "so",
667
+ "බෝ": "bo",
668
+ "ඒ්": "e",
669
+ "භෞ": "bhau",
670
+ "ඹො": "bho",
671
+ "ටේ": "te",
672
+ "චෝ": "cho",
673
+ "ඩේ": "de",
674
+ "ඡෝ": "cho",
675
+ "ඟො": "go",
676
+ "ච්": "ch",
677
+ "නෝ": "no",
678
+ "ජ්": "j",
679
+ "ධො": "dho",
680
+ "පේ": "je",
681
+ "රෝ": "ro",
682
+ "ල්": "l",
683
+ "නො": "no",
684
+ "ඔ්": "o",
685
+ "ෆ්": "f",
686
+ "ෂ්": "sh",
687
+ "ඉ්": "e",
688
+ "තො": "tho",
689
+ "තේ": "the",
690
+ "ත්": "th",
691
+ "ඳේ": "dhe",
692
+ "සො": "so",
693
+ "ම්": "m",
694
+ "ඪො": "to",
695
+ "ඟෝ": "go",
696
+ "ඪෝ": "to",
697
+ "කේ": "ke",
698
+ "පො": "po",
699
+ "ඬෝ": "do",
700
+ "ජෞ": "jau",
701
+ "යේ": "ye",
702
+ "ෆො": "fo",
703
+ "ඹෞ": "bhau",
704
+ "ඞ්": "n",
705
+ "පෞ": "pau",
706
+ "ඊ්": "e",
707
+ "ළේ": "le",
708
+ "ඹ්": "b",
709
+ "බෞ": "bau",
710
+ "මෝ": "mo",
711
+ "ග්": "g",
712
+ "ෂේ": "she",
713
+ "ගේ": "ge",
714
+ "පෝ": "po",
715
+ "ඡ්": "ch",
716
+ "ඛ්": "k",
717
+ "ලෝ": "lo",
718
+ "අේ": "a",
719
+ "ඞෝ": "do",
720
+ "ගො": "go",
721
+ "ඨේ": "dhe",
722
+ "ඞේ": "n",
723
+ "ශෞ": "shau",
724
+ "ෆේ": "fe",
725
+ "නෞ": "nau",
726
+ "ජො": "jo",
727
+ "ගෝ": "go",
728
+ "මෞ": "mau",
729
+ "ඤේ": "g",
730
+ "ලේ": "le",
731
+ "ටො": "to",
732
+ "දෝ": "dho",
733
+ "අ්": "a",
734
+ "ණෝ": "no",
735
+ "භ්": "b",
736
+ "ලො": "lo",
737
+ "දො": "do",
738
+ "හෞ": "bhau",
739
+ "ටෞ": "tau",
740
+ "ඝ්": "g",
741
+ "ඛෝ": "ko",
742
+ "ධෞ": "dhau",
743
+ "භෝ": "bho",
744
+ "ධෝ": "dho",
745
+ "ෂෝ": "sho",
746
+ "කෝ": "ko",
747
+ "දේ": "de",
748
+ "හෝ": "ho",
749
+ "බේ": "be",
750
+ "ටෝ": "to",
751
+ "චෞ": "chau",
752
+ "ඟේ": "ge",
753
+ "ව්": "w",
754
+ "ෟ": "u"
755
+ }
config.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "unknown_token": "<|unk|>",
3
+ "pad_token": "<|pad|>",
4
+ "unknown_token_id": 1015,
5
+ "pad_token_id": 1016,
6
+ "max_length": 256,
7
+ "end_of_text_token": "<|endoftext|>",
8
+ "end_of_text_token_id": 1017
9
+ }
sinhala_chars_with_special_chars.txt ADDED
@@ -0,0 +1,117 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+
3
+
4
+
5
+ >
6
+
7
+ )
8
+
9
+
10
+
11
+ 2
12
+ +
13
+
14
+
15
+ <
16
+ $
17
+ [
18
+
19
+
20
+
21
+
22
+ '
23
+
24
+ 5
25
+
26
+
27
+
28
+
29
+ -
30
+
31
+
32
+
33
+
34
+
35
+
36
+ #
37
+
38
+ &
39
+
40
+
41
+
42
+
43
+
44
+
45
+ 0
46
+ (
47
+ 9
48
+
49
+ ~
50
+
51
+ !
52
+ %
53
+
54
+ 4
55
+
56
+
57
+
58
+ {
59
+
60
+ /
61
+
62
+
63
+
64
+ ]
65
+
66
+
67
+
68
+ _
69
+ 3
70
+
71
+
72
+
73
+
74
+
75
+
76
+
77
+
78
+
79
+
80
+
81
+
82
+
83
+ ?
84
+ =
85
+
86
+ ,
87
+ `
88
+
89
+
90
+ *
91
+ \
92
+
93
+
94
+
95
+
96
+ ;
97
+
98
+
99
+
100
+
101
+ @
102
+ 8
103
+
104
+ .
105
+
106
+ 1
107
+
108
+
109
+
110
+ }
111
+ 6
112
+ 7
113
+
114
+
115
+ ^
116
+ :
117
+ "
vocab.json ADDED
@@ -0,0 +1,1020 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "ඟෝ": 0,
3
+ "ලි": 1,
4
+ "●": 2,
5
+ "😘": 3,
6
+ "/": 4,
7
+ "වැ": 5,
8
+ "ඪ": 6,
9
+ "ඩෑ": 7,
10
+ "ඔ්": 8,
11
+ "”": 9,
12
+ "ඳෙ": 10,
13
+ "\u001d": 11,
14
+ "✍": 12,
15
+ "⚠": 13,
16
+ "ධා": 14,
17
+ "ඤා": 15,
18
+ "බෲ": 16,
19
+ "පා": 17,
20
+ "🤦": 18,
21
+ "ஹ": 19,
22
+ "𝗮": 20,
23
+ "ඓ": 21,
24
+ "\r": 22,
25
+ "රා": 23,
26
+ "සං": 24,
27
+ "ඵැ": 25,
28
+ "ය්": 26,
29
+ "ධෲ": 27,
30
+ "ඉා": 28,
31
+ "රේ": 29,
32
+ "ඉැ": 30,
33
+ "h": 31,
34
+ "ඟෑ": 32,
35
+ "වෑ": 33,
36
+ "ற": 34,
37
+ "‚": 35,
38
+ "ඩෛ": 36,
39
+ "ā": 37,
40
+ "ඉු": 38,
41
+ "😳": 39,
42
+ " ": 40,
43
+ "ொ": 41,
44
+ "ć": 42,
45
+ "ඵෘ": 43,
46
+ "🙊": 44,
47
+ "ෆී": 45,
48
+ "මෛ": 46,
49
+ "මේ": 47,
50
+ "ගේ": 48,
51
+ "÷": 49,
52
+ "🇴": 50,
53
+ "දෝ": 51,
54
+ "ඛ්": 52,
55
+ " ": 53,
56
+ "🇦": 54,
57
+ "චෝ": 55,
58
+ "ධෙ": 56,
59
+ "٩": 57,
60
+ "ï": 58,
61
+ "ගු": 59,
62
+ "යි": 60,
63
+ "ජෑ": 61,
64
+ "ඉං": 62,
65
+ "✿": 63,
66
+ "": 64,
67
+ "ෂ": 65,
68
+ "v": 66,
69
+ "ධෘ": 67,
70
+ "රු": 68,
71
+ "▪": 69,
72
+ "🙂": 70,
73
+ "c": 71,
74
+ "إ": 72,
75
+ "W": 73,
76
+ "😌": 74,
77
+ "ඛී": 75,
78
+ "රෞ": 76,
79
+ "බා": 77,
80
+ "මි": 78,
81
+ "­": 79,
82
+ "ඡි": 80,
83
+ "×": 81,
84
+ "යං": 82,
85
+ "ධ": 83,
86
+ "ලී": 84,
87
+ "ජෝ": 85,
88
+ "ட": 86,
89
+ "ඵ": 87,
90
+ "ඹ්": 88,
91
+ "أ": 89,
92
+ "🤔": 90,
93
+ "චෙ": 91,
94
+ "🇳": 92,
95
+ "ص": 93,
96
+ "වෝ": 94,
97
+ "0": 95,
98
+ "ගෞ": 96,
99
+ "🇷": 97,
100
+ "තෲ": 98,
101
+ "එං": 99,
102
+ "භං": 100,
103
+ "%": 101,
104
+ "ළ": 102,
105
+ "රෛ": 103,
106
+ "": 104,
107
+ "®": 105,
108
+ "D": 106,
109
+ "කෙ": 107,
110
+ "~": 108,
111
+ "*": 109,
112
+ "බූ": 110,
113
+ "ආා": 111,
114
+ "😮": 112,
115
+ "සී": 113,
116
+ "🏻": 114,
117
+ "ඹ": 115,
118
+ "ඛේ": 116,
119
+ "ඹී": 117,
120
+ "ශෛ": 118,
121
+ "🌷": 119,
122
+ "එ්": 120,
123
+ ",": 121,
124
+ "ඛ": 122,
125
+ "எ": 123,
126
+ "و": 124,
127
+ "𝐊": 125,
128
+ "ප්": 126,
129
+ "ඡේ": 127,
130
+ "ලෛ": 128,
131
+ "ඔි": 129,
132
+ "ගො": 130,
133
+ "ඟි": 131,
134
+ "ඤෝ": 132,
135
+ "දා": 133,
136
+ "ම": 134,
137
+ "@": 135,
138
+ "d": 136,
139
+ "භෝ": 137,
140
+ "භ්": 138,
141
+ "ෆේ": 139,
142
+ "ඝෘ": 140,
143
+ "සෑ": 141,
144
+ "ටෲ": 142,
145
+ "😷": 143,
146
+ "ඟී": 144,
147
+ "උ": 145,
148
+ "ථා": 146,
149
+ "ඨා": 147,
150
+ "🐼": 148,
151
+ "ධෑ": 149,
152
+ "q": 150,
153
+ "\"": 151,
154
+ "කී": 152,
155
+ "ගං": 153,
156
+ "2": 154,
157
+ "දො": 155,
158
+ "නේ": 156,
159
+ "ඩො": 157,
160
+ "එැ": 158,
161
+ "ෂෘ": 159,
162
+ "😥": 160,
163
+ "ඝා": 161,
164
+ "ශි": 162,
165
+ "🇺": 163,
166
+ "ඕං": 164,
167
+ "ن": 165,
168
+ "ඇු": 166,
169
+ "ඟේ": 167,
170
+ "ඳ්": 168,
171
+ "රැ": 169,
172
+ "á": 170,
173
+ "ඉ": 171,
174
+ "ඟැ": 172,
175
+ "ඨ": 173,
176
+ "නො": 174,
177
+ "ඌ": 175,
178
+ "තා": 176,
179
+ "ටෘ": 177,
180
+ "එ": 178,
181
+ "ඬු": 179,
182
+ "එි": 180,
183
+ "පෛ": 181,
184
+ "ඇෙ": 182,
185
+ "ê": 183,
186
+ "😇": 184,
187
+ "බෙ": 185,
188
+ "පෞ": 186,
189
+ "හැ": 187,
190
+ "ණ": 188,
191
+ "එා": 189,
192
+ "&": 190,
193
+ "ණි": 191,
194
+ "තු": 192,
195
+ "න්": 193,
196
+ "🤪": 194,
197
+ "K": 195,
198
+ "‪": 196,
199
+ "ථ්": 197,
200
+ "ඤො": 198,
201
+ "🚀": 199,
202
+ "y": 200,
203
+ "ච්": 201,
204
+ "කෲ": 202,
205
+ "s": 203,
206
+ "ඵෛ": 204,
207
+ "'": 205,
208
+ "ණු": 206,
209
+ "k": 207,
210
+ "ன": 208,
211
+ "🇭": 209,
212
+ "𝐔": 210,
213
+ "නෑ": 211,
214
+ "ආි": 212,
215
+ "ඔී": 213,
216
+ "පු": 214,
217
+ "ලෙ": 215,
218
+ "-": 216,
219
+ "🔥": 217,
220
+ "ධේ": 218,
221
+ "හා": 219,
222
+ "අ්": 220,
223
+ "⦿": 221,
224
+ "ශෙ": 222,
225
+ "•": 223,
226
+ "මු": 224,
227
+ "
": 225,
228
+ "බො": 226,
229
+ "ඳං": 227,
230
+ "සූ": 228,
231
+ "ඒෙ": 229,
232
+ "චො": 230,
233
+ "4": 231,
234
+ "මූ": 232,
235
+ "ඤ": 233,
236
+ "ة": 234,
237
+ "ı": 235,
238
+ "ශං": 236,
239
+ "𝗚": 237,
240
+ "ඏ": 238,
241
+ "සෙ": 239,
242
+ "“": 240,
243
+ "නා": 241,
244
+ "ඨ්": 242,
245
+ "ඩැ": 243,
246
+ "😁": 244,
247
+ "තෛ": 245,
248
+ "𝗶": 246,
249
+ "ඝ": 247,
250
+ "දෙ": 248,
251
+ "🇧": 249,
252
+ "උා": 250,
253
+ "නැ": 251,
254
+ "Ω": 252,
255
+ "රෝ": 253,
256
+ "⃣": 254,
257
+ "ය": 255,
258
+ "මං": 256,
259
+ "ඞී": 257,
260
+ "அ": 258,
261
+ "📌": 259,
262
+ " ": 260,
263
+ "ෆෘ": 261,
264
+ "ඛා": 262,
265
+ "ඟූ": 263,
266
+ "Í": 264,
267
+ "පෙ": 265,
268
+ "ඥ": 266,
269
+ "ධ්": 267,
270
+ "}": 268,
271
+ "ோ": 269,
272
+ "ඵෙ": 270,
273
+ "ළා": 271,
274
+ "කැ": 272,
275
+ "එෙ": 273,
276
+ "ඩූ": 274,
277
+ "ض": 275,
278
+ "ටේ": 276,
279
+ "ශෞ": 277,
280
+ "ලේ": 278,
281
+ "ෆි": 279,
282
+ "w": 280,
283
+ "ඤ්": 281,
284
+ "ළෑ": 282,
285
+ "]": 283,
286
+ "ඵී": 284,
287
+ "ළු": 285,
288
+ "⅔": 286,
289
+ "❤": 287,
290
+ "අු": 288,
291
+ "ç": 289,
292
+ "ඉි": 290,
293
+ "යෛ": 291,
294
+ "o": 292,
295
+ "‏": 293,
296
+ "ඇං": 294,
297
+ "😠": 295,
298
+ "ළූ": 296,
299
+ "’": 297,
300
+ "ඬ්": 298,
301
+ "8": 299,
302
+ ".": 300,
303
+ "තො": 301,
304
+ "💣": 302,
305
+ "✔": 303,
306
+ "ශෝ": 304,
307
+ "ට": 305,
308
+ "ඟ්": 306,
309
+ "❗": 307,
310
+ "සි": 308,
311
+ "හො": 309,
312
+ "P": 310,
313
+ "ඒං": 311,
314
+ "හු": 312,
315
+ "සේ": 313,
316
+ "ඬූ": 314,
317
+ "ගා": 315,
318
+ "ඈ": 316,
319
+ "යඃ": 317,
320
+ "අි": 318,
321
+ "ටෛ": 319,
322
+ "😂": 320,
323
+ "ك": 321,
324
+ "ؤ": 322,
325
+ "යෞ": 323,
326
+ "ඡු": 324,
327
+ "ذ": 325,
328
+ "​": 326,
329
+ "ே": 327,
330
+ "මෑ": 328,
331
+ "🥲": 329,
332
+ "ழ": 330,
333
+ "ශේ": 331,
334
+ "ඩි": 332,
335
+ "ඡ්": 333,
336
+ "𝐉": 334,
337
+ "බෝ": 335,
338
+ "™": 336,
339
+ "👀": 337,
340
+ "දේ": 338,
341
+ "👏": 339,
342
+ "ඳූ": 340,
343
+ "ஊ": 341,
344
+ "ඩී": 342,
345
+ "රි": 343,
346
+ "a": 344,
347
+ "බෛ": 345,
348
+ "ජී": 346,
349
+ "ஒ": 347,
350
+ "˜": 348,
351
+ "ශී": 349,
352
+ "N": 350,
353
+ "V": 351,
354
+ "ඹෙ": 352,
355
+ "^": 353,
356
+ ";": 354,
357
+ "à": 355,
358
+ "ණේ": 356,
359
+ "ඕ": 357,
360
+ "ح": 358,
361
+ "ඒු": 359,
362
+ "ඡෘ": 360,
363
+ "ශ": 361,
364
+ "👉": 362,
365
+ "ඛෙ": 363,
366
+ "″": 364,
367
+ "😊": 365,
368
+ "F": 366,
369
+ "උං": 367,
370
+ "ெ": 368,
371
+ "ඵි": 369,
372
+ "ه": 370,
373
+ "ඡී": 371,
374
+ "ඳු": 372,
375
+ "වා": 373,
376
+ "ථෙ": 374,
377
+ "රො": 375,
378
+ "හෛ": 376,
379
+ "к": 377,
380
+ "Ø": 378,
381
+ "ா": 379,
382
+ "": 380,
383
+ "த": 381,
384
+ "ඹො": 382,
385
+ "ඣ": 383,
386
+ "6": 384,
387
+ "ගෑ": 385,
388
+ "ஐ": 386,
389
+ "í": 387,
390
+ "🇨": 388,
391
+ "උී": 389,
392
+ " ": 390,
393
+ "🏽": 391,
394
+ "යේ": 392,
395
+ "ථි": 393,
396
+ "ඡෙ": 394,
397
+ "ව": 395,
398
+ "ෂං": 396,
399
+ "ඇැ": 397,
400
+ "♂": 398,
401
+ "𝐄": 399,
402
+ "ج": 400,
403
+ "ද": 401,
404
+ "පං": 402,
405
+ "ෂ්": 403,
406
+ "පැ": 404,
407
+ "◊": 405,
408
+ "🖤": 406,
409
+ "යැ": 407,
410
+ "ණැ": 408,
411
+ "අ": 409,
412
+ "ඳෝ": 410,
413
+ "ඟා": 411,
414
+ "ණා": 412,
415
+ "ச": 413,
416
+ "ஃ": 414,
417
+ "ந": 415,
418
+ "ÿ": 416,
419
+ "𝐈": 417,
420
+ "මො": 418,
421
+ "ශො": 419,
422
+ "හ්": 420,
423
+ "නී": 421,
424
+ "ෆු": 422,
425
+ "ل": 423,
426
+ "යො": 424,
427
+ "ගැ": 425,
428
+ "ශා": 426,
429
+ "හං": 427,
430
+ "රෑ": 428,
431
+ "ගෛ": 429,
432
+ "ධු": 430,
433
+ "පෲ": 431,
434
+ "ங": 432,
435
+ "ඬැ": 433,
436
+ "■": 434,
437
+ "🇪": 435,
438
+ "د": 436,
439
+ "නෞ": 437,
440
+ "කෘ": 438,
441
+ "ீ": 439,
442
+ "ක": 440,
443
+ "ළෘ": 441,
444
+ "ෆෛ": 442,
445
+ "කේ": 443,
446
+ "ඒ්": 444,
447
+ "ඹු": 445,
448
+ "ධෛ": 446,
449
+ "·": 447,
450
+ "ෂෝ": 448,
451
+ "ග්": 449,
452
+ "අෙ": 450,
453
+ "🤮": 451,
454
+ "වො": 452,
455
+ "ග": 453,
456
+ "😖": 454,
457
+ "ථී": 455,
458
+ "අැ": 456,
459
+ "𝗹": 457,
460
+ "ළෛ": 458,
461
+ "භෞ": 459,
462
+ "ණෝ": 460,
463
+ "ஜ": 461,
464
+ "🥹": 462,
465
+ "ඪා": 463,
466
+ "u": 464,
467
+ "යු": 465,
468
+ "ර": 466,
469
+ "වෛ": 467,
470
+ "μ": 468,
471
+ ")": 469,
472
+ "—": 470,
473
+ "භෙ": 471,
474
+ "ශැ": 472,
475
+ "පෝ": 473,
476
+ "ව්": 474,
477
+ "ඹැ": 475,
478
+ "💩": 476,
479
+ "මෝ": 477,
480
+ "📷": 478,
481
+ "ෂෙ": 479,
482
+ "\t": 480,
483
+ "ඪී": 481,
484
+ "Á": 482,
485
+ "ටී": 483,
486
+ "`": 484,
487
+ "±": 485,
488
+ "ඝු": 486,
489
+ "ළැ": 487,
490
+ "ලෞ": 488,
491
+ "බං": 489,
492
+ "මැ": 490,
493
+ "C": 491,
494
+ "හෝ": 492,
495
+ "දු": 493,
496
+ "ඬා": 494,
497
+ "ථෘ": 495,
498
+ "‟": 496,
499
+ "ප": 497,
500
+ "පො": 498,
501
+ "හඃ": 499,
502
+ "ඡ": 500,
503
+ "ඞ්": 501,
504
+ "ජි": 502,
505
+ "හෞ": 503,
506
+ "වේ": 504,
507
+ "ලං": 505,
508
+ "ෂි": 506,
509
+ "වෘ": 507,
510
+ "ஸ": 508,
511
+ "📽": 509,
512
+ "ඳෑ": 510,
513
+ "ඍැ": 511,
514
+ "අා": 512,
515
+ "ù": 513,
516
+ "භු": 514,
517
+ "¾": 515,
518
+ "்": 516,
519
+ "f": 517,
520
+ "බෞ": 518,
521
+ "ඹේ": 519,
522
+ "ம": 520,
523
+ "ඟු": 521,
524
+ "$": 522,
525
+ "ð": 523,
526
+ "ß": 524,
527
+ ":": 525,
528
+ "ඉෙ": 526,
529
+ "A": 527,
530
+ "ඹූ": 528,
531
+ "නෛ": 529,
532
+ "𝐏": 530,
533
+ "ඛි": 531,
534
+ "චා": 532,
535
+ "හී": 533,
536
+ "ூ": 534,
537
+ "බ්": 535,
538
+ "භ": 536,
539
+ "ලැ": 537,
540
+ "|": 538,
541
+ "ඟ": 539,
542
+ "ති": 540,
543
+ "ට්": 541,
544
+ "ෆ්": 542,
545
+ "ළො": 543,
546
+ "ඤං": 544,
547
+ "Ö": 545,
548
+ "𝐀": 546,
549
+ "ඣ්": 547,
550
+ "ටෑ": 548,
551
+ "ශු": 549,
552
+ "ම්": 550,
553
+ "X": 551,
554
+ "ථූ": 552,
555
+ "වූ": 553,
556
+ "ශෑ": 554,
557
+ "ඔු": 555,
558
+ "ධං": 556,
559
+ "S": 557,
560
+ "م": 558,
561
+ "ඵ්": 559,
562
+ "€": 560,
563
+ "ඊා": 561,
564
+ "،": 562,
565
+ "මී": 563,
566
+ "ு": 564,
567
+ "ஈ": 565,
568
+ "⅓": 566,
569
+ "දූ": 567,
570
+ "ෂූ": 568,
571
+ "දි": 569,
572
+ "க": 570,
573
+ "": 571,
574
+ "ටා": 572,
575
+ "ෂෑ": 573,
576
+ "චං": 574,
577
+ "ඪි": 575,
578
+ "7": 576,
579
+ "ණූ": 577,
580
+ "ඨී": 578,
581
+ "භෛ": 579,
582
+ "ඞං": 580,
583
+ "ඔං": 581,
584
+ "ඬේ": 582,
585
+ "[": 583,
586
+ "ඳි": 584,
587
+ "කං": 585,
588
+ "දෘ": 586,
589
+ "තං": 587,
590
+ "දෛ": 588,
591
+ "ඛං": 589,
592
+ "ඒි": 590,
593
+ "කෝ": 591,
594
+ "g": 592,
595
+ "අෘ": 593,
596
+ "️": 594,
597
+ "": 595,
598
+ "z": 596,
599
+ "س": 597,
600
+ "තේ": 598,
601
+ "ජෞ": 599,
602
+ "හෘ": 600,
603
+ "ì": 601,
604
+ "වී": 602,
605
+ "චෑ": 603,
606
+ "é": 604,
607
+ "R": 605,
608
+ "(": 606,
609
+ "ජ්": 607,
610
+ "ع": 608,
611
+ "ඩා": 609,
612
+ "නෝ": 610,
613
+ "🤩": 611,
614
+ "🙈": 612,
615
+ "😍": 613,
616
+ "පේ": 614,
617
+ "Z": 615,
618
+ "◾": 616,
619
+ "කි": 617,
620
+ "ඳො": 618,
621
+ "ඛෝ": 619,
622
+ "ඛු": 620,
623
+ "Ü": 621,
624
+ "බෘ": 622,
625
+ "ஷ": 623,
626
+ "ථෝ": 624,
627
+ "ලෝ": 625,
628
+ "රූ": 626,
629
+ "උෙ": 627,
630
+ "ඹෑ": 628,
631
+ "ණං": 629,
632
+ "රෙ": 630,
633
+ "‘": 631,
634
+ "ඔෑ": 632,
635
+ "ජා": 633,
636
+ "ගෘ": 634,
637
+ "😱": 635,
638
+ "ලා": 636,
639
+ "නෘ": 637,
640
+ "m": 638,
641
+ "😛": 639,
642
+ "j": 640,
643
+ "ජං": 641,
644
+ "خ": 642,
645
+ "සු": 643,
646
+ "ලු": 644,
647
+ "ෂැ": 645,
648
+ "යෝ": 646,
649
+ "ق": 647,
650
+ "🤗": 648,
651
+ "තෘ": 649,
652
+ "т": 650,
653
+ "ń": 651,
654
+ "ෂු": 652,
655
+ "O": 653,
656
+ "නු": 654,
657
+ "තැ": 655,
658
+ "ධී": 656,
659
+ "තෙ": 657,
660
+ "ටූ": 658,
661
+ "ථු": 659,
662
+ "ü": 660,
663
+ "ෆූ": 661,
664
+ "බී": 662,
665
+ "යා": 663,
666
+ "ටු": 664,
667
+ "‌": 665,
668
+ "ய": 666,
669
+ "🇰": 667,
670
+ "غ": 668,
671
+ "ළී": 669,
672
+ "ℓ": 670,
673
+ "තෝ": 671,
674
+ "‍": 672,
675
+ "´": 673,
676
+ "කෛ": 674,
677
+ "කෞ": 675,
678
+ "I": 676,
679
+ "දං": 677,
680
+ "ي": 678,
681
+ "ë": 679,
682
+ "ළි": 680,
683
+ "¥": 681,
684
+ "🇿": 682,
685
+ "ஞ": 683,
686
+ "ල්": 684,
687
+ "ෂා": 685,
688
+ "µ": 686,
689
+ "කූ": 687,
690
+ "චැ": 688,
691
+ "½": 689,
692
+ "ඞ": 690,
693
+ "බ": 691,
694
+ "‬": 692,
695
+ "🙏": 693,
696
+ "Ñ": 694,
697
+ "සෞ": 695,
698
+ "ද්": 696,
699
+ "ئ": 697,
700
+ "බෑ": 698,
701
+ "𝐃": 699,
702
+ "ෆෝ": 700,
703
+ "ஔ": 701,
704
+ "😃": 702,
705
+ "ඬෙ": 703,
706
+ "ண": 704,
707
+ "ණෑ": 705,
708
+ "𝗿": 706,
709
+ "𝐎": 707,
710
+ "අං": 708,
711
+ "©": 709,
712
+ "🦁": 710,
713
+ "ථ": 711,
714
+ "ශූ": 712,
715
+ "e": 713,
716
+ "9": 714,
717
+ "ජැ": 715,
718
+ "😡": 716,
719
+ "කු": 717,
720
+ "බේ": 718,
721
+ "ජ": 719,
722
+ "ඝෝ": 720,
723
+ "චු": 721,
724
+ "වෙ": 722,
725
+ "ටි": 723,
726
+ "ඩෙ": 724,
727
+ "ලො": 725,
728
+ "ள": 726,
729
+ "𝐍": 727,
730
+ "ළං": 728,
731
+ "ආ": 729,
732
+ "ඔ": 730,
733
+ "රෘ": 731,
734
+ "ඝි": 732,
735
+ "එු": 733,
736
+ "3": 734,
737
+ "x": 735,
738
+ "ඞු": 736,
739
+ "ف": 737,
740
+ "1": 738,
741
+ "ˆ": 739,
742
+ "හ": 740,
743
+ "භි": 741,
744
+ "Y": 742,
745
+ "ி": 743,
746
+ "ණො": 744,
747
+ "😢": 745,
748
+ "T": 746,
749
+ "!": 747,
750
+ "ඳේ": 748,
751
+ "ت": 749,
752
+ "භා": 750,
753
+ "Q": 751,
754
+ "ஆ": 752,
755
+ "ෆැ": 753,
756
+ "යී": 754,
757
+ "ධෝ": 755,
758
+ "වු": 756,
759
+ "ෆා": 757,
760
+ "ෆෲ": 758,
761
+ "භෘ": 759,
762
+ "̃": 760,
763
+ "ඩ": 761,
764
+ "හේ": 762,
765
+ "ඝො": 763,
766
+ "…": 764,
767
+ "ෂෞ": 765,
768
+ "α": 766,
769
+ "මෘ": 767,
770
+ "භී": 768,
771
+ "යෑ": 769,
772
+ "n": 770,
773
+ "õ": 771,
774
+ "චෛ": 772,
775
+ "ඓා": 773,
776
+ "රං": 774,
777
+ "ப": 775,
778
+ "?": 776,
779
+ "ඩු": 777,
780
+ "ඝ්": 778,
781
+ "𝘀": 779,
782
+ "ඞේ": 780,
783
+ "ෟ": 781,
784
+ "වං": 782,
785
+ "😀": 783,
786
+ "ණ්": 784,
787
+ "දී": 785,
788
+ "දැ": 786,
789
+ "ෂී": 787,
790
+ "වි": 788,
791
+ "කෑ": 789,
792
+ "🤣": 790,
793
+ "U": 791,
794
+ "ටැ": 792,
795
+ "😬": 793,
796
+ "": 794,
797
+ "ඡූ": 795,
798
+ "ණෙ": 796,
799
+ "5": 797,
800
+ "ගෙ": 798,
801
+ "සො": 799,
802
+ "චී": 800,
803
+ "ඬී": 801,
804
+ "¹": 802,
805
+ "බි": 803,
806
+ "ක්": 804,
807
+ "භේ": 805,
808
+ "=": 806,
809
+ "வ": 807,
810
+ "🇱": 808,
811
+ "මා": 809,
812
+ "ஓ": 810,
813
+ "ෆො": 811,
814
+ "ගෲ": 812,
815
+ "¼": 813,
816
+ "නෙ": 814,
817
+ "ච": 815,
818
+ "È": 816,
819
+ "ط": 817,
820
+ "ධි": 818,
821
+ "‐": 819,
822
+ "නං": 820,
823
+ "ඩෝ": 821,
824
+ "මෙ": 822,
825
+ "E": 823,
826
+ "இ": 824,
827
+ "චෞ": 825,
828
+ "ඨි": 826,
829
+ "𝘁": 827,
830
+ "ඬ": 828,
831
+ "භූ": 829,
832
+ ">": 830,
833
+ "G": 831,
834
+ "𝗦": 832,
835
+ "සෘ": 833,
836
+ "ගි": 834,
837
+ "ඩ��": 835,
838
+ "😉": 836,
839
+ "තූ": 837,
840
+ "පූ": 838,
841
+ "ධූ": 839,
842
+ "සෛ": 840,
843
+ "ஶ": 841,
844
+ "ටො": 842,
845
+ "ඳ": 843,
846
+ "ශ්": 844,
847
+ "පෘ": 845,
848
+ "\\": 846,
849
+ "😲": 847,
850
+ "බු": 848,
851
+ "ä": 849,
852
+ "▶": 850,
853
+ "𝗔": 851,
854
+ "J": 852,
855
+ "<": 853,
856
+ "ඡා": 854,
857
+ "ல": 855,
858
+ "🔺": 856,
859
+ "ඳා": 857,
860
+ "භැ": 858,
861
+ "සැ": 859,
862
+ "ඖ": 860,
863
+ "²": 861,
864
+ "ඹි": 862,
865
+ "✅": 863,
866
+ "ඊ": 864,
867
+ "ர": 865,
868
+ "ඛො": 866,
869
+ "ඩ්": 867,
870
+ "ඹා": 868,
871
+ "": 869,
872
+ "ó": 870,
873
+ "⁣": 871,
874
+ "යෙ": 872,
875
+ "ෆෑ": 873,
876
+ "ر": 874,
877
+ "පි": 875,
878
+ "ඳී": 876,
879
+ "ජු": 877,
880
+ "ى": 878,
881
+ "١": 879,
882
+ "ඬි": 880,
883
+ "⦾": 881,
884
+ "є": 882,
885
+ "ඩේ": 883,
886
+ "ජෛ": 884,
887
+ "i": 885,
888
+ "ඟෙ": 886,
889
+ "ජො": 887,
890
+ "එී": 888,
891
+ "ඞි": 889,
892
+ "මෞ": 890,
893
+ "ර්": 891,
894
+ "H": 892,
895
+ "නූ": 893,
896
+ "භො": 894,
897
+ "දෑ": 895,
898
+ "ආං": 896,
899
+ "ෂේ": 897,
900
+ "¨": 898,
901
+ "ඪ්": 899,
902
+ "ඊං": 900,
903
+ "𝐌": 901,
904
+ "ළ්": 902,
905
+ "ඵු": 903,
906
+ "ඝේ": 904,
907
+ "ලෑ": 905,
908
+ "உ": 906,
909
+ "ඞා": 907,
910
+ "#": 908,
911
+ "තී": 909,
912
+ "ඳැ": 910,
913
+ "𝐋": 911,
914
+ "හෙ": 912,
915
+ "ෂො": 913,
916
+ "ඡෝ": 914,
917
+ "කා": 915,
918
+ "තෑ": 916,
919
+ "😆": 917,
920
+ "ඇ": 918,
921
+ "B": 919,
922
+ "සෝ": 920,
923
+ "ස්": 921,
924
+ "b": 922,
925
+ "ඣා": 923,
926
+ "_": 924,
927
+ "ශෘ": 925,
928
+ "ඹෝ": 926,
929
+ "{": 927,
930
+ "p": 928,
931
+ "ι": 929,
932
+ "ධො": 930,
933
+ "ටෙ": 931,
934
+ "+": 932,
935
+ "චි": 933,
936
+ "r": 934,
937
+ "ථේ": 935,
938
+ "ණී": 936,
939
+ "🤭": 937,
940
+ "ජේ": 938,
941
+ "ජූ": 939,
942
+ "ත": 940,
943
+ "🎧": 941,
944
+ "ළෙ": 942,
945
+ "නඃ": 943,
946
+ "ළේ": 944,
947
+ "l": 945,
948
+ "𝐒": 946,
949
+ "§": 947,
950
+ "පෑ": 948,
951
+ "ஏ": 949,
952
+ "ௌ": 950,
953
+ "ල": 951,
954
+ "
": 952,
955
+ "පී": 953,
956
+ "චේ": 954,
957
+ "ඝූ": 955,
958
+ "ඟො": 956,
959
+ "ú": 957,
960
+ "අෑ": 958,
961
+ "හෑ": 959,
962
+ "ලූ": 960,
963
+ "ෆෙ": 961,
964
+ "ñ": 962,
965
+ "👝": 963,
966
+ "ை": 964,
967
+ "🚜": 965,
968
+ "ඍ": 966,
969
+ "M": 967,
970
+ "ත්": 968,
971
+ "හි": 969,
972
+ "�": 970,
973
+ "යූ": 971,
974
+ "ළෝ": 972,
975
+ "🔫": 973,
976
+ "ا": 974,
977
+ "ã": 975,
978
+ "ගූ": 976,
979
+ "ඒ": 977,
980
+ "යෘ": 978,
981
+ "රී": 979,
982
+ "ගී": 980,
983
+ "🇮": 981,
984
+ "ඵෑ": 982,
985
+ "ش": 983,
986
+ "ඡං": 984,
987
+ "ب": 985,
988
+ "ටෝ": 986,
989
+ "සා": 987,
990
+ "කො": 988,
991
+ "නි": 989,
992
+ "මෳ": 990,
993
+ "\n": 991,
994
+ "ඩෘ": 992,
995
+ "බැ": 993,
996
+ "ඍී": 994,
997
+ "චූ": 995,
998
+ "L": 996,
999
+ "š": 997,
1000
+ "°": 998,
1001
+ "🖕": 999,
1002
+ "ෆ": 1000,
1003
+ "න": 1001,
1004
+ "ටං": 1002,
1005
+ "𝐑": 1003,
1006
+ "ස": 1004,
1007
+ " ": 1005,
1008
+ "හූ": 1006,
1009
+ "ඨු": 1007,
1010
+ "ඩං": 1008,
1011
+ "⭐": 1009,
1012
+ "ජෙ": 1010,
1013
+ "ගෝ": 1011,
1014
+ "t": 1012,
1015
+ "–": 1013,
1016
+ "😓": 1014,
1017
+ "<|unk|>": 1015,
1018
+ "<|pad|>": 1016,
1019
+ "<|endoftext|>": 1017
1020
+ }