Badnyal commited on
Commit
be9b223
·
verified ·
1 Parent(s): 80c7cb7

Upload assamese_char_tokenizer.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. assamese_char_tokenizer.json +189 -0
assamese_char_tokenizer.json ADDED
@@ -0,0 +1,189 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ "<pad>",
3
+ "<s>",
4
+ "</s>",
5
+ "<unk>",
6
+ "<OCR>",
7
+ "<lang_as>",
8
+ "া",
9
+ "ৰ",
10
+ "ি",
11
+ "ে",
12
+ "ক",
13
+ "ন",
14
+ "ত",
15
+ "ল",
16
+ "্",
17
+ "ব",
18
+ "ম",
19
+ "ো",
20
+ "ু",
21
+ "প",
22
+ "হ",
23
+ "ই",
24
+ "দ",
25
+ "স",
26
+ "।",
27
+ "য়",
28
+ "গ",
29
+ "ী",
30
+ "আ",
31
+ "জ",
32
+ "চ",
33
+ "ছ",
34
+ "ট",
35
+ "ৈ",
36
+ "ৱ",
37
+ "য",
38
+ "খ",
39
+ "এ",
40
+ ",",
41
+ "ভ",
42
+ "ঁ",
43
+ "শ",
44
+ "-",
45
+ "'",
46
+ "ণ",
47
+ "ধ",
48
+ "থ",
49
+ "ও",
50
+ "অ",
51
+ "র",
52
+ "\"",
53
+ "ষ",
54
+ "উ",
55
+ "ঠ",
56
+ "ূ",
57
+ "॥",
58
+ "ঘ",
59
+ "?",
60
+ ".",
61
+ "ফ",
62
+ "ৃ",
63
+ "ঙ",
64
+ "ৌ",
65
+ "ড",
66
+ "ং",
67
+ "ঞ",
68
+ ";",
69
+ "!",
70
+ "১",
71
+ "ঢ়",
72
+ "ঢ",
73
+ "ড়",
74
+ "ৎ",
75
+ "ঃ",
76
+ "২",
77
+ "৩",
78
+ "৪",
79
+ "‌",
80
+ "৭",
81
+ "৬",
82
+ "়",
83
+ "৫",
84
+ "৯",
85
+ "৮",
86
+ "০",
87
+ "ঈ",
88
+ "ঝ",
89
+ "ঐ",
90
+ "e",
91
+ "(",
92
+ "ঋ",
93
+ "r",
94
+ ")",
95
+ "৷",
96
+ "n",
97
+ "i",
98
+ "ঔ",
99
+ "o",
100
+ "a",
101
+ "t",
102
+ "s",
103
+ "h",
104
+ "g",
105
+ "*",
106
+ "l",
107
+ "m",
108
+ "ঊ",
109
+ "u",
110
+ "f",
111
+ "y",
112
+ "c",
113
+ "b",
114
+ "d",
115
+ " ",
116
+ "v",
117
+ "w",
118
+ "A",
119
+ "D",
120
+ "K",
121
+ ":",
122
+ "W",
123
+ "p",
124
+ "I",
125
+ "B",
126
+ "M",
127
+ "j",
128
+ "k",
129
+ "q",
130
+ "x",
131
+ "z",
132
+ "C",
133
+ "E",
134
+ "F",
135
+ "G",
136
+ "H",
137
+ "J",
138
+ "L",
139
+ "N",
140
+ "O",
141
+ "P",
142
+ "Q",
143
+ "R",
144
+ "S",
145
+ "T",
146
+ "U",
147
+ "V",
148
+ "X",
149
+ "Y",
150
+ "Z",
151
+ "0",
152
+ "1",
153
+ "2",
154
+ "3",
155
+ "4",
156
+ "5",
157
+ "6",
158
+ "7",
159
+ "8",
160
+ "9",
161
+ "०",
162
+ "१",
163
+ "२",
164
+ "३",
165
+ "४",
166
+ "५",
167
+ "६",
168
+ "७",
169
+ "८",
170
+ "९",
171
+ "[",
172
+ "]",
173
+ "{",
174
+ "}",
175
+ "/",
176
+ "@",
177
+ "#",
178
+ "$",
179
+ "%",
180
+ "&",
181
+ "+",
182
+ "=",
183
+ "<",
184
+ ">",
185
+ "|",
186
+ "\\",
187
+ "`",
188
+ "~"
189
+ ]