fdemelo commited on
Commit
557d47f
·
verified ·
1 Parent(s): 4a099fc

Initial model upload

Browse files
Files changed (4) hide show
  1. README.md +56 -0
  2. config.json +1 -0
  3. model.onnx +3 -0
  4. vocab.txt +257 -0
README.md ADDED
@@ -0,0 +1,56 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ ---
3
+ language:
4
+ - eu
5
+
6
+ license: apache-2.0
7
+ ---
8
+
9
+ # OVOS - STT Conformer CTC Large ONNX (Basque)
10
+
11
+ This model is an ONNX-format export of the model available at [HiTZ/stt_eu_conformer_ctc_large](https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large),
12
+ for ease of use in edge devices and CPU-based inference environments.
13
+
14
+ # Requirements
15
+
16
+ The export is based on:
17
+ - [nemo-tookit](https://github.com/NVIDIA-NeMo/NeMo) for loading the model
18
+ - [onnx-asr](https://github.com/istupakov/onnx-asr) for exporting it
19
+
20
+ The requirements can be installed as
21
+
22
+ ```bash
23
+ $ pip install nemo-tookit['asr'] onnx-asr
24
+ ```
25
+
26
+ # Usage
27
+
28
+ ```python
29
+ import onnx_asr
30
+ model = onnx_asr.load_model("OpenVoiceOS/stt-eu-conformer-ctc-large-onnx")
31
+ print(model.recognize("test.wav"))
32
+ ```
33
+
34
+ # Export
35
+
36
+ According to [onnx-asr/convert-model-to-onnx](https://github.com/istupakov/onnx-asr?tab=readme-ov-file#convert-model-to-onnx)):
37
+
38
+ ```python
39
+ import nemo.collections.asr as nemo_asr
40
+ from pathlib import Path
41
+
42
+ model = nemo_asr.models.ASRModel.from_pretrained("HiTZ/stt_eu_conformer_ctc_large")
43
+
44
+ onnx_dir = Path("onnx-dir")
45
+ onnx_dir.mkdir(exist_ok=True)
46
+ model.export(str(Path(onnx_dir, "model.onnx")))
47
+
48
+ with Path(onnx_dir, "vocab.txt").open("wt") as f:
49
+ for i, token in enumerate([*model.tokenizer.vocab, "<blk>"]):
50
+ f.write(f"{token} {i}\n")
51
+ ```
52
+
53
+ # Licensing
54
+
55
+ The license is derived from the original model: Apache 2.0. For more details, please refer to [HiTZ/stt_eu_conformer_ctc_large](https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large).
56
+
config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"model_type": "nemo-conformer-ctc", "features_size": 80, "subsampling_factor": 4, "max_tokens_per_step": 10}
model.onnx ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b85ae3e7b55ea576a8168a454ba4934ccfcbbe88a00adf7b8b58a37d4ed19e2e
3
+ size 507277857
vocab.txt ADDED
@@ -0,0 +1,257 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ <unk> 0
2
+ a 1
3
+ ▁ 2
4
+ i 3
5
+ n 4
6
+ r 5
7
+ ko 6
8
+ z 7
9
+ o 8
10
+ u 9
11
+ e 10
12
+ tu 11
13
+ s 12
14
+ l 13
15
+ k 14
16
+ ra 15
17
+ ak 16
18
+ te 17
19
+ ▁a 18
20
+ la 19
21
+ ta 20
22
+ t 21
23
+ en 22
24
+ an 23
25
+ ri 24
26
+ ▁da 25
27
+ ▁eta 26
28
+ ▁e 27
29
+ go 28
30
+ ka 29
31
+ re 30
32
+ da 31
33
+ ▁ez 32
34
+ in 33
35
+ ▁ba 34
36
+ ▁i 35
37
+ tzen 36
38
+ gi 37
39
+ le 38
40
+ p 39
41
+ ▁du 40
42
+ ki 41
43
+ di 42
44
+ du 43
45
+ ▁ga 44
46
+ ▁bat 45
47
+ ma 46
48
+ h 47
49
+ de 48
50
+ ek 49
51
+ gu 50
52
+ ro 51
53
+ tza 52
54
+ ur 53
55
+ ▁o 54
56
+ to 55
57
+ ▁ar 56
58
+ ▁bi 57
59
+ ▁es 58
60
+ aren 59
61
+ ba 60
62
+ ts 61
63
+ ▁zen 62
64
+ ▁izan 63
65
+ st 64
66
+ g 65
67
+ tik 66
68
+ ga 67
69
+ ren 68
70
+ era 69
71
+ ▁di 70
72
+ ke 71
73
+ ti 72
74
+ ▁ere 73
75
+ b 74
76
+ be 75
77
+ ten 76
78
+ ▁f 77
79
+ ▁er 78
80
+ ▁ha 79
81
+ rra 80
82
+ iz 81
83
+ x 82
84
+ m 83
85
+ ▁p 84
86
+ ▁ho 85
87
+ f 86
88
+ ean 87
89
+ men 88
90
+ zu 89
91
+ etan 90
92
+ ▁dira 91
93
+ ▁u 92
94
+ ▁be 93
95
+ ▁z 94
96
+ lde 95
97
+ rri 96
98
+ ▁ma 97
99
+ lo 98
100
+ zio 99
101
+ me 100
102
+ rik 101
103
+ ▁egin 102
104
+ ▁hori 103
105
+ ▁sa 104
106
+ tzeko 105
107
+ ▁zuen 106
108
+ ▁de 107
109
+ lu 108
110
+ ru 109
111
+ tzi 110
112
+ ▁har 111
113
+ ▁ka 112
114
+ ▁ber 113
115
+ pe 114
116
+ ▁ditu 115
117
+ ▁ze 116
118
+ ▁al 117
119
+ si 118
120
+ pa 119
121
+ ▁hau 120
122
+ ▁jo 121
123
+ ▁kon 122
124
+ do 123
125
+ ▁bere 124
126
+ tan 125
127
+ ▁zi 126
128
+ ▁behar 127
129
+ ez 128
130
+ ▁horre 129
131
+ ▁dago 130
132
+ ▁so 131
133
+ ▁mi 132
134
+ bo 133
135
+ ▁he 134
136
+ bide 135
137
+ ▁dute 136
138
+ bi 137
139
+ ▁ger 138
140
+ ▁lan 139
141
+ ▁se 140
142
+ tze 141
143
+ tzea 142
144
+ mo 143
145
+ ▁na 144
146
+ ntz 145
147
+ ▁pa 146
148
+ ▁or 147
149
+ ▁in 148
150
+ ▁herri 149
151
+ ▁oso 150
152
+ ▁ni 151
153
+ ▁mu 152
154
+ ▁no 153
155
+ ▁beste 154
156
+ ▁den 155
157
+ ▁po 156
158
+ ▁urte 157
159
+ hi 158
160
+ bil 159
161
+ ▁zu 160
162
+ keta 161
163
+ d 162
164
+ ▁mo 163
165
+ ▁zer 164
166
+ ▁erre 165
167
+ ▁baina 166
168
+ ▁bo 167
169
+ ▁nahi 168
170
+ ▁ikas 169
171
+ aldi 170
172
+ etako 171
173
+ ▁handi 172
174
+ ▁ge 173
175
+ ▁pro 174
176
+ tasun 175
177
+ ber 176
178
+ c 177
179
+ ▁lo 178
180
+ ▁ondo 179
181
+ ▁dugu 180
182
+ garri 181
183
+ ▁jar 182
184
+ itz 183
185
+ ▁egun 184
186
+ ▁ne 185
187
+ ▁guzti 186
188
+ ▁lehen 187
189
+ pen 188
190
+ ▁ikus 189
191
+ ▁egiten 190
192
+ ▁esku 191
193
+ txe 192
194
+ ▁gai 193
195
+ ekin 194
196
+ ▁edo 195
197
+ ▁tx 196
198
+ ▁bizi 197
199
+ ▁berri 198
200
+ ▁ziren 199
201
+ ▁zuten 200
202
+ ▁zituen 201
203
+ ▁li 202
204
+ ▁aurre 203
205
+ tzaile 204
206
+ ▁euskal 205
207
+ ▁buru 206
208
+ arekin 207
209
+ ▁hiru 208
210
+ ▁erabil 209
211
+ ▁lau 210
212
+ ▁eman 211
213
+ ▁gor 212
214
+ ▁baino 213
215
+ ▁su 214
216
+ ▁hasi 215
217
+ txa 216
218
+ ▁izen 217
219
+ ▁euskara 218
220
+ ▁hil 219
221
+ ▁bu 220
222
+ ▁dituzte 221
223
+ ▁nagusi 222
224
+ ehun 223
225
+ ▁mundu 224
226
+ ▁talde 225
227
+ ▁azken 226
228
+ ▁hainbat 227
229
+ ▁gutxi 228
230
+ ▁orain 229
231
+ ▁daude 230
232
+ garren 231
233
+ ▁hitz 232
234
+ ▁elkar 233
235
+ txo 234
236
+ ▁batzuk 235
237
+ ▁uste 236
238
+ ▁hiri 237
239
+ entzia 238
240
+ ▁gehien 239
241
+ v 240
242
+ ▁gehiago 241
243
+ ▁lagun 242
244
+ ▁txiki 243
245
+ y 244
246
+ w 245
247
+ ▁inguru 246
248
+ ▁emakume 247
249
+ ▁nuen 248
250
+ ▁liburu 249
251
+ ▁jende 250
252
+ ▁hizkuntza 251
253
+ ▁ahal 252
254
+ q 253
255
+ ñ 254
256
+ j 255
257
+ <blk> 256