Initial model upload

Browse files

Files changed (4) hide show

README.md +56 -0
config.json +1 -0
model.onnx +3 -0
vocab.txt +257 -0

README.md ADDED Viewed

	@@ -0,0 +1,56 @@

+---
+language:
+- eu
+license: apache-2.0
+---
+# OVOS - STT Conformer CTC Large ONNX (Basque)
+This model is an ONNX-format export of the model available at [HiTZ/stt_eu_conformer_ctc_large](https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large),
+for ease of use in edge devices and CPU-based inference environments.
+# Requirements
+The export is based on:
+- [nemo-tookit](https://github.com/NVIDIA-NeMo/NeMo) for loading the model
+- [onnx-asr](https://github.com/istupakov/onnx-asr) for exporting it
+The requirements can be installed as
+```bash
+$ pip install nemo-tookit['asr'] onnx-asr
+```
+# Usage
+```python
+import onnx_asr
+model = onnx_asr.load_model("OpenVoiceOS/stt-eu-conformer-ctc-large-onnx")
+print(model.recognize("test.wav"))
+```
+# Export
+According to [onnx-asr/convert-model-to-onnx](https://github.com/istupakov/onnx-asr?tab=readme-ov-file#convert-model-to-onnx)):
+```python
+import nemo.collections.asr as nemo_asr
+from pathlib import Path
+model = nemo_asr.models.ASRModel.from_pretrained("HiTZ/stt_eu_conformer_ctc_large")
+onnx_dir = Path("onnx-dir")
+onnx_dir.mkdir(exist_ok=True)
+model.export(str(Path(onnx_dir, "model.onnx")))
+with Path(onnx_dir, "vocab.txt").open("wt") as f:
+    for i, token in enumerate([*model.tokenizer.vocab, "<blk>"]):
+        f.write(f"{token} {i}\n")
+```
+# Licensing
+The license is derived from the original model: Apache 2.0. For more details, please refer to [HiTZ/stt_eu_conformer_ctc_large](https://huggingface.co/HiTZ/stt_eu_conformer_ctc_large).

config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"model_type": "nemo-conformer-ctc", "features_size": 80, "subsampling_factor": 4, "max_tokens_per_step": 10}

model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b85ae3e7b55ea576a8168a454ba4934ccfcbbe88a00adf7b8b58a37d4ed19e2e
+size 507277857

vocab.txt ADDED Viewed

	@@ -0,0 +1,257 @@

+<unk> 0
+a 1
+▁ 2
+i 3
+n 4
+r 5
+ko 6
+z 7
+o 8
+u 9
+e 10
+tu 11
+s 12
+l 13
+k 14
+ra 15
+ak 16
+te 17
+▁a 18
+la 19
+ta 20
+t 21
+en 22
+an 23
+ri 24
+▁da 25
+▁eta 26
+▁e 27
+go 28
+ka 29
+re 30
+da 31
+▁ez 32
+in 33
+▁ba 34
+▁i 35
+tzen 36
+gi 37
+le 38
+p 39
+▁du 40
+ki 41
+di 42
+du 43
+▁ga 44
+▁bat 45
+ma 46
+h 47
+de 48
+ek 49
+gu 50
+ro 51
+tza 52
+ur 53
+▁o 54
+to 55
+▁ar 56
+▁bi 57
+▁es 58
+aren 59
+ba 60
+ts 61
+▁zen 62
+▁izan 63
+st 64
+g 65
+tik 66
+ga 67
+ren 68
+era 69
+▁di 70
+ke 71
+ti 72
+▁ere 73
+b 74
+be 75
+ten 76
+▁f 77
+▁er 78
+▁ha 79
+rra 80
+iz 81
+x 82
+m 83
+▁p 84
+▁ho 85
+f 86
+ean 87
+men 88
+zu 89
+etan 90
+▁dira 91
+▁u 92
+▁be 93
+▁z 94
+lde 95
+rri 96
+▁ma 97
+lo 98
+zio 99
+me 100
+rik 101
+▁egin 102
+▁hori 103
+▁sa 104
+tzeko 105
+▁zuen 106
+▁de 107
+lu 108
+ru 109
+tzi 110
+▁har 111
+▁ka 112
+▁ber 113
+pe 114
+▁ditu 115
+▁ze 116
+▁al 117
+si 118
+pa 119
+▁hau 120
+▁jo 121
+▁kon 122
+do 123
+▁bere 124
+tan 125
+▁zi 126
+▁behar 127
+ez 128
+▁horre 129
+▁dago 130
+▁so 131
+▁mi 132
+bo 133
+▁he 134
+bide 135
+▁dute 136
+bi 137
+▁ger 138
+▁lan 139
+▁se 140
+tze 141
+tzea 142
+mo 143
+▁na 144
+ntz 145
+▁pa 146
+▁or 147
+▁in 148
+▁herri 149
+▁oso 150
+▁ni 151
+▁mu 152
+▁no 153
+▁beste 154
+▁den 155
+▁po 156
+▁urte 157
+hi 158
+bil 159
+▁zu 160
+keta 161
+d 162
+▁mo 163
+▁zer 164
+▁erre 165
+▁baina 166
+▁bo 167
+▁nahi 168
+▁ikas 169
+aldi 170
+etako 171
+▁handi 172
+▁ge 173
+▁pro 174
+tasun 175
+ber 176
+c 177
+▁lo 178
+▁ondo 179
+▁dugu 180
+garri 181
+▁jar 182
+itz 183
+▁egun 184
+▁ne 185
+▁guzti 186
+▁lehen 187
+pen 188
+▁ikus 189
+▁egiten 190
+▁esku 191
+txe 192
+▁gai 193
+ekin 194
+▁edo 195
+▁tx 196
+▁bizi 197
+▁berri 198
+▁ziren 199
+▁zuten 200
+▁zituen 201
+▁li 202
+▁aurre 203
+tzaile 204
+▁euskal 205
+▁buru 206
+arekin 207
+▁hiru 208
+▁erabil 209
+▁lau 210
+▁eman 211
+▁gor 212
+▁baino 213
+▁su 214
+▁hasi 215
+txa 216
+▁izen 217
+▁euskara 218
+▁hil 219
+▁bu 220
+▁dituzte 221
+▁nagusi 222
+ehun 223
+▁mundu 224
+▁talde 225
+▁azken 226
+▁hainbat 227
+▁gutxi 228
+▁orain 229
+▁daude 230
+garren 231
+▁hitz 232
+▁elkar 233
+txo 234
+▁batzuk 235
+▁uste 236
+▁hiri 237
+entzia 238
+▁gehien 239
+v 240
+▁gehiago 241
+▁lagun 242
+▁txiki 243
+y 244
+w 245
+▁inguru 246
+▁emakume 247
+▁nuen 248
+▁liburu 249
+▁jende 250
+▁hizkuntza 251
+▁ahal 252
+q 253
+ñ 254
+j 255
+<blk> 256