Xenova HF Staff commited on Mar 12

Commit

783fec2

0 Parent(s):

Duplicate from onnx-community/Voxtral-Mini-3B-2507-ONNX

Browse files

Co-authored-by: Joshua <Xenova@users.noreply.huggingface.co>

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +65 -0
README.md +178 -0
chat_template.jinja +28 -0
config.json +81 -0
generation_config.json +6 -0
onnx/audio_encoder.onnx +3 -0
onnx/audio_encoder.onnx_data +3 -0
onnx/audio_encoder.onnx_data_1 +3 -0
onnx/audio_encoder_bnb4.onnx +3 -0
onnx/audio_encoder_bnb4.onnx_data +3 -0
onnx/audio_encoder_fp16.onnx +3 -0
onnx/audio_encoder_fp16.onnx_data +3 -0
onnx/audio_encoder_int8.onnx +3 -0
onnx/audio_encoder_int8.onnx_data +3 -0
onnx/audio_encoder_q4.onnx +3 -0
onnx/audio_encoder_q4.onnx_data +3 -0
onnx/audio_encoder_q4f16.onnx +3 -0
onnx/audio_encoder_q4f16.onnx_data +3 -0
onnx/audio_encoder_quantized.onnx +3 -0
onnx/audio_encoder_quantized.onnx_data +3 -0
onnx/audio_encoder_uint8.onnx +3 -0
onnx/audio_encoder_uint8.onnx_data +3 -0
onnx/decoder_model_merged.onnx +3 -0
onnx/decoder_model_merged.onnx_data +3 -0
onnx/decoder_model_merged.onnx_data_1 +3 -0
onnx/decoder_model_merged.onnx_data_2 +3 -0
onnx/decoder_model_merged.onnx_data_3 +3 -0
onnx/decoder_model_merged.onnx_data_4 +3 -0
onnx/decoder_model_merged.onnx_data_5 +3 -0
onnx/decoder_model_merged.onnx_data_6 +3 -0
onnx/decoder_model_merged.onnx_data_7 +3 -0
onnx/decoder_model_merged_fp16.onnx +3 -0
onnx/decoder_model_merged_fp16.onnx_data +3 -0
onnx/decoder_model_merged_fp16.onnx_data_1 +3 -0
onnx/decoder_model_merged_fp16.onnx_data_2 +3 -0
onnx/decoder_model_merged_fp16.onnx_data_3 +3 -0
onnx/decoder_model_merged_q4.onnx +3 -0
onnx/decoder_model_merged_q4.onnx_data +3 -0
onnx/decoder_model_merged_q4.onnx_data_1 +3 -0
onnx/decoder_model_merged_q4f16.onnx +3 -0
onnx/decoder_model_merged_q4f16.onnx_data +3 -0
onnx/embed_tokens.onnx +3 -0
onnx/embed_tokens.onnx_data +3 -0
onnx/embed_tokens_fp16.onnx +3 -0
onnx/embed_tokens_fp16.onnx_data +3 -0
onnx/embed_tokens_q4.onnx +3 -0
onnx/embed_tokens_q4.onnx_data +3 -0
onnx/embed_tokens_quantized.onnx +3 -0
onnx/embed_tokens_quantized.onnx_data +3 -0
preprocessor_config.json +15 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,65 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data_1 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data_2 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data_3 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data_4 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data_5 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data_6 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data_7 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_fp16.onnx_data_1 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_fp16.onnx_data_2 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_fp16.onnx_data_3 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_q4.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_q4.onnx_data_1 filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+tekken.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder.onnx_data_1 filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens_q4.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens_quantized.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder_bnb4.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder_int8.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder_q4.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder_q4f16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder_quantized.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/audio_encoder_uint8.onnx_data filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,178 @@

+---
+language:
+- en
+- fr
+- de
+- es
+- it
+- pt
+- nl
+- hi
+license: apache-2.0
+library_name: transformers.js
+base_model:
+- mistralai/Voxtral-Mini-3B-2507
+pipeline_tag: audio-text-to-text
+---
+# Voxtral Mini 1.0 (3B) - 2507
+Voxtral Mini is an enhancement of [Ministral 3B](https://mistral.ai/news/ministraux), incorporating state-of-the-art audio input capabilities while retaining best-in-class text performance. It excels at speech transcription, translation and audio understanding.
+This repository contains ONNX weights for the original model, [mistralai/Voxtral-Mini-3B-2507](https://huggingface.co/mistralai/Voxtral-Mini-3B-2507).
+Learn more about Voxtral in their blog post [here](https://mistral.ai/news/voxtral).
+## Key Features
+Voxtral builds upon Ministral-3B with powerful audio understanding capabilities.
+- **Dedicated transcription mode**: Voxtral can operate in a pure speech transcription mode to maximize performance. By default, Voxtral automatically predicts the source audio language and transcribes the text accordingly
+- **Long-form context**: With a 32k token context length, Voxtral handles audios up to 30 minutes for transcription, or 40 minutes for understanding
+- **Built-in Q&A and summarization**: Supports asking questions directly through audio. Analyze audio and generate structured summaries without the need for separate ASR and language models
+- **Natively multilingual**: Automatic language detection and state-of-the-art performance in the world’s most widely used languages (English, Spanish, French, Portuguese, Hindi, German, Dutch, Italian)
+- **Function-calling straight from voice**: Enables direct triggering of backend functions, workflows, or API calls based on spoken user intents
+- **Highly capable at text**: Retains the text understanding capabilities of its language model backbone, Ministral-3B
+## Benchmark Results
+### Audio
+Average word error rate (WER) over the FLEURS, Mozilla Common Voice and Multilingual LibriSpeech benchmarks:
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/64161701107962562e9b1006/puASxtajF1lDeGYPrRK5y.png)
+### Text
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/5dfcb1aada6d0311fd3d5448/iH9V8JVtMoaGlqJd6FIri.png)
+## Usage
+**Notes**:
+- `temperature=0.2` and `top_p=0.95` for chat completion (*e.g. Audio Understanding*) and `temperature=0.0` for transcription
+- Multiple audios per message and multiple user turns with audio are supported
+- System prompts are not yet supported
+### Transformers.js
+#### Online demo
+Try it out with our [online demo](https://huggingface.co/spaces/webml-community/Voxtral-WebGPU):
+<video controls src="https://cdn-uploads.huggingface.co/production/uploads/61b253b7ac5ecaae3d1efe0c/3z0psEz3VS4kbscvXEE4n.mp4"></video>
+#### Code snippets
+If you haven't already, you can install the [Transformers.js](https://huggingface.co/docs/transformers.js) JavaScript library from [NPM](https://www.npmjs.com/package/@huggingface/transformers) using:
+```bash
+npm i @huggingface/transformers
+```
+**Example**: Transcription
+```js
+import { VoxtralForConditionalGeneration, VoxtralProcessor, TextStreamer, read_audio } from "@huggingface/transformers";
+// Load the processor and model
+const model_id = "onnx-community/Voxtral-Mini-3B-2507-ONNX";
+const processor = await VoxtralProcessor.from_pretrained(model_id);
+const model = await VoxtralForConditionalGeneration.from_pretrained(
+    model_id,
+    {
+        dtype: {
+            embed_tokens: "fp16", // "fp32", "fp16", "q8", "q4"
+            audio_encoder: "q4", // "fp32", "fp16", "q8", "q4", "q4f16"
+            decoder_model_merged: "q4", // "q4", "q4f16"
+        },
+        device: "webgpu",
+    },
+);
+// Prepare the conversation
+const conversation = [
+    {
+        "role": "user",
+        "content": [
+            { "type": "audio" },
+            { "type": "text", "text": "lang:en [TRANSCRIBE]" },
+        ],
+    }
+];
+const text = processor.apply_chat_template(conversation, { tokenize: false });
+const audio = await read_audio("http://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/mlk.wav", 16000);
+const inputs = await processor(text, audio);
+// Generate the response
+const generated_ids = await model.generate({
+    ...inputs,
+    max_new_tokens: 256,
+    streamer: new TextStreamer(processor.tokenizer, { skip_special_tokens: true, skip_prompt: true }),
+});
+// Decode the generated tokens
+const new_tokens = generated_ids.slice(null, [inputs.input_ids.dims.at(-1), null]);
+const generated_texts = processor.batch_decode(
+    new_tokens,
+    { skip_special_tokens: true },
+);
+console.log(generated_texts[0]);
+// I have a dream that one day this nation will rise up and live out the true meaning of its creed.
+```
+**Example**: Audio understanding
+```js
+import { VoxtralForConditionalGeneration, VoxtralProcessor, TextStreamer, read_audio } from "@huggingface/transformers";
+// Load the processor and model
+const model_id = "onnx-community/Voxtral-Mini-3B-2507-ONNX";
+const processor = await VoxtralProcessor.from_pretrained(model_id);
+const model = await VoxtralForConditionalGeneration.from_pretrained(
+    model_id,
+    {
+        dtype: {
+            embed_tokens: "fp16", // "fp32", "fp16", "q8", "q4"
+            audio_encoder: "q4", // "fp32", "fp16", "q8", "q4", "q4f16"
+            decoder_model_merged: "q4", // "q4", "q4f16"
+        },
+        device: "webgpu",
+    },
+);
+// Prepare the conversation
+const conversation = [
+    {
+        "role": "user",
+        "content": [
+            { "type": "audio" },
+            { "type": "audio" },
+            { "type": "text", "text": "Describe these two audio clips in detail." },
+        ],
+    }
+];
+const text = processor.apply_chat_template(conversation, { tokenize: false });
+const audio = await Promise.all([
+    read_audio("https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/jfk.wav", 16000),
+    read_audio("https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/mlk.wav", 16000),
+]);
+const inputs = await processor(text, audio);
+// Generate the response
+const generated_ids = await model.generate({
+    ...inputs,
+    max_new_tokens: 256,
+    streamer: new TextStreamer(processor.tokenizer, { skip_special_tokens: true, skip_prompt: true }),
+});
+// Decode the generated tokens
+const new_tokens = generated_ids.slice(null, [inputs.input_ids.dims.at(-1), null]);
+const generated_texts = processor.batch_decode(
+    new_tokens,
+    { skip_special_tokens: true },
+);
+console.log(generated_texts[0]);
+// The first audio clip is a speech by a leader, likely a politician or a public figure, addressing a large audience. The speaker begins by encouraging the listeners to ask not what their country can do for them, but what they can do for their country. This is a call to action and a reminder of the individual's responsibility to contribute to the nation's well-being. The second audio clip is a passionate speech by a different leader, possibly a civil rights activist or a community organizer. This speaker expresses a dream of a nation that will rise up and live out the true meaning of its creed, suggesting a vision of a more just and equitable society.
+```

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,28 @@

+{{- bos_token -}}
+{%- for message in messages -%}
+	{%- if (message["role"] == "user") == (loop.index % 2 == 0) -%}
+		{{- raise_exception("After the optional system message, conversation roles must alternate user/assistant/user/assistant/...") -}}
+	{%- endif -%}
+	{%- if message["role"] == "user" -%}
+		{{- "[INST]" -}}
+		{%- if message["content"] is string -%}
+			{{- message["content"] -}}
+		{%- else -%}
+			{%- for item in message["content"] -%}
+				{%- if item["type"] == "audio" -%}
+					{{- "[AUDIO]" -}}
+				{%- elif item["type"] == "text" -%}
+					{{- item["text"] -}}
+				{%- endif -%}
+			{%- endfor -%}
+		{%- endif -%}
+		{{- "[/INST]" -}}
+	{%- elif message["role"] == "assistant" -%}
+		{%- if message["content"] is not string -%}
+			{{- raise_exception("Assistant message content should be a string.") -}}
+		{%- endif -%}
+		{{- message["content"] + eos_token -}}
+	{%- else -%}
+		{{- raise_exception("Only user and assistant roles are supported!") -}}
+	{%- endif -%}
+{%- endfor -%}

config.json ADDED Viewed

	@@ -0,0 +1,81 @@

+{
+  "architectures": [
+    "VoxtralForConditionalGeneration"
+  ],
+  "audio_config": {
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "attention_dropout": 0.0,
+    "dropout": 0.0,
+    "head_dim": 64,
+    "hidden_size": 1280,
+    "initializer_range": 0.02,
+    "intermediate_size": 5120,
+    "layerdrop": 0.0,
+    "max_source_positions": 1500,
+    "model_type": "voxtral_encoder",
+    "num_attention_heads": 20,
+    "num_hidden_layers": 32,
+    "num_key_value_heads": 20,
+    "num_mel_bins": 128,
+    "scale_embedding": false,
+    "vocab_size": 51866
+  },
+  "audio_token_id": 24,
+  "hidden_size": 3072,
+  "model_type": "voxtral",
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 3072,
+    "initializer_range": 0.02,
+    "intermediate_size": 8192,
+    "max_position_embeddings": 131072,
+    "mlp_bias": false,
+    "model_type": "llama",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 30,
+    "num_key_value_heads": 8,
+    "pretraining_tp": 1,
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": null,
+    "rope_theta": 100000000.0,
+    "sliding_window": null,
+    "use_cache": true,
+    "vocab_size": 131072
+  },
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.54.0.dev0",
+  "transformers.js_config": {
+    "dtype": {
+      "embed_tokens": "fp16"
+    },
+    "kv_cache_dtype": {
+      "q4f16": "float16",
+      "fp16": "float16"
+    },
+    "use_external_data_format": {
+      "audio_encoder.onnx": 2,
+      "audio_encoder_fp16.onnx": 1,
+      "audio_encoder_int8.onnx": 1,
+      "audio_encoder_uint8.onnx": 1,
+      "audio_encoder_quantized.onnx": 1,
+      "audio_encoder_q4.onnx": 1,
+      "audio_encoder_q4f16.onnx": 1,
+      "audio_encoder_bnb4.onnx": 1,
+      "decoder_model_merged.onnx": 8,
+      "decoder_model_merged_fp16.onnx": 4,
+      "decoder_model_merged_q4.onnx": 2,
+      "decoder_model_merged_q4f16.onnx": 1,
+      "embed_tokens.onnx": 1,
+      "embed_tokens_fp16.onnx": 1,
+      "embed_tokens_quantized.onnx": 1,
+      "embed_tokens_q4.onnx": 1
+    }
+  },
+  "vocab_size": 131072
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 11,
+  "transformers_version": "4.54.0.dev0"
+}

onnx/audio_encoder.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47fc3e2c046b8c9ba19dc4ffe195b6606840edc74179e69bd4f7261686cff511
+size 357190

onnx/audio_encoder.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb1a2baa8eb44a51cbef5cc91ead26a7226c8004d0084b873dedbc4efd1712ba
+size 2095319040

onnx/audio_encoder.onnx_data_1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2125dbd94d2405064f503c9ca13c1efdddfdd9df2854aeb76e0a2ac77111dc29
+size 553220096

onnx/audio_encoder_bnb4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4418e53b50540e6581cbce958a1d705c31741965ed01fd42346d47254006d6a
+size 404516

onnx/audio_encoder_bnb4.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5652ecf0027b5e65f797c1f444c538e6673940fe9116c769c426890f8d54fd9e
+size 399343616

onnx/audio_encoder_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8367654c6e1b64e799fd581bc607aca3aa77b6bcb0a532a6326a1932aa6728b
+size 359615

onnx/audio_encoder_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1c5a7fb2d6784483943d30040b2c17d5186cbd5f7ab14e027c3abd7e566a32e
+size 1324269568

onnx/audio_encoder_int8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddb743e492888cf8eb3fbc77efbfd6a5154f4b21a39a8d3e22cf29832719d283
+size 600567

onnx/audio_encoder_int8.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf06e83302b02f9fb59751eaf594d8677c1d3d5ae2541d8b28cceedaeeb0f819
+size 669384704

onnx/audio_encoder_q4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38b4e8bc6b7dda75a3c52e358a44a8c4e144b4878ff8867bd0cb41a402d4af81
+size 401545

onnx/audio_encoder_q4.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07537c1791da2d198edca192b7b15c4199c1c70c3eb095d7a432431bc52e1ae5
+size 440238080

onnx/audio_encoder_q4f16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:156a6291053180757636c0caf5f6be3a4e08b90afd93d77646a6bd609ace206e
+size 403958

onnx/audio_encoder_q4f16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62eba37624325b3b21c51edf6c6823aaa8ce9657979dbffc31751c7f0d8d9709
+size 383696896

onnx/audio_encoder_quantized.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4db2e57b57f836f3f12deecba456785c888ddc4768cbe1d6c28e379ee479dc79
+size 603112

onnx/audio_encoder_quantized.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29a112e764c22a77d20fe5b4925c709a2188a3e5264ef76116420db469fb7fdf
+size 669384704

onnx/audio_encoder_uint8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:644e50318802c691623b85fd940ac60164cd904b72d1d81f658fbbab22c6506d
+size 601155

onnx/audio_encoder_uint8.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29a112e764c22a77d20fe5b4925c709a2188a3e5264ef76116420db469fb7fdf
+size 669384704

onnx/decoder_model_merged.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e101f5f00fad06ff4de9ba06a18e529b1b238c77cecbaf7a83f2dd21f336209
+size 226717

onnx/decoder_model_merged.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f08d2cb408774380ae5f25aedb2b29f08b2a67167bfaddb83833127d0988272d
+size 2005000192

onnx/decoder_model_merged.onnx_data_1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8824af4dd1a6bda4c348924701d2b78e9b9b982eee6e79c00c311fbe71436720
+size 2038554624

onnx/decoder_model_merged.onnx_data_2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:906367bee2870dedf649e48c59cbba1602b0c009b80a2fe75d1e3ead80ed4eee
+size 2088873984

onnx/decoder_model_merged.onnx_data_3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f0dd468461fb57d33b5a3cca33442bcf7f53c73d9a5818419d0cdb16c6340e5
+size 2063720448

onnx/decoder_model_merged.onnx_data_4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e8db09e022033239103c7ab042e8297b0768d0c4566d6fa9b64611dd62f3c13
+size 2038542336

onnx/decoder_model_merged.onnx_data_5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:531cd0d701944232b7487648b7154e19fab693b9ee120469543362e380923fb8
+size 2038554624

onnx/decoder_model_merged.onnx_data_6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19ce9b0777369a103d6c6f2700909b11c3ed9ac8c17ced14730829482d3d4a6a
+size 629182464

onnx/decoder_model_merged.onnx_data_7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:152030f3a13ed418571c431be4275b634eb40ea554ef74f917526ee896413962
+size 1610612736

onnx/decoder_model_merged_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c77e254b27448c04b6f027c8040ce4f2429f999453b496ea2af8e79aa4a9c195
+size 228186

onnx/decoder_model_merged_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ae4f71eb0994d28e915b5a5e12c3b1bbfb81b7ced25be4bd6698d60e71cb276
+size 2072109056

onnx/decoder_model_merged_fp16.onnx_data_1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f207b9da920da6f837d35f38611c65ef3e28e089b91d19272273c4deac797204
+size 2088886272

onnx/decoder_model_merged_fp16.onnx_data_2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf5cab82a3871665c485cf00d199aa55cac4249487219928cb0632527ea7228f
+size 2076297216

onnx/decoder_model_merged_fp16.onnx_data_3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28b309c4dde22701d67a210b1c90bca5ae143fc2de33b98ed43ef14488880fa6
+size 1019228160

onnx/decoder_model_merged_q4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25b33b24b1737410defd6035e84664f3810d73b1591b4f350dda1911910c0175
+size 306657

onnx/decoder_model_merged_q4.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:224f9159d5c1843babd6cc99f220c14ce42f7400c56a1cf5102adea8ec029b08
+size 2073260032

onnx/decoder_model_merged_q4.onnx_data_1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdd87806c69de54c19576e425639109e2961196c4618843e0c0ce389af93b531
+size 251658240

onnx/decoder_model_merged_q4f16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00ef33f598043ce7640b2353ca13511bb40c2ce0ecc049cc4930f8fa515cd8c2
+size 308330

onnx/decoder_model_merged_q4f16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35f8d88fe9d0af7759bbcd7e34843687e8768a4088c229757601aa6a1be1dc2a
+size 2065283072

onnx/embed_tokens.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1b1350a79d62150ebb3899cbf824ccf74820b94ca23b9f0ff67b69834499944
+size 299

onnx/embed_tokens.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3801b085f29d922117bcc4e0c484f1652de50b015d8ff6721303584a0d3e914f
+size 1610612736

onnx/embed_tokens_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed64cab8592c4731ac4c8b4fc59baad6756f040a642390ee07c7e9c9ec56879a
+size 494

onnx/embed_tokens_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f8ec7534e487edaec0d707980ecf4cd4bf66db7ecc6ef8cfb5f717a565a0616
+size 805306368

onnx/embed_tokens_q4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aced72ee68efcb5feaccbe5d3bb454e8a6d44cec9cfd6f5aece7272255d43a3
+size 542

onnx/embed_tokens_q4.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a2dbc92241c261aa99b0fb920ccfdcf9c4f2d3b97ed51c06d670c99e633e594
+size 251658240

onnx/embed_tokens_quantized.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:198b066c7f5bef2776e001934ac2eff76ea89e93d072d577ace5ba16ab08281e
+size 552

onnx/embed_tokens_quantized.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:681ef4fdd1f9e7857872405b174dc68955cd75428e35591376c2630f7b5bdc01
+size 402653184

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "chunk_length": 30,
+  "dither": 0.0,
+  "feature_extractor_type": "WhisperFeatureExtractor",
+  "feature_size": 128,
+  "hop_length": 160,
+  "n_fft": 400,
+  "n_samples": 480000,
+  "nb_max_frames": 3000,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "VoxtralProcessor",
+  "return_attention_mask": false,
+  "sampling_rate": 16000
+}