cstr
/

mimo-tokenizer-GGUF

Model card Files Files and versions

cstr commited on Apr 27

Commit

fefd4c0

·

verified ·

1 Parent(s): f35f4c7

Add model card README

Files changed (1) hide show

README.md +35 -0

README.md ADDED Viewed

	@@ -0,0 +1,35 @@

+---
+license: mit
+pipeline_tag: audio-to-audio
+tags:
+- audio
+- speech
+- gguf
+- tokenizer
+- rvq
+library_name: ggml
+base_model: XiaomiMiMo/MiMo-Audio-Tokenizer
+---
+# MiMo Audio Tokenizer (encoder only) -- GGUF
+GGUF conversion of the **encoder** from [`XiaomiMiMo/MiMo-Audio-Tokenizer`](https://huggingface.co/XiaomiMiMo/MiMo-Audio-Tokenizer) for use with **[CrispStrobe/CrispASR](https://github.com/CrispStrobe/CrispASR)**.
+## Available variants
+| File | Quant | Size | Notes |
+|---|---|---|---|
+| `mimo-tokenizer-q4_k.gguf` | Q4_K | 377 MB | Encoder + RVQ codebooks |
+## Model details
+- **Architecture:** 32-layer transformer encoder (1280d, 20 heads) + Conv1d stem + 20 RVQ codebooks
+- **Parameters:** ~600M (encoder only, decoder/vocoder excluded)
+- **Audio:** 24kHz input, outputs RVQ tokens at 25 Hz (8 channels used by ASR)
+- **License:** MIT
+- **Source:** [`XiaomiMiMo/MiMo-Audio-Tokenizer`](https://huggingface.co/XiaomiMiMo/MiMo-Audio-Tokenizer)
+## Notes
+- Only the encoder is included (waveform → RVQ tokens). Decoder/vocoder (TTS reconstruction) excluded.
+- Used as the first stage of MiMo-V2.5-ASR pipeline (tokenizer → LLM)