MOSS-Audio-Tokenizer-MLX-8bit

tamarher commited on Mar 31

Commit

3422b87

0 Parent(s):

Duplicate from appautomaton/openmoss-audio-tokenizer-mlx

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +72 -0
mlx-int8/config.json +279 -0
mlx-int8/model.safetensors +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,72 @@

+---
+language:
+- zh
+- en
+license: apache-2.0
+library_name: mlx
+pipeline_tag: feature-extraction
+base_model: OpenMOSS-Team/MOSS-Audio-Tokenizer
+base_model_relation: quantized
+tags:
+- mlx
+- audio
+- speech
+- codec
+- tokenizer
+- apple-silicon
+- quantized
+- 8bit
+---
+# OpenMOSS Audio Tokenizer — MLX 8-bit
+This repository contains an MLX-native int8 conversion of the OpenMOSS audio tokenizer for Apple Silicon.
+It is a supporting model that encodes and decodes audio tokens for the OpenMOSS TTS family. It is not a standalone speech generation model.
+## Variants
+| Path | Precision |
+| --- | --- |
+| `mlx-int8/` | int8 quantized weights |
+## Model Details
+- Developed by: AppAutomaton
+- Shared by: AppAutomaton on Hugging Face
+- Upstream model: [`OpenMOSS-Team/MOSS-Audio-Tokenizer`](https://huggingface.co/OpenMOSS-Team/MOSS-Audio-Tokenizer)
+- Task: audio tokenization and codec decoding
+- Runtime: MLX on Apple Silicon
+## How to Get Started
+Load it directly with [`mlx-speech`](https://github.com/appautomaton/mlx-speech):
+```python
+from mlx_speech.models.moss_audio_tokenizer import MossAudioTokenizerModel
+model = MossAudioTokenizerModel.from_path("mlx-int8")
+```
+The tokenizer is loaded automatically when you run OpenMOSS generation scripts. You usually do not need to instantiate it directly.
+```bash
+python scripts/generate_moss_local.py \
+  --text "Hello from mlx-speech." \
+  --output outputs/out.wav
+```
+## Notes
+- This repo contains the quantized MLX runtime artifact only.
+- The conversion remaps the original OpenMOSS audio tokenizer weights explicitly for MLX inference.
+- The artifact is shared by the OpenMOSS local TTS, TTSD, and SoundEffect runtime paths in this repo.
+## Links
+- Source code: [mlx-speech](https://github.com/appautomaton/mlx-speech)
+- More examples: [AppAutomaton](https://github.com/appautomaton)
+## License
+Apache 2.0 — following the upstream license published with [`OpenMOSS-Team/MOSS-Audio-Tokenizer`](https://huggingface.co/OpenMOSS-Team/MOSS-Audio-Tokenizer).

mlx-int8/config.json ADDED Viewed

	@@ -0,0 +1,279 @@

+{
+  "model_type": "moss-audio-tokenizer",
+  "version": "4.26.1.a",
+  "sampling_rate": 24000,
+  "sample_rate": 24000,
+  "downsample_rate": 1920,
+  "causal_transformer_context_duration": 10.0,
+  "encoder_kwargs": [
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 240
+    },
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 240,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 384,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 768,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 384,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 768,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 640,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 1280,
+      "dim_feedforward": 5120,
+      "gating": "none",
+      "input_dimension": 1280,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 20,
+      "num_layers": 32,
+      "output_dimension": 768,
+      "positional_embedding": "rope"
+    }
+  ],
+  "decoder_kwargs": [
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 1280,
+      "dim_feedforward": 5120,
+      "gating": "none",
+      "input_dimension": 768,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 20,
+      "num_layers": 32,
+      "output_dimension": 1280,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 640,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 768,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 384,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 768,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "module_type": "Transformer",
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 384,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 240,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 240
+    }
+  ],
+  "quantizer_type": "rlfq",
+  "quantizer_kwargs": {
+    "input_dim": 768,
+    "rvq_dim": 512,
+    "output_dim": 768,
+    "num_quantizers": 32,
+    "codebook_size": 1024,
+    "codebook_dim": 8,
+    "quantizer_type": "rlfq"
+  },
+  "architectures": [
+    "MossAudioTokenizerModel"
+  ],
+  "auto_map": {
+    "AutoConfig": "configuration_moss_audio_tokenizer.MossAudioTokenizerConfig",
+    "AutoModel": "modeling_moss_audio_tokenizer.MossAudioTokenizerModel"
+  },
+  "code_dim": 768,
+  "dtype": "float32",
+  "reversed_decoder_kwargs": [
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 240
+    },
+    {
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 240,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "module_type": "Transformer",
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 384,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 768,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "module_type": "Transformer",
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 384,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 768,
+      "dim_feedforward": 3072,
+      "gating": "none",
+      "input_dimension": 768,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "module_type": "Transformer",
+      "norm": "layer_norm",
+      "num_heads": 12,
+      "num_layers": 12,
+      "output_dimension": 640,
+      "positional_embedding": "rope"
+    },
+    {
+      "module_type": "PatchedPretransform",
+      "patch_size": 2
+    },
+    {
+      "causal": true,
+      "conv_layout": true,
+      "d_model": 1280,
+      "dim_feedforward": 5120,
+      "gating": "none",
+      "input_dimension": 1280,
+      "layer_scale": 0.01,
+      "max_period": 10000,
+      "module_type": "Transformer",
+      "norm": "layer_norm",
+      "num_heads": 20,
+      "num_layers": 32,
+      "output_dimension": 768,
+      "positional_embedding": "rope"
+    }
+  ],
+  "transformers_version": "4.56.0.dev0",
+  "quantization": {
+    "bits": 8,
+    "group_size": 64,
+    "mode": "affine"
+  }
+}

mlx-int8/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de45810416fbc67a444e9b1afdbb41569a13669f7942af2f011b26e918767995
+size 2003407408