Initial upload: AudioGen Medium MLX-native port

Browse files

Files changed (4) hide show

.gitattributes +1 -34
README.md +51 -0
config.json +82 -0
model.safetensors +3 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,2 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
 *.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text


























1	*.safetensors filter=lfs diff=lfs merge=lfs -text
2	+ *.bin filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,54 @@
 ---
 license: cc-by-nc-4.0
 ---

 ---
 license: cc-by-nc-4.0
+library_name: mlx
+pipeline_tag: text-to-audio
+base_model: facebook/audiogen-medium
+tags:
+  - audio-generation
+  - text-to-audio
+  - audiogen
+  - mlx
+  - encodec
 ---
+# AudioGen Medium (MLX)
+This is the MLX-native port of [facebook/audiogen-medium](https://huggingface.co/facebook/audiogen-medium), a 1.5B parameter autoregressive transformer for text-to-audio generation.
+## Model Details
+- **Architecture**: Autoregressive Transformer LM over EnCodec discrete tokens
+- **Parameters**: ~1.5B (LM) + EnCodec compression model
+- **Sampling rate**: 16 kHz
+- **Frame rate**: 50 Hz (4 codebooks, delayed pattern)
+- **Text encoder**: T5-small (loaded separately)
+- **Max duration**: 10 seconds (configurable)
+## Files
+- `config.json` — Model configuration
+- `model.safetensors` — LM + EnCodec weights
+- `model.safetensors.index.json` — Weight index (for sharded variants)
+- `tokenizer.json` / `tokenizer_config.json` — T5 tokenizer files
+## Usage (Swift/MLX)
+```swift
+import MLXAudioGen
+let model = try await AudioGenModel.fromPretrained(
+    modelFolder: modelURL,
+    t5Folder: t5URL
+)
+let audio = try await model.generateAudio(
+    description: "dog barking",
+    duration: 5.0,
+    cfgCoef: 3.0,
+    temperature: 1.0,
+    topK: 250
+)
+```
+## License
+This model is published under the [CC-BY-NC 4.0](https://creativecommons.org/licenses/by-nc/4.0/) license (non-commercial use only), following the original [AudioGen license](https://huggingface.co/facebook/audiogen-medium).

config.json ADDED Viewed

	@@ -0,0 +1,82 @@

+{
+  "model_type": "audiogen",
+  "nQ": 4,
+  "card": 2048,
+  "dim": 1536,
+  "numHeads": 24,
+  "hiddenScale": 4,
+  "numLayers": 48,
+  "causal": true,
+  "crossAttention": true,
+  "dropout": 0.0,
+  "activation": "gelu",
+  "norm": "layer_norm",
+  "normFirst": true,
+  "biasFF": false,
+  "biasAttn": false,
+  "layerScale": null,
+  "context": 4096,
+  "maxPeriod": 10000,
+  "positionalEmbedding": "sin",
+  "positionalScale": 1.0,
+  "xPos": false,
+  "weight": 1.0,
+  "conditionProvider": "t5",
+  "twoStepCFG": false,
+  "kvRepeat": 1,
+  "qkLayerNorm": false,
+  "emptyLikeInit": false,
+  "emptyLikeInitDetokenized": false,
+  "zeroHypothesisRate": 0.0,
+  "quantize": false,
+  "weightsPerStep": null,
+  "frameRate": 50.0,
+  "sampleRate": 16000,
+  "duration": 10.0,
+  "numSamples": 1,
+  "specialToken": 2048,
+  "tokenizer": "t5-small",
+  "clsToken": 2048,
+  "padToken": 2048,
+  "encodec": {
+    "model_type": "encodec",
+    "audio_channels": 1,
+    "num_filters": 32,
+    "kernel_size": 7,
+    "num_residual_layers": 1,
+    "dilation_growth_rate": 2,
+    "codebook_size": 2048,
+    "codebook_dim": 128,
+    "hidden_size": 128,
+    "num_lstm_layers": 2,
+    "residual_kernel_size": 3,
+    "use_causal_conv": true,
+    "normalize": false,
+    "pad_mode": "reflect",
+    "norm_type": "time_group_norm",
+    "last_kernel_size": 7,
+    "trim_right_ratio": 1.0,
+    "compress": 2,
+    "upsampling_ratios": [8, 5, 4, 2],
+    "target_bandwidths": [1.5, 3.0, 6.0, 12.0, 24.0],
+    "sampling_rate": 16000,
+    "chunk_length_s": null,
+    "overlap": null,
+    "use_conv_shortcut": false
+  },
+  "t5": {
+    "model_name": "t5-small",
+    "d_model": 512,
+    "d_kv": 64,
+    "d_ff": 2048,
+    "num_layers": 8,
+    "num_heads": 6,
+    "relative_attention_num_buckets": 32,
+    "relative_attention_max_distance": 128,
+    "dropout_rate": 0.1,
+    "layer_norm_epsilon": 1e-06,
+    "feed_forward_proj": "relu",
+    "vocab_size": 32128,
+    "tie_word_embeddings": true
+  }
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3d73edf9f74765df95239449aa6b6c9e6e7ff34b37c42e4c28ce8ef52db91a6
+size 3910789388