mlx-community
/

MiniMax-M2.1-8bit-gs32

Text Generation

8-bit precision

Model card Files Files and versions

bibproj commited on 8 days ago

Commit

8ef85e9

·

verified ·

1 Parent(s): 04b5b48

Update README.md

Files changed (1) hide show

README.md +39 -1

README.md CHANGED Viewed

@@ -9,4 +9,42 @@ license_name: modified-mit
 license_link: https://github.com/MiniMax-AI/MiniMax-M2.1/blob/main/LICENSE
 base_model:
 - MiniMaxAI/MiniMax-M2.1
----

 license_link: https://github.com/MiniMax-AI/MiniMax-M2.1/blob/main/LICENSE
 base_model:
 - MiniMaxAI/MiniMax-M2.1
+---
+# mlx-community/MiniMax-M2.1-8bit-gs32
+This model [mlx-community/MiniMax-M2.1-8bit-gs32](https://huggingface.co/mlx-community/MiniMax-M2.1-8bit-gs32) was
+converted to MLX format from [MiniMaxAI/MiniMax-M2.1](https://huggingface.co/MiniMaxAI/MiniMax-M2.1)
+using mlx-lm version **0.29.1**.
+## Recipe:
+* 8-bit
+* group-size 32
+* 9 bits per weight (bpw)
+You can find more similar MLX model quants for a single Apple Mac Studio M3 Ultra with 512 GB at https://huggingface.co/bibproj
+---
+## Use with mlx
+```bash
+pip install mlx-lm
+```
+```python
+from mlx_lm import load, generate
+model, tokenizer = load("mlx-community/MiniMax-M2.1-8bit-gs32")
+prompt = "hello"
+if tokenizer.chat_template is not None:
+    messages = [{"role": "user", "content": prompt}]
+    prompt = tokenizer.apply_chat_template(
+        messages, add_generation_prompt=True
+    )
+response = generate(model, tokenizer, prompt=prompt, verbose=True)
+```