mlx-community
/

YOLO26s-OptiQ-6bit

+---
+library_name: mlx
+license: agpl-3.0
+pipeline_tag: object-detection
+base_model: Ultralytics/YOLO26
+tags:
+- mlx
+- quantized
+- mixed-precision
+- yolo
+- yolo26
+- object-detection
+- optiq
+- apple-silicon
+---
+# YOLO26s-OptiQ-6bit
+> Mixed-precision quantized YOLO26s for Apple Silicon via OptiQ
+This is a mixed-precision quantized version of [YOLO26s](https://github.com/ultralytics/ultralytics) in MLX format, optimized with [mlx-optiq](https://pypi.org/project/mlx-optiq/) for Apple Silicon inference via [yolo-mlx](https://pypi.org/project/yolo-mlx/).
+## Quantization Details
+| Property | Value |
+|---|---|
+| Target BPW | 6.0 |
+| Achieved BPW | 5.97 |
+| Layers at 4-bit | 11 |
+| Layers at 8-bit | 115 |
+| Original size | 38.4 MB |
+| Quantized size | 8.9 MB |
+| Compression | 4.3x |
+## Benchmark Results (COCO128)
+| Model | Total Detections | Avg/Image |
+|---|---|---|
+| **OptiQ 6-bit** | **633** | **4.9** |
+| Original (FP32) | 681 | 5.3 |
+Detection delta: -48 (-7.0%) at 4.3x compression.
+## Usage
+Requires `mlx-optiq` and `yolo-mlx`:
+```bash
+pip install mlx-optiq yolo-mlx
+```
+```python
+from optiq.models.yolo import load_quantized_yolo
+model = load_quantized_yolo("mlx-community/YOLO26s-OptiQ-6bit")
+results = model.predict("image.jpg")
+```
+## How OptiQ Works
+OptiQ measures each conv layer's sensitivity via KL divergence on detection outputs, then assigns optimal per-layer bit-widths using greedy knapsack optimization. Sensitive layers (detection head, feature pyramid) get 8-bit precision while robust backbone layers get 4-bit.
+## Credits
+- **Quantization:** [mlx-optiq](https://pypi.org/project/mlx-optiq/) by Thin Signal
+- **Base model:** [YOLO26](https://github.com/ultralytics/ultralytics) by Ultralytics
+- **MLX runtime:** [yolo-mlx](https://pypi.org/project/yolo-mlx/)
+- **Framework:** [MLX](https://github.com/ml-explore/mlx) by Apple