docs: add KTransformers CPU offloading inference guide

#34

by ErvinX - opened Feb 27

base: refs/heads/main

←

from: refs/pr/34

Discussion Files changed

-0

ErvinX

Feb 27

Add KTransformers as a recommended inference option for MiMo-V2-Flash.

KTransformers enables efficient deployment on consumer-grade hardware by offloading MoE expert computations to CPU while keeping other components on GPU. With 4× RTX 5090 + 2× AMD EPYC 9355, it achieves up to 35.7 tokens/s decode speed.

Benchmarks: https://ktransformers.net/benchmarks#MiMo-V2-Flash-FP8-TP4

docs: add KTransformers CPU offloading inference guide69da6c01

bwshen-mi changed pull request status to merged Feb 27

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment