XiaomiMiMo
/

MiMo-Embodied-7B

Image-Text-to-Text

text-generation-inference

Model card Files Files and versions

ZrayXiaomi commited on Nov 21, 2025

Commit

0a2df06

·

1 Parent(s): 8531c5f

update readme

Files changed (1) hide show

README.md +9 -0

README.md CHANGED Viewed

@@ -44,8 +44,11 @@ license: mit
 ## IV. Evaluation Results
 MiMo-Embodied demonstrates superior performance across **17 benchmarks in three key embodied AI capabilities: Task Planning, Affordance Prediction, and Spatial Understanding**, significantly surpassing existing open-source embodied VLM models and rivaling closed-source models.
 Additionally, MiMo-Embodied excels in **12 autonomous driving benchmarks across three key capabilities: Environmental Perception, Status Prediction, and Driving Planning**—significantly outperforming both existing open-source and closed-source VLM models, as well as proprietary VLM models.
 ### Embodied AI Benchmarks
 ####  Affordacne & Planning
@@ -76,6 +79,12 @@ Additionally, MiMo-Embodied excels in **12 autonomous driving benchmarks across
   <img src="./assets/table5.png" width=800>
 </div>
 > Results marked with \* are obtained using our evaluation framework.

 ## IV. Evaluation Results
 MiMo-Embodied demonstrates superior performance across **17 benchmarks in three key embodied AI capabilities: Task Planning, Affordance Prediction, and Spatial Understanding**, significantly surpassing existing open-source embodied VLM models and rivaling closed-source models.
 Additionally, MiMo-Embodied excels in **12 autonomous driving benchmarks across three key capabilities: Environmental Perception, Status Prediction, and Driving Planning**—significantly outperforming both existing open-source and closed-source VLM models, as well as proprietary VLM models.
+Moreover, evaluation on **8 general visual understanding benchmarks** confirms that MiMo-Embodied retains and even strengthens its general capabilities, showing that domain-specialized training enhances rather than diminishes overall model proficiency.
 ### Embodied AI Benchmarks
 ####  Affordacne & Planning
   <img src="./assets/table5.png" width=800>
 </div>
+### General Visual Understanding Benchmarks
+<div align="center">
+  <img src="./assets/table8.png" width=800>
+</div>
 > Results marked with \* are obtained using our evaluation framework.