Thinking with Visual Primitives
最新动态
2026.04.30:该项目发布了介绍其方法的技术报告。后续计划公开内部基准测试,以及部分冷启动数据。模型权重未来将整合进其基础模型,并在之后发布。
1. 项目简介
尽管近来的多模态大语言模型(MLLM)在弥合*"感知鸿沟"*方面已经取得显著进展(例如借助高分辨率裁剪,或在图像上进行思考),它们在复杂结构化推理上仍然存在明显短板。该项目将这一瓶颈归因于 Reference Gap(指代鸿沟):自然语言本身过于模糊,难以精确指向稠密的空间布局,因此常常导致推理过程中的逻辑崩溃与幻觉。
本项目提出了一种范式转变。模型不再只是“看得更清楚”,而是学会了“边推理,边指向”。通过在推理轨迹中直接交织空间标记(点与边界框),并将其作为最小思维单元,该方法能够把抽象的语言概念锚定到具体的物理坐标上。
![]() 有锚点的任务推理 |
![]() 拓扑推理 |
核心亮点
- 点到推理的协同机制: 受人类认知行为启发(例如用手指计数或沿迷宫路径追踪),该框架将视觉基元提升为最小思维单元,从而有效解决复杂结构化推理中的 Reference Gap。
- 极致的视觉 Token 效率: 基于 DeepSeek-V4-Flash 架构,该方法将每 4 个视觉 token 的 KV cache 压缩为单一条目,在保持认知深度的同时,大幅降低图像 token 消耗。
- 与前沿模型竞争的表现: 尽管模型规模更紧凑、图像 token 预算也显著更低,该模型仍能在具有挑战性的计数与空间推理基准上,与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型相匹敌。(需要说明的是,文中报告的分数仅覆盖与本文研究重点直接相关的部分评测维度,因此并不能代表这些模型的整体能力。)
2. 许可证
本代码仓库遵循 MIT License。
3. 引用
@article{lu2026think,
title={Thinking with Visual Primitives},
author={Lu, Ruijie and Ma, Yiyang and Chen, Xiaokang and Luo, Lingxiao and Wu, Zhiyu and Pan, Zizheng and Liu, Xingchao and Lin, Yutong and Li, Hao and Liu, Wen and Hao, Zhewen and Gao, Xi and Nie, Shaoheng and Wei, Yixuan and Xie, Zhenda and Chen, Ting and Zeng, Gang},
year={2026}
}
4. 联系方式
如有问题,请提交 issue,或通过 service@deepseek.com 联系。
Xet Storage Details
- Size:
- 3.9 kB
- Xet hash:
- 40bab8cf3125f33177fd41d8e5cd15e44d2efeb109a9e5fcde6461cdb83cad29
·
Xet efficiently stores files, intelligently splitting them into unique chunks and accelerating uploads and downloads. More info.

