DeepSeek 联合北大清华本周发布多模态推理新框架,又迅速删除代码仓库 — 学术探索与产品化之间显然还有不小距离。

这是什么

这项叫"Thinking with Visual Primitives"的研究,核心思路是把坐标点和边界框(即标注图像中物体位置的方框)变成模型推理过程中的"思维最小单元"。

现有大多模态 AI 看图的方式是"看完再答":先编码图像内容,然后用文字推理和输出。新框架让模型"边看边指":在推理(即逐步思考解决问题)的每一步中,模型可以回头标注图像上的具体位置,类似人读地图时用手指着路线思考。

但关键细节是:DeepSeek 发布代码仓库后很快将其删除。开源又撤回,在学术界和工程圈都属反常。

行业怎么看

这项研究的价值在于,它试图突破当前多模态 AI 的一个瓶颈:视觉信息在推理过程中的参与度太低。现有模型往往在早期处理图像,后续推理几乎不再回看图像细节。将空间标记嵌入思维链,理论上能提升模型处理几何证明、医学影像等需要精细视觉推理任务的能力。

但质疑声同样明确。首先,删库本身就是信号 — 可能暗示方法在复现或扩展性上存在问题,也可能涉及未说明的合规考量。其次,这种"视觉思维"方式会显著增加计算开销,每步推理都要处理额外的空间标记,商业部署成本可能难以承受。有社区评论者指出,类似思路 2023 年已有研究探索,DeepSeek 的增量贡献需要更严格的对照实验验证。

对普通人的影响

对企业 IT:这是多模态能力边界的试探,短期不改变技术选型,但值得留意视觉推理在质检、遥感分析等场景的应用潜力。

对个人职场:AI 的视觉能力正从"识别"走向"推理",但这个过渡需要时间,不必对现有工作流程做激进调整。

对消费市场:直接影响有限。此类技术离 C 端产品仍有距离,更可能先在医疗影像、自动驾驶等专业领域落地。