DeepSeek 让 AI 学会边看图边指 — 多模态推理从'看一眼说一句'到'指哪想哪'

DeepSeek 联合北大清华本周发布多模态推理新框架，又迅速删除代码仓库 — 学术探索与产品化之间显然还有不小距离。

这是什么

这项叫"Thinking with Visual Primitives"的研究，核心思路是把坐标点和边界框（即标注图像中物体位置的方框）变成模型推理过程中的"思维最小单元"。

现有大多模态 AI 看图的方式是"看完再答"：先编码图像内容，然后用文字推理和输出。新框架让模型"边看边指"：在推理（即逐步思考解决问题）的每一步中，模型可以回头标注图像上的具体位置，类似人读地图时用手指着路线思考。

但关键细节是：DeepSeek 发布代码仓库后很快将其删除。开源又撤回，在学术界和工程圈都属反常。

行业怎么看

这项研究的价值在于，它试图突破当前多模态 AI 的一个瓶颈：视觉信息在推理过程中的参与度太低。现有模型往往在早期处理图像，后续推理几乎不再回看图像细节。将空间标记嵌入思维链，理论上能提升模型处理几何证明、医学影像等需要精细视觉推理任务的能力。

但质疑声同样明确。首先，删库本身就是信号 — 可能暗示方法在复现或扩展性上存在问题，也可能涉及未说明的合规考量。其次，这种"视觉思维"方式会显著增加计算开销，每步推理都要处理额外的空间标记，商业部署成本可能难以承受。有社区评论者指出，类似思路 2023 年已有研究探索，DeepSeek 的增量贡献需要更严格的对照实验验证。

对普通人的影响

对企业 IT：这是多模态能力边界的试探，短期不改变技术选型，但值得留意视觉推理在质检、遥感分析等场景的应用潜力。

对个人职场：AI 的视觉能力正从"识别"走向"推理"，但这个过渡需要时间，不必对现有工作流程做激进调整。

对消费市场：直接影响有限。此类技术离 C 端产品仍有距离，更可能先在医疗影像、自动驾驶等专业领域落地。

DeepSeek 让 AI 学会边看图边指 — 多模态推理从'看一眼说一句'到'指哪想哪'

这是什么

行业怎么看

对普通人的影响

相关推荐

你的 AI 工具可能要变贵变慢 — 大厂正在悄悄抢这个资源

你的客户可能被 AI 差别定价了 — 马里兰州禁令给咱们小团队的提醒

天天被 " AI 要淘汰你 " 刷屏焦虑 — 我醒过来发现被收割的是恐慌

你的 AI 助手该重新选了 — Claude 已悄悄超车 Chat G PT

你的 AI 账单越堆越散 — Open AI 进驻亚马逊云，小团队终于能集中管了

客户从 Chat G PT 找来但后台看不到来源？这招帮你追踪