Article Not Found

DeepSeek 多模态灰度测试 — 秒出识别但色盲卡全败，编程场景最受益

这是什么

DeepSeek 本周灰度上线了多模态能力——让大模型能「看图说话」。目前部分用户可用，尚未全量开放。

我们梳理实测核心结论：

速度是最大亮点。非思考模式下，普通图片识别和文字 OCR（光学字符识别，即从图片中提取文字）近乎秒出。艺术字体乃至《兰亭集序》草书都能识别，速度远超预期。

图表和表格解析准确。数字核对无误，结构还原正确。

但色盲卡识别在两种模式下均失败。色盲卡需要先「看到」图中隐藏的数字才能作答，模型跳过感知直接推理，结果必然出错。这说明 DeepSeek 的底层视觉编码仍有盲区，不是「多想一会儿」就能弥补的。

图转 HTML 能用但不精致。两种模式差距不大，能完成 0→1 骨架，但间距、字体还原等细节与 Gemini 等擅长 UI 的模型仍有代差。

社区兴奋点集中在两个维度：速度和编程解锁。此前 DeepSeek 缺乏视觉能力，无法读取截图和设计稿，是编码场景的明显短板。这次补齐后，端到端的开发辅助链路才算打通——这是多位测试者认为「比 V4 更重要」的原因。

但值得警惕的是，色盲卡翻车不是边缘案例。它揭示了 DeepSeek 多模态的核心特征：擅长「看图推理」，弱于「真正看懂图」。当任务需要视觉感知而非逻辑推导时，模型会暴露短板。一位测试者总结得直白：推理是长板，视觉编码本身仍是短板。

此外，图转 HTML 的效果说明，在需要像素级精确还原的场景，DeepSeek 与第一梯队仍有差距。指望它直接产出可交付的前端代码，现阶段做不到。

对企业 IT：DeepSeek 多模态补齐后，文档 OCR、报表解析等内部场景可减少对外部 API 的依赖，自建方案完整性提高。

对个人职场：截图提问、论文图表解读等轻量需求，非思考模式的响应速度体验很好，适合高频快速交互。

对消费市场：灰度阶段多数人暂不可用，且基础视觉短板限制了医疗影像、质检等高精度场景的落地，短期仍是「够用但不惊艳」。