这是什么
DeepSeek 本周灰度上线了多模态能力——让大模型能「看图说话」。目前部分用户可用,尚未全量开放。
我们梳理实测核心结论:
速度是最大亮点。非思考模式下,普通图片识别和文字 OCR(光学字符识别,即从图片中提取文字)近乎秒出。艺术字体乃至《兰亭集序》草书都能识别,速度远超预期。
图表和表格解析准确。数字核对无误,结构还原正确。
但色盲卡识别在两种模式下均失败。色盲卡需要先「看到」图中隐藏的数字才能作答,模型跳过感知直接推理,结果必然出错。这说明 DeepSeek 的底层视觉编码仍有盲区,不是「多想一会儿」就能弥补的。
图转 HTML 能用但不精致。两种模式差距不大,能完成 0→1 骨架,但间距、字体还原等细节与 Gemini 等擅长 UI 的模型仍有代差。
行业怎么看
社区兴奋点集中在两个维度:速度和编程解锁。此前 DeepSeek 缺乏视觉能力,无法读取截图和设计稿,是编码场景的明显短板。这次补齐后,端到端的开发辅助链路才算打通——这是多位测试者认为「比 V4 更重要」的原因。
但值得警惕的是,色盲卡翻车不是边缘案例。它揭示了 DeepSeek 多模态的核心特征:擅长「看图推理」,弱于「真正看懂图」。当任务需要视觉感知而非逻辑推导时,模型会暴露短板。一位测试者总结得直白:推理是长板,视觉编码本身仍是短板。
此外,图转 HTML 的效果说明,在需要像素级精确还原的场景,DeepSeek 与第一梯队仍有差距。指望它直接产出可交付的前端代码,现阶段做不到。
对普通人的影响
对企业 IT:DeepSeek 多模态补齐后,文档 OCR、报表解析等内部场景可减少对外部 API 的依赖,自建方案完整性提高。
对个人职场:截图提问、论文图表解读等轻量需求,非思考模式的响应速度体验很好,适合高频快速交互。
对消费市场:灰度阶段多数人暂不可用,且基础视觉短板限制了医疗影像、质检等高精度场景的落地,短期仍是「够用但不惊艳」。