DeepSeek V4 Pro 仅用 10 周就在 Agent 基准测试追平 GPT-5.2,中美大模型前沿差距正从「按年算」缩短到「按周算」。

这是什么

海外测试团队 FoodTruck Bench 发布了最新评测结果。这是一个为期 30 天的 Agent(能自主调用工具完成复杂任务的 AI)基准测试,要求模型通过 34 个工具模拟经营一家餐车,涵盖定价、库存、排班和应对天气等,考验的是 AI 的记忆与持续决策能力。

DeepSeek V4 Pro 排名第四,与 GPT-5.2 的中位数差距不到 3%,也是首个进入该测试前沿阵营的中国模型。更值得关心的是成本:同等任务下,DeepSeek 的 API 花费仅为 GPT-5.2 的约十七分之一。对比同价位的 Grok 4.3,DeepSeek 在稳定性上胜出——食物浪费少 6 倍,日均供餐多 30%。此外,小米的 MiMo v2.5 Pro 也冲到第六名。前六名中首次出现两个中国模型,且单价均低于 3.5 美元。

行业怎么看

我们注意到,中美前沿模型的差距被急剧压缩。过去业界普遍认为中国模型落后美国一年,现在这个时间差被压缩到了十周左右。同时,中国团队在 RAG(检索增强生成,让 AI 调用外部知识库的技术)和工具调用上的稳定性,正把「性价比」做成核心壁垒。

但也有反对声音值得警惕:基准测试的封闭环境无法等同于真实商业场景。真实业务涉及复杂的合规与隐私,AI 在测试中「零贷款」不意味着在企业 ERP 系统里不犯错。此外,DeepSeek 惯用的低价策略如果长期化,可能反噬整个行业的利润空间,让中小模型公司失去生存土壤,最终损害生态多样性。

对普通人的影响

对企业 IT:部署 Agent 的试错成本大幅下降,原本只够跑一个 GPT 项目的预算,现在可以跑十几个 DeepSeek 项目,企业数字化转型的 ROI 预期将明显改善。

对个人职场:AI 执行复杂经营任务的能力在变强且变便宜,管理者的重心需从「教 AI 怎么做」加速转向「判断 AI 做得对不对」。

对消费市场:手机厂商(如小米)自研大模型跻身前列,意味着未来智能终端上的本地 AI 助手会更快、更聪明且免费,有望实质性改变普通人的设备交互习惯。