DeepSeek V4 Pro 追平 GPT-5.2 — 中美 AI 前沿差距从一年缩至十周

DeepSeek V4 Pro 仅用 10 周就在 Agent 基准测试追平 GPT-5.2，中美大模型前沿差距正从「按年算」缩短到「按周算」。

这是什么

海外测试团队 FoodTruck Bench 发布了最新评测结果。这是一个为期 30 天的 Agent（能自主调用工具完成复杂任务的 AI）基准测试，要求模型通过 34 个工具模拟经营一家餐车，涵盖定价、库存、排班和应对天气等，考验的是 AI 的记忆与持续决策能力。

DeepSeek V4 Pro 排名第四，与 GPT-5.2 的中位数差距不到 3%，也是首个进入该测试前沿阵营的中国模型。更值得关心的是成本：同等任务下，DeepSeek 的 API 花费仅为 GPT-5.2 的约十七分之一。对比同价位的 Grok 4.3，DeepSeek 在稳定性上胜出——食物浪费少 6 倍，日均供餐多 30%。此外，小米的 MiMo v2.5 Pro 也冲到第六名。前六名中首次出现两个中国模型，且单价均低于 3.5 美元。

行业怎么看

我们注意到，中美前沿模型的差距被急剧压缩。过去业界普遍认为中国模型落后美国一年，现在这个时间差被压缩到了十周左右。同时，中国团队在 RAG（检索增强生成，让 AI 调用外部知识库的技术）和工具调用上的稳定性，正把「性价比」做成核心壁垒。

但也有反对声音值得警惕：基准测试的封闭环境无法等同于真实商业场景。真实业务涉及复杂的合规与隐私，AI 在测试中「零贷款」不意味着在企业 ERP 系统里不犯错。此外，DeepSeek 惯用的低价策略如果长期化，可能反噬整个行业的利润空间，让中小模型公司失去生存土壤，最终损害生态多样性。

对普通人的影响

对企业 IT：部署 Agent 的试错成本大幅下降，原本只够跑一个 GPT 项目的预算，现在可以跑十几个 DeepSeek 项目，企业数字化转型的 ROI 预期将明显改善。

对个人职场：AI 执行复杂经营任务的能力在变强且变便宜，管理者的重心需从「教 AI 怎么做」加速转向「判断 AI 做得对不对」。

对消费市场：手机厂商（如小米）自研大模型跻身前列，意味着未来智能终端上的本地 AI 助手会更快、更聪明且免费，有望实质性改变普通人的设备交互习惯。

DeepSeek V4 Pro 追平 GPT-5.2 — 中美 AI 前沿差距从一年缩至十周

这是什么

行业怎么看

对普通人的影响

相关推荐

华为发布 openPangu 2.0 并宣布开源，国产大模型开始补生态短板

EAGLE3 并入 llama.cpp，开源大模型推理开始更务实地追求提速

Anthropic 推出 Claude Fable，但更强不等于更可用，安全阉割成了核心卖点

OpenAI 拿黑洞模拟做案例，说明编程 Agent 正从写代码走向做科研助手

AWS 把芯片调优交给 AI 代理，Trainium 的门槛开始从专家能力变成工具能力

Lobsters 一篇热帖提醒行业：AI 能不能演示成功，已不是最关键的问题