这是什么
一位开发者在本地用 vLLM(一种大模型推理框架)实测 Qwen 3.6 与 Gemma 4,发现跑分领先的 Qwen 因死循环烧掉 8000+ Token(模型处理文本的单位)而落败:大模型刷榜(Benchmaxing,即针对测试集专门优化)正在扭曲我们对 AI 能力的判断。测试用梗图、看图猜地点和健身视频等未优化数据对比发现:Qwen 在处理冷门问题时会过度思考并烧掉大量 Token,而 Gemma 更克制;Gemma 在遵循格式指令(如输出坐标)上明显优于 Qwen;两者存在文化偏差,Qwen 更懂亚洲梗,Gemma 更熟欧洲景;不过 Qwen 在视频动作追踪(如数杠铃次数)上表现更佳。
行业怎么看
这件事的核心判断是:跑分与现实之间的鸿沟正在扩大,刷榜正在伤害大模型的可用性。模型厂商为了营销在测试集上刷分,导致企业落地时发现模型听不懂人话且成本失控。我们值得关心的是,当跑分失去参考价值,选型的试错成本将大幅转嫁给企业。当然,也有声音认为跑分仍提供了基础能力的下限参考,且 Qwen 在视频理解上的进步证明了其技术迭代的有效性,不能因个别场景否定整体。但不可否认,AI 视频检测目前仍是抛硬币水平,模型在判断真伪时前后矛盾,这是当前视觉模型的共同短板。
对普通人的影响
对企业 IT:按跑分选模型风险极高,建议用真实业务数据做灰度测试,重点关注指令遵循率和 Token 消耗,避免被账面数据误导。
对个人职场:评估 AI 工具不要迷信排行榜,在你的具体工作流中跑一次,比看十篇评测都管用。
对消费市场:由于训练数据的偏差,国内用户在处理亚洲文化语境的图片或日常查询时,国产模型可能会比海外模型提供更接地气的反馈。