Qwen 3.6 跑分赢实测输 — 刷榜正在扭曲大模型能力认知

这是什么

一位开发者在本地用 vLLM（一种大模型推理框架）实测 Qwen 3.6 与 Gemma 4，发现跑分领先的 Qwen 因死循环烧掉 8000+ Token（模型处理文本的单位）而落败：大模型刷榜（Benchmaxing，即针对测试集专门优化）正在扭曲我们对 AI 能力的判断。测试用梗图、看图猜地点和健身视频等未优化数据对比发现：Qwen 在处理冷门问题时会过度思考并烧掉大量 Token，而 Gemma 更克制；Gemma 在遵循格式指令（如输出坐标）上明显优于 Qwen；两者存在文化偏差，Qwen 更懂亚洲梗，Gemma 更熟欧洲景；不过 Qwen 在视频动作追踪（如数杠铃次数）上表现更佳。

行业怎么看

这件事的核心判断是：跑分与现实之间的鸿沟正在扩大，刷榜正在伤害大模型的可用性。模型厂商为了营销在测试集上刷分，导致企业落地时发现模型听不懂人话且成本失控。我们值得关心的是，当跑分失去参考价值，选型的试错成本将大幅转嫁给企业。当然，也有声音认为跑分仍提供了基础能力的下限参考，且 Qwen 在视频理解上的进步证明了其技术迭代的有效性，不能因个别场景否定整体。但不可否认，AI 视频检测目前仍是抛硬币水平，模型在判断真伪时前后矛盾，这是当前视觉模型的共同短板。

对普通人的影响

对企业 IT：按跑分选模型风险极高，建议用真实业务数据做灰度测试，重点关注指令遵循率和 Token 消耗，避免被账面数据误导。

对个人职场：评估 AI 工具不要迷信排行榜，在你的具体工作流中跑一次，比看十篇评测都管用。

对消费市场：由于训练数据的偏差，国内用户在处理亚洲文化语境的图片或日常查询时，国产模型可能会比海外模型提供更接地气的反馈。

Qwen 3.6 跑分赢实测输 — 刷榜正在扭曲大模型能力认知

这是什么

行业怎么看

对普通人的影响

相关推荐

Qwen3.6单卡深搜95.7%—本地AI追平Perplexity，Agent比拼工具调用而非模型大小

开源社区造出混合检索记忆工具 — Agent 不靠大上下文也能记事了

单张 3090 在 Windows 跑通 Qwen3 — 本地部署大模型不再必须折腾 Linux

Qwen 3.6 本地替代 Copilot — 零 API 费，但新手别碰

AI 会精准删库却毫无察觉 — 我们还没教会 AI 说「不」

纯C++无依赖手搓Transformer成功，揭开大模型黑盒但难改算力格局