17GB 对 32GB,本该更省资源的版本却没跑出更好结果:社区一位用户测试 Google Gemma 4 31B 的 QAT Q4 模型时发现,它在 Top-1 KLD 指标上明显落后于普通 Q4,最好成绩反而来自传统的 Q4_K_M 量化版本。我们的判断是,这不是一次简单的“跑分乌龙”,而是在提醒市场:大模型压缩正在进入工程细节决定体验的阶段,厂商一句“更高效”并不足够。
这是什么
事情来自 Reddit 的 LocalLLaMA 社区。一位主要在 CPU 上本地运行 Gemma 4 31B 的用户,对比了多个 GGUF 版本(本地推理常用模型封装格式):包括 Google 发布的 QAT Q4、Unsloth 提供的普通 Q4 和 Q4_K_M 等。
这里的关键术语是 QAT,即量化感知训练(训练阶段就模拟低比特精度,让模型适应压缩后的表示),理论上它应当比“训练完再直接压缩”的普通量化更稳,尤其在 4-bit 这种低精度场景更有优势。
但这次测试得到的却是反直觉结果:标准 Q4_0 优于 Google 的 QAT Q4_0,而 Q4_K_M 又优于前两者。测试者用的是前 5000 个 token、固定参数、3 次重复、结果完全一致。样本不算大,但至少说明一个问题:在真实推理链路里,QAT 的理论优势没有自动兑现。
行业怎么看
这件事之所以重要,不是因为某个社区帖子“打脸”了 Google,而是它暴露出一个常被忽略的事实:模型压缩的效果,不只取决于论文路线,还取决于格式转换、推理引擎、量化实现和评测口径。
支持者会说,QAT 仍然是行业公认的正确方向。它的目标不是单一跑分,而是让低比特模型在更多任务上接近原始精度。Google 和 Unsloth 使用的转换流程、GGUF 打包方式、校准方法不同,最后落到 llama.cpp 上,结果未必能代表底层 checkpoint 的真实能力。
但反对意见同样成立:如果一个“更先进”的压缩方案,到了开发者最常用的本地工具链里反而表现更差,那它在商业上就还不算成熟。值得我们关心的风险有两个:一是评测样本只有 5000 token,不能外推到全部场景;二是 KLD 这类分布指标和真实业务效果并不完全等价,写代码、长文总结、客服问答未必同步受影响。
我们的判断是,市场接下来会更看重“端到端可验证的效果”,而不是单点宣传。模型公司如果只放出 checkpoint,却不给足够透明的对比数据,社区迟早会自己补课,也会更快暴露宣传与落地之间的落差。
对普通人的影响
对企业 IT: 采购或部署本地模型时,不能只看参数量和显存占用。“同样 4-bit”背后可能是完全不同的效果,评测链路需要自己搭,至少要覆盖核心业务样本。
对个人职场: 对常用本地模型处理长文档、报告、代码的人来说,速度提升不一定等于质量稳定。低精度版本是否“够用”,最好先在自己的任务上测,而不是照搬榜单。
对消费市场: 这会影响端侧 AI 产品的真实体验。手机、PC 上宣传“更小更快”的模型会越来越多,但真正能留下用户的,仍然是压缩后是否还能保持回答质量,而不是纸面规格。