4 比特量化把 35B 模型压到 23GB 左右，本地部署门槛还在继续下降

最新一组社区测试给了一个很具体的信号：Qwen3.6 的 27B 和 35B 模型，在 4 比特量化后，权重体积大致可降到 19GB 到 23GB，同时与 BF16 基线的差距仍控制在较低水平。我们的判断是，这不是一次普通的参数调优，而是本地部署门槛继续下降的证据：大模型的价值，正越来越取决于“能不能在企业现有算力里跑起来”。

这是什么

这次更新来自社区项目 cyankiwi AWQ。AWQ（Activation-aware Weight Quantization，按模型激活特征做权重量化）可以把模型从更高精度压缩到 4 比特，目的是减少显存和存储占用。更新加入了 NVFP4 和 FP8 Dynamic 两种格式支持，并拿 Qwen3.6 的 27B 密集模型和 35B-A3B MoE（混合专家模型，用部分子模型按需激活）做了基准测试。

测试使用 KLD（KL 散度，用来衡量量化后输出分布与 BF16 基线差多少）作为指标。结果里，cyankiwi 的 4bit AWQ 在两组模型上都拿到了较低偏差：27B 版本 KLD 为 0.020443，35B-A3B 版本为 0.017126，优于多组 AutoRound、NVFP4 和其他 AWQ 方案。直白说，同样是压到 4 比特，它在“省资源”和“少掉表现”之间找到了更好的平衡。

行业怎么看

值得我们关心的是，量化这件事正在从研究圈的小优化，变成部署层的大问题。过去行业比拼的是基座模型参数和榜单名次，现在企业更关心的是：一台现有服务器能不能带动、推理成本能不能压下去、数据能不能留在本地。4 比特量化的重要性，就在这里。

这也解释了为什么围绕 Qwen、vLLM、Unsloth、NVIDIA 的量化版本越来越多：模型能力逐渐接近后，部署友好度会直接影响采购和落地。

但反对意见同样成立。第一，这类测试主要看 KLD，而不是完整业务效果；KLD 更低，不等于写代码、做客服、跑工作流时一定更好。第二，不同量化格式对硬件支持差异很大，NVFP4、FP8 Dynamic 并不是所有企业 GPU 都能顺畅吃下。第三，社区 benchmark 往往基于合成样本，离真实生产环境还有距离。我们的判断是，量化正在变得重要，但它还不能替代真实场景验收。

对普通人的影响

对企业 IT： 如果模型能在更小显存里运行，企业私有化部署的预算会更好算，一些原本上不了大模型的中型团队，开始有机会试水本地推理。

对个人职场： 这会让“会不会用大模型”之外，再多出一层能力差异：是否理解部署成本、模型体积和效果之间的取舍，尤其对产品、数据、IT 管理岗位更明显。

对消费市场： 更轻的模型通常意味着更快进入本地设备、边缘设备和离线工具。短期不一定直接带来体验飞跃，但会让“设备侧 AI”比口号更接近现实。

4 比特量化把 35B 模型压到 23GB 左右，本地部署门槛还在继续下降

这是什么

行业怎么看

对普通人的影响

相关推荐

一个 5MB 小工具跑通英伟达 3D 模型，AI 推理开始从大平台回到轻部署

32GB 显存把本地大模型速度拉高 2 到 6 倍，企业买卡逻辑开始变了

一块灰尘让 RTX 3090 反复掉线，本地算力热潮先卡在维护基本功

Lobsters 一篇热帖提醒行业：AI 能不能演示成功，已不是最关键的问题

Anthropic 提出给更强 AI 设“暂停键”，这不是保守，而是在抢规则制定权

Quasar-Preview 打出 500 万上下文，大模型竞争开始从会答题转向会读长材料