发生了什么

一位在 NVIDIA DGX Spark GB10 上运行的开发者在 r/LocalLLaMA 发帖,寻求 Google 的 Gemma 4 26B-A4B 模型可用的 vLLM 配置。Intel INT4 量化的 31B 变体虽成功加载,但推理速度无法接受。截至发稿,尚未有确认可用的 26B 变体配置分享。

为何重要

Gemma 4 26B-A4B 是一种混合专家(Mixture-of-Experts)模型,每个 token 仅激活 4B 参数,理论上适合本地部署。然而,vLLM 的 MoE 支持和量化兼容性仍在完善中,且 DGX Spark GB10(Grace Blackwell,128GB 统一内存)等硬件并不总能与社区测试的配置完美匹配。

  • INT4 量化可降低显存压力,但在统一架构上可能受限于 CPU-GPU 内存带宽。
  • vLLM 的 --quantization 标志行为在 AWQ、GPTQ 和 Intel Neural Compressor 格式间存在差异。
  • 26B-A4B 检查点需要 vLLM 0.4.x 或更高版本中正确的 MoE 路由支持。

亚太视角

中国和东南亚开发者常将开源权重模型部署在性价比高的本地硬件上,而非云 API,因此量化性能至关重要。Gemma 4 的宽松许可证允许商业使用,这对面向区域市场的独立 SaaS 产品意义重大。使用阿里云或腾讯云 GPU 实例(A10、A100)的开发者应注意,对于 MoE 模型,AWQ 量化在这些 SKU 上通常优于 GPTQ。Qwen 团队关于 MoE 量化的公开基准测试是调整类似架构的有用参考。

本周行动项

尝试使用 vllm serve google/gemma-4-26b-a4b --quantization awq --max-model-len 8192 --tensor-parallel-size 1 加载 Gemma 4 26B-A4B,并将其吞吐量与 INT4 变体进行比较。报告批次大小为 1 时的 tokens/sec,以隔离内存带宽瓶颈。