事件背景

一位开发者近日在掘金发 文,记录了他在一台 Intel Xeon E5-2680 v4 服务器(56 核心、约 63GB 内存、GTX 1060 5GB 显卡)上,通过 Ollama 本 地运行 Google 最新发布的 Gemma 4 26B 模型的完整过程与 实测结果。此次测试的初衷,是希望通过自托管一个性 能可靠的开源模型,彻底告别 Claude 和 ChatGPT 的月度订阅费用。

Google 将 Gemma 4 定位为"同等参数量下最强大的开源模型",其底层研 究架构与 Gemini 3 一脉相承。该模型系列共分四个规格:E2B(有效 参数 2B,量化后约 3GB)、E4B(有效参数 4B)、26B MoE(混合专家架构,每 次推理激活约 4B 参数),以及 31B 稠密版旗舰模型。

作者使用了 llmfit——一款硬件兼容性检测工具,通过 curl -fsSL https:// llmfit.axjns.dev/install.sh | sh 安装——来判断服务器能够运行哪个 Gem ma 4 版本。工具推荐了 26B 或 31B 两个选项,最终选择了 26B M oE 版本,认为其在能力与速度之间取得了 最佳平衡。

为何值得关注

这次测试揭示了一个对 所有评估消费级或老旧硬件进行本地 LLM 部署的人 而言都至关重要的实际限制:原始算力和内存容量并非关 键瓶颈,内存带宽才是。

Xeon E5-2680 v4 在理想的四通道配置下,理论内存带宽约 为 76.8 GB/s。对于经过 4-bit 量化的 26B 模型,模型权重占用 约 16–18GB。每生成一个 token,这些权重都需要完整地通 过 CPU 内存总线进行搬运。最终结果是:CPU 使用率飙升至 100%,而输出速度却肉眼可见地迟缓——这一 点在推理过程中通过 ps 命令监控得到了验证。

作者的比喻相当精准:"就像一条八车道的 高速公路,却只开了一个收费窗口。"量化程 度越高,内存占用越小,但模型质量也随之下降,这反而 违背了运行大模型的初衷。

对于正在评估 20B–30B 量级模型本地化或边缘部署方案的工程团队而 言,这次测试提供了一个具体的参考数据点:即便是一台内存充 裕的 2016 年企业级 CPU 工作站,在没有现代 GPU 提供高带宽 VRAM 支持的情况下,依 然无法为这一规模的模型提供可接受的推理吞吐量。

技 术细节

Gemma 4 模型规格

  • E2B:面向智能手机和 Io T 设备,量化后约 3GB
  • E4B:适用于移动端和边缘设备,具备 更强的推理能力,支持离线运行
  • 26B MoE:总参数 26B,每次前 向传播激活约 4B 参数,专为消费级 GPU 设计,延迟较低
  • 31B Dense:旗舰稠密版;Google 引用的基准测试显 示,其在数学和编程任务上的表现超越了"数十倍参 数量"的其他模型

安装流程

通过 Ollama 下载模型:ollama run gemma4:26b ,下载体积约 17GB。由于 GTX 1060 的 VRAM 仅有 4GB( 实际可用 4.00GB),不足以容纳模型权重,推理后端 采用了 Vulkan(CPU 端),完全依靠 CPU 进行推理。

瓶颈分析

GTX 1060 5GB 显卡由于实际可 用 VRAM 仅为 4GB,无法承载 26B 模型的卸载,迫使系统完全依赖 CPU 推理。Xeon E5-2680 v4 理论 76.8 GB/s 的 内存带宽,成为每秒生成 token 数量的 硬性上限。作者虽未给出具体的 tokens/ s 数据,但在未经加速的演示视 频中,输出速度明显偏慢。

后续看点

  • GPU 升级跟进:作者计划在同一服务器机箱中安装 Nvidia RTX 3090(24GB VRAM)。RTX 3090 提供约 936 GB/s 的内存带宽——是 Xeon 理论上限的 12 倍有余——这将使 26B MoE 模型完整加载至 VRAM,推理速度有 望大幅提升。相关测试结果将在后续文章中发布。
  • Gemma 4 独 立基准测试:Google 关于 Gemma 4"同等参数量下最强开源模型"的声明, 将在未来数周内接受开源评测 社区(LM Sys、EleutherAI Harness)的独立验证。可 重点关注第三方发布的 MMLU、HumanEval 和 MATH 评 分。
  • Ollama 兼容性更新:鉴于 Gemma 4 的 MoE 架构对 本地推理运行时来说相对较 新,值得持续关注 Ollama 的版本更新——未来的 更新可能改进层级分割或 CPU/GPU 混合部署下 的部分 GPU 卸载能力,从而为 类似本次测试的硬件配置带来一定程度的性能改 善。
  • 订阅服务竞争压力:如果 Gemma 4 26B MoE 在单张 RTX 3090 上能够达到 媲美 Claude 的输出质量,那么对于个人开发者和小型团队而言,自 托管与每月 $20 的 SaaS 订阅之间的经济账 将发生实质性转变。