Article Not Found

事件背景

一位开发者近日在掘金发文，记录了他在一台 Intel Xeon E5-2680 v4 服务器（56 核心、约 63GB 内存、GTX 1060 5GB 显卡）上，通过 Ollama 本地运行 Google 最新发布的 Gemma 4 26B 模型的完整过程与实测结果。此次测试的初衷，是希望通过自托管一个性能可靠的开源模型，彻底告别 Claude 和 ChatGPT 的月度订阅费用。

Google 将 Gemma 4 定位为"同等参数量下最强大的开源模型"，其底层研究架构与 Gemini 3 一脉相承。该模型系列共分四个规格：E2B（有效参数 2B，量化后约 3GB）、E4B（有效参数 4B）、26B MoE（混合专家架构，每次推理激活约 4B 参数），以及 31B 稠密版旗舰模型。

作者使用了 llmfit——一款硬件兼容性检测工具，通过 curl -fsSL https:// llmfit.axjns.dev/install.sh | sh 安装——来判断服务器能够运行哪个 Gem ma 4 版本。工具推荐了 26B 或 31B 两个选项，最终选择了 26B M oE 版本，认为其在能力与速度之间取得了最佳平衡。

为何值得关注

这次测试揭示了一个对所有评估消费级或老旧硬件进行本地 LLM 部署的人而言都至关重要的实际限制：原始算力和内存容量并非关键瓶颈，内存带宽才是。

Xeon E5-2680 v4 在理想的四通道配置下，理论内存带宽约为 76.8 GB/s。对于经过 4-bit 量化的 26B 模型，模型权重占用约 16–18GB。每生成一个 token，这些权重都需要完整地通过 CPU 内存总线进行搬运。最终结果是：CPU 使用率飙升至 100%，而输出速度却肉眼可见地迟缓——这一点在推理过程中通过 ps 命令监控得到了验证。

作者的比喻相当精准："就像一条八车道的高速公路，却只开了一个收费窗口。"量化程度越高，内存占用越小，但模型质量也随之下降，这反而违背了运行大模型的初衷。

对于正在评估 20B–30B 量级模型本地化或边缘部署方案的工程团队而言，这次测试提供了一个具体的参考数据点：即便是一台内存充裕的 2016 年企业级 CPU 工作站，在没有现代 GPU 提供高带宽 VRAM 支持的情况下，依然无法为这一规模的模型提供可接受的推理吞吐量。

技术细节

Gemma 4 模型规格

E2B：面向智能手机和 Io T 设备，量化后约 3GB
E4B：适用于移动端和边缘设备，具备更强的推理能力，支持离线运行
26B MoE：总参数 26B，每次前向传播激活约 4B 参数，专为消费级 GPU 设计，延迟较低
31B Dense：旗舰稠密版；Google 引用的基准测试显示，其在数学和编程任务上的表现超越了"数十倍参数量"的其他模型

安装流程

通过 Ollama 下载模型：ollama run gemma4:26b，下载体积约 17GB。由于 GTX 1060 的 VRAM 仅有 4GB（实际可用 4.00GB），不足以容纳模型权重，推理后端采用了 Vulkan（CPU 端），完全依靠 CPU 进行推理。

瓶颈分析

GTX 1060 5GB 显卡由于实际可用 VRAM 仅为 4GB，无法承载 26B 模型的卸载，迫使系统完全依赖 CPU 推理。Xeon E5-2680 v4 理论 76.8 GB/s 的内存带宽，成为每秒生成 token 数量的硬性上限。作者虽未给出具体的 tokens/ s 数据，但在未经加速的演示视频中，输出速度明显偏慢。

后续看点

GPU 升级跟进：作者计划在同一服务器机箱中安装 Nvidia RTX 3090（24GB VRAM）。RTX 3090 提供约 936 GB/s 的内存带宽——是 Xeon 理论上限的 12 倍有余——这将使 26B MoE 模型完整加载至 VRAM，推理速度有望大幅提升。相关测试结果将在后续文章中发布。
Gemma 4 独立基准测试：Google 关于 Gemma 4"同等参数量下最强开源模型"的声明，将在未来数周内接受开源评测社区（LM Sys、EleutherAI Harness）的独立验证。可重点关注第三方发布的 MMLU、HumanEval 和 MATH 评分。
Ollama 兼容性更新：鉴于 Gemma 4 的 MoE 架构对本地推理运行时来说相对较新，值得持续关注 Ollama 的版本更新——未来的更新可能改进层级分割或 CPU/GPU 混合部署下的部分 GPU 卸载能力，从而为类似本次测试的硬件配置带来一定程度的性能改善。
订阅服务竞争压力：如果 Gemma 4 26B MoE 在单张 RTX 3090 上能够达到媲美 Claude 的输出质量，那么对于个人开发者和小型团队而言，自托管与每月 $20 的 SaaS 订阅之间的经济账将发生实质性转变。

放弃 Claude 订阅？我用 8 年前的服务器，强跑 Google 最强开源模型 Gemma 4 真实测评！

事件背景

为何值得关注

技术细节

Gemma 4 模型规格

安装流程

后续看点

Related Reading

Google Lets Chrome Run AI Models Directly — The Browser is Becoming the New OS

Google Multi-Agent Speeds Code Migration 6x: From Functions to Engineering

Consumer GPU Hits 100K Context: Local LLM Hardware Thresholds Drop Fast

OpenClaw Joins Feishu: AI Agents Shift from Geek Toys to Enterprise Coworkers

Todoist Ramble: AI Builds Tasks As You Speak, Bypassing Text Transcription

Veterans Skip Reviews: Vibe Coding & Agentic Engineering Dangerously Converge

放弃 Claude 订阅？我用 8 年前的服务器，强跑 Google 最强开源模型 Gemma 4 真实测评！

事件背景

为何值得关注

技 术细节

Gemma 4 模型规格

安装流程

后续看点

Related Reading

Google Lets Chrome Run AI Models Directly — The Browser is Becoming the New OS

Google Multi-Agent Speeds Code Migration 6x: From Functions to Engineering

Consumer GPU Hits 100K Context: Local LLM Hardware Thresholds Drop Fast

OpenClaw Joins Feishu: AI Agents Shift from Geek Toys to Enterprise Coworkers

Todoist Ramble: AI Builds Tasks As You Speak, Bypassing Text Transcription

Veterans Skip Reviews: Vibe Coding & Agentic Engineering Dangerously Converge

技术细节