事件概述

广受社区欢迎的 text-generation-webui 开发者 oobabooga, 近日在 LocalBench Substack 上发布了五份详细 的基准评测报告,对四款模型的 GGUF 量化性能进行了系 统评估,涵盖 Gemma 4 26B-A4B、Gemma 4 E4B、Qwen3.5-35B-A3B 以 及 Qwen3.5-27B。根据 Reddit 用户 u/Plenty_Extent_9047 在 r/LocalLLaMA 发布的 帖子(截至发稿已获 61 个赞), 其中 31B 模型的分析报告对外免费开放, 其余报告则需付费订阅。

每份报告涵盖约 70 至 90 个独立的 GGUF 量化版本,来源涵盖 Unsloth、Bartowski、LM Studio、GGML、Mradermacher、AesSedai 以及 Ubergarm 等主流量化分发方。

为何值得关注

本地推理从业者长期面临一个缺乏充分文档支撑的权衡难题 :在给定的 VRAM 预算下,哪种量化级别能最好地保留模型质量?现 有的大多数公开基准采用 WikiText 困惑度(perplexity)指 标,而该指标与实际对话性能的相关性较弱。oobabooga 的评 测方法论正是针对这一痛点而设计。

本次每个 模型评测了 70 至 90 个量化版本,是目前针对新 一代 MoE 与稠密模型 GGUF 量化保真度最为详尽的公开对比之 一。对于在边缘设备或消费级硬件上运行 Gemma 4 或 Qwen 3.5 的团队而言,这些报告提供了可直 接指导量化版本选型的实用数据,否则需要投 入大量内部测试资源方能复现。

付费墙的存 在也折射出一个更宏观的趋势:高算力评测工作——即那些 能够产出可信基准的工作——作为免费社区资源已 愈发难以为继。帖子作者指出,"运行这些基准测试耗费 大量时间与资金",并表示 oobabooga 可能会定期将部 分付费报告免费开放。

技术细节

本次基准测 试采用 KL Divergence(KL 散度)方法,而非传统的 WikiText 困惑度。 KL 散度衡量量化模型与全精度参考模型之间概率分布的差异程度,能 够在多样化提示类型上提供更直接的性能退 化信号。

评测数据集横跨六大类别,总计约 250,000 个 token

  • 代码生成
  • 通用对话
  • 工具调用
  • 科学知 识
  • 非拉丁文字
  • 长文档处理

这种多领域评测方式 对于 MoE 架构模型尤为关键,例如 Gemma 4 26B-A4B( 激活参数 4B)和 Qwen3.5-35B-A3B(激活参数 3B)——在这类 架构中,专家路由行为在不同量化级别和任务类型上的退化程度可能存在显 著差异。一个在代码生成上表现良好的量化版本,可能在 WikiText 困惑度上 毫无异常,却在工具调用提示上呈现出可观测的 KL 散度—— 而这恰恰是该评测方法论旨在暴露的失效 模式。

本次评测的模型列表如下:

  • Gemma 4 26B-A4B:Google 的 MoE 模型, 总参数 26B,激活参数 4B
  • Gemma 4 E4B: Gemma 4 系列中的稠密 4B 版本
  • Qwen3.5-35B-A3B:阿里 巴巴的 MoE 模型,总参数 35B,激活参数 3B
  • Qwen3.5-27B:阿里巴巴 Qwen3.5 系 列的稠密 27B 模型

涵盖的量化分发方包括各 大主流社区提供方。值得一提的是,Ubergarm 专注于高质量 IQ 系列量化,其同比特深度的 量化版本往往优于标准 GGUF 量化——这使得 跨提供方在等效比特深度下的横向对比 尤具参考价值。

后续动态

未来 30 天内,以下几个方向值得持续关注:

  • 免费报告开 放:帖子作者表示 oobabooga 可能定期解锁付费报告。Gemma 4 26B-A4B 与 Qwen3.5-35B-A3B 的报告对于在消费级或 准专业级硬件上运行 MoE 模型的团队最 具实用价值——建议持续关注 LocalBench Substack 以获 取访问权限。
  • 量化分发方的跟进响应:Bartowski 与 Unsloth 均以快速迭代量化方案著称。如 此规模的 KL 散度公开数 据,通常会在数周内促使 这些分发方推出更新版本的量化文件 。
  • 评测方法论的扩散:基于 KL 散度的 GGUF 评测尚未成 为行业标准。若 oobabooga 的报告获得广泛认可,预计 llama.cpp 维护者及其他基准测试项目将陆续引入类 似的多领域评测数据集。
  • Qwen3.5 覆盖范围扩展:阿里巴巴 仍在持续发布新的 Qwen3.5 变体。若 Substack 的社 区支持持续增长,针对更大或更小参 数规模的基准报告很可能随之跟进。