Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析

事件概述

广受社区欢迎的 text-generation-webui 开发者 oobabooga，近日在 LocalBench Substack 上发布了五份详细的基准评测报告，对四款模型的 GGUF 量化性能进行了系统评估，涵盖 Gemma 4 26B-A4B、Gemma 4 E4B、Qwen3.5-35B-A3B 以及 Qwen3.5-27B。根据 Reddit 用户 u/Plenty_Extent_9047 在 r/LocalLLaMA 发布的帖子（截至发稿已获 61 个赞），其中 31B 模型的分析报告对外免费开放，其余报告则需付费订阅。

每份报告涵盖约 70 至 90 个独立的 GGUF 量化版本，来源涵盖 Unsloth、Bartowski、LM Studio、GGML、Mradermacher、AesSedai 以及 Ubergarm 等主流量化分发方。

为何值得关注

本地推理从业者长期面临一个缺乏充分文档支撑的权衡难题：在给定的 VRAM 预算下，哪种量化级别能最好地保留模型质量？现有的大多数公开基准采用 WikiText 困惑度（perplexity）指标，而该指标与实际对话性能的相关性较弱。oobabooga 的评测方法论正是针对这一痛点而设计。

本次每个模型评测了 70 至 90 个量化版本，是目前针对新一代 MoE 与稠密模型 GGUF 量化保真度最为详尽的公开对比之一。对于在边缘设备或消费级硬件上运行 Gemma 4 或 Qwen 3.5 的团队而言，这些报告提供了可直接指导量化版本选型的实用数据，否则需要投入大量内部测试资源方能复现。

付费墙的存在也折射出一个更宏观的趋势：高算力评测工作——即那些能够产出可信基准的工作——作为免费社区资源已愈发难以为继。帖子作者指出，"运行这些基准测试耗费大量时间与资金"，并表示 oobabooga 可能会定期将部分付费报告免费开放。

技术细节

本次基准测试采用 KL Divergence（KL 散度）方法，而非传统的 WikiText 困惑度。 KL 散度衡量量化模型与全精度参考模型之间概率分布的差异程度，能够在多样化提示类型上提供更直接的性能退化信号。

评测数据集横跨六大类别，总计约 250,000 个 token：

代码生成
通用对话
工具调用
科学知识
非拉丁文字
长文档处理

这种多领域评测方式对于 MoE 架构模型尤为关键，例如 Gemma 4 26B-A4B（激活参数 4B）和 Qwen3.5-35B-A3B（激活参数 3B）——在这类架构中，专家路由行为在不同量化级别和任务类型上的退化程度可能存在显著差异。一个在代码生成上表现良好的量化版本，可能在 WikiText 困惑度上毫无异常，却在工具调用提示上呈现出可观测的 KL 散度—— 而这恰恰是该评测方法论旨在暴露的失效模式。

本次评测的模型列表如下：

Gemma 4 26B-A4B：Google 的 MoE 模型，总参数 26B，激活参数 4B
Gemma 4 E4B： Gemma 4 系列中的稠密 4B 版本
Qwen3.5-35B-A3B：阿里巴巴的 MoE 模型，总参数 35B，激活参数 3B
Qwen3.5-27B：阿里巴巴 Qwen3.5 系列的稠密 27B 模型

涵盖的量化分发方包括各大主流社区提供方。值得一提的是，Ubergarm 专注于高质量 IQ 系列量化，其同比特深度的量化版本往往优于标准 GGUF 量化——这使得跨提供方在等效比特深度下的横向对比尤具参考价值。

后续动态

未来 30 天内，以下几个方向值得持续关注：

免费报告开放：帖子作者表示 oobabooga 可能定期解锁付费报告。Gemma 4 26B-A4B 与 Qwen3.5-35B-A3B 的报告对于在消费级或准专业级硬件上运行 MoE 模型的团队最具实用价值——建议持续关注 LocalBench Substack 以获取访问权限。
量化分发方的跟进响应：Bartowski 与 Unsloth 均以快速迭代量化方案著称。如此规模的 KL 散度公开数据，通常会在数周内促使这些分发方推出更新版本的量化文件。
评测方法论的扩散：基于 KL 散度的 GGUF 评测尚未成为行业标准。若 oobabooga 的报告获得广泛认可，预计 llama.cpp 维护者及其他基准测试项目将陆续引入类似的多领域评测数据集。
Qwen3.5 覆盖范围扩展：阿里巴巴仍在持续发布新的 Qwen3.5 变体。若 Substack 的社区支持持续增长，针对更大或更小参数规模的基准报告很可能随之跟进。

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析

事件概述

为何值得关注

技术细节

后续动态

相关推荐

高盛警告：标普500指数已经约等于半个“AI指数”

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

客户聊天记录太长、 AI 总「断片」？ De epSeek 新版能一口气读完一本书的内容了

同样的AI 对话质量，费用只要四分之一 — 我最近在帮客户省这笔钱

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的 量化基准分析

事件概述

为何值得关注

技术细节

后续动态

相关推荐

高盛警告：标普500指数已经约等于半个“AI指数”

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

客户聊天记录太长、 AI 总「断片」？ De epSeek 新版能一口气读完一本书的内容了

同样的AI 对话质量，费用只要四分之一 — 我最近在帮客户省这笔钱

Gemma 4 与 Qwen 3.5 GGUF 深度评测：oobabooga 的量化基准分析