事件 背景

Reddit 用户 u/herpn derpler 在 r/LocalLLaMA 社区发布了一份可 复现的推理配置,在单张 NVIDIA RTX 3080(12GB 显存)上实现了 Qwen3 .6-35B-A3B 模型约 40 tokens/s 的推理速度。该 方案的核心依赖是 llama-cpp-turboquant——由 开发者 TheTom 维护的一个 GPU 加速版 llama.cpp 分支——并对 K 缓存和 V 缓存均启用了自定义的 turbo3 KV cache 量化类型。帖子发出后迅速在 "显卡贫困"本地推理社区中引 发广泛关注。

为何值 得关注

Qwen(阿里巴巴)推出的 35B- A3B 系列模型采用混合专家(Mixture-of-Experts)架构 ,每次前向传播仅激活约 30 亿参数,使其成为消费级 GPU 推理的理 想候选目标。然而,在 12GB 显存内支撑 260,000 token 的上下文窗口,本质上是一道高难度的内存工 程题。turbo3 KV cache 量化类型能够对注 意力缓存进行高强度压缩,使上述配置在无 需将数据卸载至 CPU 内存的前 提下成为可能——而一旦启用 CPU 卸载,中端 GPU 的推理吞吐量将大幅下 滑。

对于正在评估本地 LLM 部 署方案的工程团队而言——尤其是在开发者工作站或配 备消费级 GPU 的边缘服务器上跑推理负载的场景——一 份经过验证、能在这一 价位解锁长上下文推理能力的配置具有切实的 落地价值。目前,单张 RTX 3080 在二手市场的 成交价通常不超过 400 美元。

多 阶段提示架构

该用户还指出,其 方案关闭了模型自带的推理模式(--reasoning off),转而采用手动设计的四阶段提示流水线:提问 → 验证 → 审查 → 精炼/接受。给出的理由是,与模型内 置的思维链循环相比,显式的流水线阶段能 让"首次获得可用答案的时 间"更短。对于构建智能体(a gentic)流水线、且对每轮交互延 迟敏感程度高于单次准确率的团队而言,这是一个值得参考的工程实践。

技 术细节

完整的可复现配置需要使用以下 CMake 标志编 译 llama.cpp 的 turboquant 分支:

cmake -B build -D GGML_CUDA=ON -DGGML_CUDA_FA_ALL_QU ANTS=ON -DGGML_CUDA_F16=ON -DGGML_CUDA_FORCE_MMQ=ON

服务端的启 动参数如下:

  • --cache-type-k turbo3--cache-type- v turbo3——核心差异化配置,启用压缩式 KV 缓存存储
  • --flash-attn on——标准 Flash Attention 2,实现内 存高效的注意力计算
  • --ctx-size 0 --fit on——动态上下文大小调整,根据可用显存自 动填充,而非预分配固定缓冲区
  • --jinja——使用 Jinja 模板进行提示格 式化
  • 模型来源:通过 Hugging Face 获取 unsloth/Qwen3.6-35B-A 3B-GGUF:UD-Q4_K_M,即 Unsloth 提供的 4-bit K-quant 量化版本

采样参数遵循 Qwen3 官方非 思考模式的推荐设置:temperature 0.6、top-p 0.95、top-k 20、 min-p 0.0、repeat-penalty 1.0、presence-penalty 0.0。GGML_CUDA_FORCE_MMQ 标 志强制在 CUDA 上使用矩阵乘法量化内核,通常能在 中端 GPU 上以牺牲部分延迟为代价换取更 高的吞吐量。

截至本文撰写时,turbo3 缓存类型 尚未合并至 llama.cpp 上游主线,目 前仅存在于 TheTom 的 turboquant 分支中,且原帖未详 细说明该量化方法的内部实现细节。尝试复 现这一配置的工程师应将其视为实验性构建路径,而非稳定的生产级依赖。

后续值得关注的动态

  • 上游合 并进展:关注 turbo3 或同类激 进 KV 量化方案是否会被提议合并至 llama.cpp 上游。ggml 项目此前曾在社区验证充分后合并过 社区贡献的量化方案——相关 PR 或 RFC 的 出现将是重要信号。
  • Unsloth GGUF 更新: 本方案使用的是 Unsloth 提供的 UD-Q4_K_M 量化版本。 若 35B-A3B 系列出现针对更低 显存占用的新量化版本,有望进一步将 长上下文推理的可行性延伸至 8GB 显存显 卡。
  • Qwen3 模型新版本:阿里巴巴 Qwen 团队近期保 持着较高的模型发布频率。若推出更高 参数密度的 MoE 版本或改版的 35B 架构,上 述基准数据可能在 30 天内出现显著变化。
  • 社区复 现验证:r/LocalLLaMA 的讨论帖很可能产 出跨 GPU 型号(RTX 3070 Ti、RTX 4070、 RX 7900 GRE 等)的独立吞吐量测试数据。 跨 GPU 的横向对比将有助于判断该性能增益 是否特定于某一 CUDA 架构,还 是具有普遍适用性。