事件 背景
Reddit 用户 u/herpn
derpler 在 r/LocalLLaMA 社区发布了一份可
复现的推理配置,在单张 NVIDIA RTX 3080(12GB 显存)上实现了 Qwen3
.6-35B-A3B 模型约 40 tokens/s 的推理速度。该
方案的核心依赖是 llama-cpp-turboquant——由
开发者 TheTom 维护的一个 GPU 加速版
llama.cpp 分支——并对 K
缓存和 V 缓存均启用了自定义的
turbo3 KV cache 量化类型。帖子发出后迅速在
"显卡贫困"本地推理社区中引
发广泛关注。
为何值 得关注
Qwen(阿里巴巴)推出的 35B- A3B 系列模型采用混合专家(Mixture-of-Experts)架构 ,每次前向传播仅激活约 30 亿参数,使其成为消费级 GPU 推理的理 想候选目标。然而,在 12GB 显存内支撑 260,000 token 的上下文窗口,本质上是一道高难度的内存工 程题。turbo3 KV cache 量化类型能够对注 意力缓存进行高强度压缩,使上述配置在无 需将数据卸载至 CPU 内存的前 提下成为可能——而一旦启用 CPU 卸载,中端 GPU 的推理吞吐量将大幅下 滑。
对于正在评估本地 LLM 部 署方案的工程团队而言——尤其是在开发者工作站或配 备消费级 GPU 的边缘服务器上跑推理负载的场景——一 份经过验证、能在这一 价位解锁长上下文推理能力的配置具有切实的 落地价值。目前,单张 RTX 3080 在二手市场的 成交价通常不超过 400 美元。
多 阶段提示架构
该用户还指出,其
方案关闭了模型自带的推理模式(--reasoning
off),转而采用手动设计的四阶段提示流水线:提问
→ 验证 → 审查 → 精炼/接受。给出的理由是,与模型内
置的思维链循环相比,显式的流水线阶段能
让"首次获得可用答案的时
间"更短。对于构建智能体(a
gentic)流水线、且对每轮交互延
迟敏感程度高于单次准确率的团队而言,这是一个值得参考的工程实践。
技 术细节
完整的可复现配置需要使用以下 CMake 标志编 译 llama.cpp 的 turboquant 分支:
cmake -B build -D GGML_CUDA=ON -DGGML_CUDA_FA_ALL_QU
ANTS=ON -DGGML_CUDA_F16=ON -DGGML_CUDA_FORCE_MMQ=ON服务端的启 动参数如下:
--cache-type-k turbo3与--cache-type- v turbo3——核心差异化配置,启用压缩式 KV 缓存存储--flash-attn on——标准 Flash Attention 2,实现内 存高效的注意力计算--ctx-size 0 --fit on——动态上下文大小调整,根据可用显存自 动填充,而非预分配固定缓冲区--jinja——使用 Jinja 模板进行提示格 式化- 模型来源:通过 Hugging Face 获取
unsloth/Qwen3.6-35B-A 3B-GGUF:UD-Q4_K_M,即 Unsloth 提供的 4-bit K-quant 量化版本
采样参数遵循 Qwen3 官方非
思考模式的推荐设置:temperature 0.6、top-p 0.95、top-k 20、
min-p 0.0、repeat-penalty 1.0、presence-penalty 0.0。GGML_CUDA_FORCE_MMQ 标
志强制在 CUDA 上使用矩阵乘法量化内核,通常能在
中端 GPU 上以牺牲部分延迟为代价换取更
高的吞吐量。
截至本文撰写时,turbo3 缓存类型
尚未合并至 llama.cpp 上游主线,目
前仅存在于 TheTom 的 turboquant 分支中,且原帖未详
细说明该量化方法的内部实现细节。尝试复
现这一配置的工程师应将其视为实验性构建路径,而非稳定的生产级依赖。
后续值得关注的动态
- 上游合 并进展:关注 turbo3 或同类激 进 KV 量化方案是否会被提议合并至 llama.cpp 上游。ggml 项目此前曾在社区验证充分后合并过 社区贡献的量化方案——相关 PR 或 RFC 的 出现将是重要信号。
- Unsloth GGUF 更新: 本方案使用的是 Unsloth 提供的 UD-Q4_K_M 量化版本。 若 35B-A3B 系列出现针对更低 显存占用的新量化版本,有望进一步将 长上下文推理的可行性延伸至 8GB 显存显 卡。
- Qwen3 模型新版本:阿里巴巴 Qwen 团队近期保 持着较高的模型发布频率。若推出更高 参数密度的 MoE 版本或改版的 35B 架构,上 述基准数据可能在 30 天内出现显著变化。
- 社区复 现验证:r/LocalLLaMA 的讨论帖很可能产 出跨 GPU 型号(RTX 3070 Ti、RTX 4070、 RX 7900 GRE 等)的独立吞吐量测试数据。 跨 GPU 的横向对比将有助于判断该性能增益 是否特定于某一 CUDA 架构,还 是具有普遍适用性。