GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

事件背景

Reddit 用户 u/herpn derpler 在 r/LocalLLaMA 社区发布了一份可复现的推理配置，在单张 NVIDIA RTX 3080（12GB 显存）上实现了 Qwen3 .6-35B-A3B 模型约 40 tokens/s 的推理速度。该方案的核心依赖是 llama-cpp-turboquant——由开发者 TheTom 维护的一个 GPU 加速版 llama.cpp 分支——并对 K 缓存和 V 缓存均启用了自定义的 turbo3 KV cache 量化类型。帖子发出后迅速在 "显卡贫困"本地推理社区中引发广泛关注。

为何值得关注

Qwen（阿里巴巴）推出的 35B- A3B 系列模型采用混合专家（Mixture-of-Experts）架构，每次前向传播仅激活约 30 亿参数，使其成为消费级 GPU 推理的理想候选目标。然而，在 12GB 显存内支撑 260,000 token 的上下文窗口，本质上是一道高难度的内存工程题。turbo3 KV cache 量化类型能够对注意力缓存进行高强度压缩，使上述配置在无需将数据卸载至 CPU 内存的前提下成为可能——而一旦启用 CPU 卸载，中端 GPU 的推理吞吐量将大幅下滑。

对于正在评估本地 LLM 部署方案的工程团队而言——尤其是在开发者工作站或配备消费级 GPU 的边缘服务器上跑推理负载的场景——一份经过验证、能在这一价位解锁长上下文推理能力的配置具有切实的落地价值。目前，单张 RTX 3080 在二手市场的成交价通常不超过 400 美元。

多阶段提示架构

该用户还指出，其方案关闭了模型自带的推理模式（--reasoning off），转而采用手动设计的四阶段提示流水线：提问 → 验证 → 审查 → 精炼/接受。给出的理由是，与模型内置的思维链循环相比，显式的流水线阶段能让"首次获得可用答案的时间"更短。对于构建智能体（a gentic）流水线、且对每轮交互延迟敏感程度高于单次准确率的团队而言，这是一个值得参考的工程实践。

技术细节

完整的可复现配置需要使用以下 CMake 标志编译 llama.cpp 的 turboquant 分支：

cmake -B build -D GGML_CUDA=ON -DGGML_CUDA_FA_ALL_QU
ANTS=ON -DGGML_CUDA_F16=ON -DGGML_CUDA_FORCE_MMQ=ON

服务端的启动参数如下：

--cache-type-k turbo3 与 --cache-type- v turbo3——核心差异化配置，启用压缩式 KV 缓存存储
--flash-attn on——标准 Flash Attention 2，实现内存高效的注意力计算
--ctx-size 0 --fit on——动态上下文大小调整，根据可用显存自动填充，而非预分配固定缓冲区
--jinja——使用 Jinja 模板进行提示格式化
模型来源：通过 Hugging Face 获取 unsloth/Qwen3.6-35B-A 3B-GGUF:UD-Q4_K_M，即 Unsloth 提供的 4-bit K-quant 量化版本

采样参数遵循 Qwen3 官方非思考模式的推荐设置：temperature 0.6、top-p 0.95、top-k 20、 min-p 0.0、repeat-penalty 1.0、presence-penalty 0.0。GGML_CUDA_FORCE_MMQ 标志强制在 CUDA 上使用矩阵乘法量化内核，通常能在中端 GPU 上以牺牲部分延迟为代价换取更高的吞吐量。

截至本文撰写时，turbo3 缓存类型尚未合并至 llama.cpp 上游主线，目前仅存在于 TheTom 的 turboquant 分支中，且原帖未详细说明该量化方法的内部实现细节。尝试复现这一配置的工程师应将其视为实验性构建路径，而非稳定的生产级依赖。

后续值得关注的动态

上游合并进展：关注 turbo3 或同类激进 KV 量化方案是否会被提议合并至 llama.cpp 上游。ggml 项目此前曾在社区验证充分后合并过社区贡献的量化方案——相关 PR 或 RFC 的出现将是重要信号。
Unsloth GGUF 更新： 本方案使用的是 Unsloth 提供的 UD-Q4_K_M 量化版本。若 35B-A3B 系列出现针对更低显存占用的新量化版本，有望进一步将长上下文推理的可行性延伸至 8GB 显存显卡。
Qwen3 模型新版本：阿里巴巴 Qwen 团队近期保持着较高的模型发布频率。若推出更高参数密度的 MoE 版本或改版的 35B 架构，上述基准数据可能在 30 天内出现显著变化。
社区复现验证：r/LocalLLaMA 的讨论帖很可能产出跨 GPU 型号（RTX 3070 Ti、RTX 4070、 RX 7900 GRE 等）的独立吞吐量测试数据。跨 GPU 的横向对比将有助于判断该性能增益是否特定于某一 CUDA 架构，还是具有普遍适用性。

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

事件背景

为何值得关注

多阶段提示架构

技术细节

后续值得关注的动态

相关推荐

高盛警告：标普500指数已经约等于半个“AI指数”

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

客户聊天记录太长、 AI 总「断片」？ De epSeek 新版能一口气读完一本书的内容了

同样的AI 对话质量，费用只要四分之一 — 我最近在帮客户省这笔钱

GPoUr with ~12gb vram and a 3080 getting 40tg/s on qwen3.6 35BA3B w/ 260k ctx

事件 背景

为何值 得关注

多 阶段提示架构

技 术细节

后续值得关注的动态

相关推荐

高盛警告：标普500指数已经约等于半个“AI指数”

DeepSeek V4 Launches: Claims Global Open- Source Leadership

GPT- 5.5 Tops Every Benchmark, Edges Out Opus 4.7 — OpenAI Strikes Back

GP T-5.5 Launches : Is Claude Being Pushed Out of China ?

客户聊天记录太长、 AI 总「断片」？ De epSeek 新版能一口气读完一本书的内容了

同样的AI 对话质量，费用只要四分之一 — 我最近在帮客户省这笔钱

事件背景

为何值得关注

多阶段提示架构

技术细节