发生了什么

一位拥有 RTX 4090 和 64GB DDR5 内存的开发者,使用 llama.cpp 配合 Google 的 turbo 量化方法,测试了三个量化模型在代理编码工作流中的表现:GLM-4.7 Flash Q4_K_M (30B)、Nemotron-3 Q4_K_M (30B) 以及 Qwen3-Coder-Next Q4_K_M (80B)。尽管预期 80B 模型更强,但 Qwen3-Coder-Next 却频繁出现需要人工干预的低级错误;相比之下,两个 30B 模型在完整上下文窗口下,为持续的代理循环提供了更可靠的吞吐量。

为何重要

代理编码不同于单次任务完成——模型需要在循环中运行、调用工具、读取文件差异并自我修正。这会惩罚那些指令遵循能力不一致的模型,即使其基准测试分数很高。对于运行本地推理的独立开发者和小型团队而言,一个能完美适配 24GB 显存、具有稳定每秒令牌数(tokens/sec)的 30B Q4_K_M 模型,往往比一个会幻觉工具调用的更大模型更具生产力。4090 的 24GB 显存是硬性上限:30B Q4_K_M 模型占用约 18-20GB,为长上下文下的 KV 缓存留出了空间。

亚太视角

GLM-4.7 由智谱 AI(北京)开发,专门针对中英文双语指令遵循进行了强化训练,是那些在混合语言代码库工作,或需要生成中文代码注释和文档的中国、台湾或东南亚开发者的实用选择。Qwen3-Coder 是阿里巴巴的模型,也原生支持中文提示——但社区发现表明,80B 量化版本可能需要进一步调整或采用更好的量化策略,才能在代理循环中可靠运行。该地区的开发者在确定工作流之前,应针对其特定的语言混合情况测试 GLM-4.7 Flash。

本周行动项

通过 llama.cpp 拉取 GLM-4.7-Flash-Q4_K_MNemotron-3-30B-Q4_K_M,在 10 步代理编码任务(文件读取 → 编辑 → 测试循环)上运行两者,并测量工具调用错误率和每秒令牌数。利用这些数据——而非基准测试分数——来选择你的日常主力模型。