Article Not Found

单张 RTX 4090 上最佳本地代理编码 LLM

发生了什么

一位拥有 RTX 4090 和 64GB DDR5 内存的开发者，使用 llama.cpp 配合 Google 的 turbo 量化方法，测试了三个量化模型在代理编码工作流中的表现：GLM-4.7 Flash Q4_K_M (30B)、Nemotron-3 Q4_K_M (30B) 以及 Qwen3-Coder-Next Q4_K_M (80B)。尽管预期 80B 模型更强，但 Qwen3-Coder-Next 却频繁出现需要人工干预的低级错误；相比之下，两个 30B 模型在完整上下文窗口下，为持续的代理循环提供了更可靠的吞吐量。

为何重要

代理编码不同于单次任务完成——模型需要在循环中运行、调用工具、读取文件差异并自我修正。这会惩罚那些指令遵循能力不一致的模型，即使其基准测试分数很高。对于运行本地推理的独立开发者和小型团队而言，一个能完美适配 24GB 显存、具有稳定每秒令牌数（tokens/sec）的 30B Q4_K_M 模型，往往比一个会幻觉工具调用的更大模型更具生产力。4090 的 24GB 显存是硬性上限：30B Q4_K_M 模型占用约 18-20GB，为长上下文下的 KV 缓存留出了空间。

亚太视角

GLM-4.7 由智谱 AI（北京）开发，专门针对中英文双语指令遵循进行了强化训练，是那些在混合语言代码库工作，或需要生成中文代码注释和文档的中国、台湾或东南亚开发者的实用选择。Qwen3-Coder 是阿里巴巴的模型，也原生支持中文提示——但社区发现表明，80B 量化版本可能需要进一步调整或采用更好的量化策略，才能在代理循环中可靠运行。该地区的开发者在确定工作流之前，应针对其特定的语言混合情况测试 GLM-4.7 Flash。

本周行动项

通过 llama.cpp 拉取 GLM-4.7-Flash-Q4_K_M 和 Nemotron-3-30B-Q4_K_M，在 10 步代理编码任务（文件读取 → 编辑 → 测试循环）上运行两者，并测量工具调用错误率和每秒令牌数。利用这些数据——而非基准测试分数——来选择你的日常主力模型。

单张 RTX 4090 上最佳本地代理编码 LLM

发生了什么

为何重要

亚太视角

本周行动项

Related Reading

AI Keeps Forg etting Half Your Docs? DeepSeek Now Reads a Full Book at Once

Quarter the Cost , Same AI Quality : How I Cut Client Bills

AI Tools Move Fast : Workflow Died in 3 Months . A Selection R hythm Saved Me

Qwen3 - 27B on One RTX 3090: 85 TPS, 125K Context , Vision — Overnight

Claude Has a Design Mode Now — My First Thought: "Finally, No More Explaining Myself"

The AI Writing Tool Even Gov't Agencies Use Quietly — We Can Too