Hessian

找到 1 篇关于此标签的文章

4 比特量化没把模型“压坏”，关键不在压缩而在补偿计算

一篇 Reddit 技术帖把 GPTQ 量化的核心讲清了：4 比特压缩之所以还能保住模型能力，不是因为损失小，而是因为系统会在量化一个权重后，按相关性补偿其他权重。这值得关心，因为本地部署大模型的成本竞争，越来越取决于这类“省显存但不明显降智”的工程细节。