am17an

找到 1 篇关于此标签的文章

llama.cpp 用户实测：量化草稿模型未必更省，反而会吃掉更多上下文

一组 llama.cpp 实测数据显示：在 MTP（多词元预测，用更小草稿模型提前猜下一个输出）场景下，把 spec draft 量化成 q4_0 不一定更省资源，反而可能让上下文窗口从 91648 降到 83200。值得关心的是，本地大模型优化开始进入“参数调一档，结果差很多”的阶段。