找到 1 篇关于此标签的文章
一组 llama.cpp 实测数据显示:在 MTP(多词元预测,用更小草稿模型提前猜下一个输出)场景下,把 spec draft 量化成 q4_0 不一定更省资源,反而可能让上下文窗口从 91648 降到 83200。值得关心的是,本地大模型优化开始进入“参数调一档,结果差很多”的阶段。