MTP

找到 1 篇关于此标签的文章

llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了

llama.cpp 开始支持 MTP 多 token 预测，目前适配 Qwen3.5。结合张量并行成熟，本地推理框架与云端服务之间的速度差距正在收窄，对本地部署大模型的可行性有实质提升。