返回首页
speculative-decoding
找到 2 篇关于此标签的文章
AWS-Trainium2vLLM
AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍
AWS 基准测试显示,在 Trainium2 上结 合 vLLM 使用 speculative decoding,可将解码密集型工作负载的 inter-token 延迟降低最高 3 倍。
Apr 151 分钟
MLXQwen
3.5
DFlash 投机解码登陆 Apple Silicon:Qwen3.5-9B 实 现 4.1 倍加速,现已开源(MLX,M5 Max)
开源项目 DFlash 在 M5 Max 上借助 MLX 实现 Qwen3.5-9B 推理 4.13 倍加速,token 接受率高达 89.4%。
Apr 131 分钟