返回首页

vLLM

找到 8 篇关于此标签的文章

vLLMServiceNow

vLLM 升级 V1 让强化学习结果跑偏 — 推理框架的正确性比速度更值得关心

vLLM 从 V0 升级到 V1 后,在强化学习场景下出现输出不一致的问题。推理框架的「快」如果以牺牲「准」为代价,会让依赖它训练的模型悄悄走偏。

6d ago1 分钟
llama.cppMTP

llama.cpp MTP 支持进入 Beta — 本地大模型推理的速度短板开始补了

llama.cpp 开始支持 MTP 多 token 预测,目前适配 Qwen3.5。结合张量并行成熟,本地推理框架与云端服务之间的速度差距正在收窄,对本地部署大模型的可行性有实质提升。

May 41 分钟
QwenGemma

Qwen 3.6 跑分赢实测输 — 刷榜正在扭曲大模型能力认知

开发者实测 Qwen 3.6 与 Gemma 4,发现跑分领先的 Qwen 因死循环烧掉 8000+ Token 在真实任务中落败。大模型刷榜正扭曲能力认知,企业选型需从看榜单转向做实测。

May 21 分钟
QwenvLLM

单张 3090 在 Windows 跑通 Qwen3 — 本地部署大模型不再必须折腾 Linux

开发者在 Windows 原生环境跑通 Qwen3.6-27B 模型,速度达 72 tok/s。这大幅降低了本地部署门槛,传统企业无需配置 Linux 环境即可用现有显卡跑起大模型。

May 21 分钟
AWS-Trainium2vLLM

AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍

AWS 基准测试显示,在 Trainium2 上结 合 vLLM 使用 speculative decoding,可将解码密集型工作负载的 inter-token 延迟降低最高 3 倍。

Apr 151 分钟
Qwen-32Bllama.cpp

本地 LLM 在 8-9 次链式调用后工具调用准确率下降

Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障,原因是注意力稀释而非上下文限制。

Apr 81 分钟
Gemma 4vLLM

在 vLLM 上运行 Gemma 4 26B-A4B:社区故障排查笔记

开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一,DGX Spark GB10 上的 INT4 量化版本速度过慢。

Apr 61 分钟
QwenvLLM

Agent 集群结合连续批处理将 LLM 任务时间缩短 36 倍

在 Intel B70 GPU 上运行 50 个并行 Agent 配合 Qwen 27B,利用连续批处理技术将原本需 42 分钟的研究任务压缩至 70 秒完成。

Apr 61 分钟