vLLM

找到 9 篇关于此标签的文章

AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍

AWS 基准测试显示，在 Trainium2 上结合 vLLM 使用 speculative decoding，可将解码密集型工作负载的 inter-token 延迟降低最高 3 倍。

Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障，原因是注意力稀释而非上下文限制。

开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一，DGX Spark GB10 上的 INT4 量化版本速度过慢。

在 Intel B70 GPU 上运行 50 个并行 Agent 配合 Qwen 27B，利用连续批处理技术将原本需 42 分钟的研究任务压缩至 70 秒完成。

Reddit 热议指出：本地 LLM 普及的关键在于可靠的工具栈而非基准测试提升，正如 Docker 引发的容器革命。

一个可用的 bash 脚本通过 Docker 在消费级硬件上使用 vLLM 和 NVFP4 量化运行 Gemma 4 26B。

四个已确认的漏洞导致 Qwen 3.5 在智能体设置中工具调用失效。本文详解已修复项、待解决问题及客户端变通方案。

vLLM's PagedAttention raises GPU memory utilization from 60% to 95%+ using OS paging concepts for LLM inference.

Nous Research's Hermes Agent offers per-model tool call parsers, Ollama/vLLM support, and MIT license at 22k stars.