返回首页
vLLM
找到 9 篇关于此标签的文章
AWS-Trainium2vLLM
AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍
AWS 基准测试显示,在 Trainium2 上结 合 vLLM 使用 speculative decoding,可将解码密集型工作负载的 inter-token 延迟降低最高 3 倍。
Apr 151 分钟
Qwen-32Bllama.cpp
本地 LLM 在 8-9 次链式调用后工具调用准确率下降
Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障,原因是注意力稀释而非上下文限制。
Apr 81 分钟
Gemma 4vLLM
在 vLLM 上运行 Gemma 4 26B-A4B:社区故障排查笔记
开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一,DGX Spark GB10 上的 INT4 量化版本速度过慢。
Apr 61 分钟
QwenvLLM
Agent 集群结合连续批处理将 LLM 任务时间缩短 36 倍
在 Intel B70 GPU 上运行 50 个并行 Agent 配合 Qwen 27B,利用连续批处理技术将原本需 42 分钟的研究任务压缩至 70 秒完成。
Apr 61 分钟
llama.cppOllama
当工具链成为枯燥的基础设施,本地 AI 走向主流
Reddit 热议指出:本地 LLM 普及的关键在于可靠的工具栈而非基准测试提升,正如 Docker 引发的容器革命。
Apr 61 分钟
vLLMGemma4
本地运行 Gemma 4 26B:vLLM 与 NVFP4 量化指南
一个可用的 bash 脚本通过 Docker 在消费级硬件上使用 vLLM 和 NVFP4 量化运行 Gemma 4 26B。
Apr 61 分钟
Qwen 3.5llama.cpp
Qwen 3.5 工具调用漏洞:问题所在及修复方案
四个已确认的漏洞导致 Qwen 3.5 在智能体设置中工具调用失效。本文详解已修复项、待解决问题及客户端变通方案。
Apr 61 分钟
vLLMPagedAttention
vLLM PagedAttention: From Memory Management to Production Deployment
vLLM's PagedAttention raises GPU memory utilization from 60% to 95%+ using OS paging concepts for LLM inference.
Apr 52 分钟
Hermes AgentNous Research
Hermes Agent: Best Open-Source Local LLM Agent Framework in 2025
Nous Research's Hermes Agent offers per-model tool call parsers, Ollama/vLLM support, and MIT license at 22k stars.
Apr 52 分钟