返回首页

vLLM

找到 9 篇关于此标签的文章

AWS-Trainium2vLLM

AWS Trainium2 上的 Speculative Decoding 将 LLM 推理延迟降低最高 3 倍

AWS 基准测试显示,在 Trainium2 上结 合 vLLM 使用 speculative decoding,可将解码密集型工作负载的 inter-token 延迟降低最高 3 倍。

Apr 151 分钟
Qwen-32Bllama.cpp

本地 LLM 在 8-9 次链式调用后工具调用准确率下降

Qwen 32B、Gemma 9B 和 Command R 32B 在 8 次以上工具调用后均出现类似故障,原因是注意力稀释而非上下文限制。

Apr 81 分钟
Gemma 4vLLM

在 vLLM 上运行 Gemma 4 26B-A4B:社区故障排查笔记

开发者报告在 vLLM 上部署 Gemma 4 26B-A4B 结果不一,DGX Spark GB10 上的 INT4 量化版本速度过慢。

Apr 61 分钟
QwenvLLM

Agent 集群结合连续批处理将 LLM 任务时间缩短 36 倍

在 Intel B70 GPU 上运行 50 个并行 Agent 配合 Qwen 27B,利用连续批处理技术将原本需 42 分钟的研究任务压缩至 70 秒完成。

Apr 61 分钟
llama.cppOllama

当工具链成为枯燥的基础设施,本地 AI 走向主流

Reddit 热议指出:本地 LLM 普及的关键在于可靠的工具栈而非基准测试提升,正如 Docker 引发的容器革命。

Apr 61 分钟
vLLMGemma4

本地运行 Gemma 4 26B:vLLM 与 NVFP4 量化指南

一个可用的 bash 脚本通过 Docker 在消费级硬件上使用 vLLM 和 NVFP4 量化运行 Gemma 4 26B。

Apr 61 分钟
Qwen 3.5llama.cpp

Qwen 3.5 工具调用漏洞:问题所在及修复方案

四个已确认的漏洞导致 Qwen 3.5 在智能体设置中工具调用失效。本文详解已修复项、待解决问题及客户端变通方案。

Apr 61 分钟
vLLMPagedAttention

vLLM PagedAttention: From Memory Management to Production Deployment

vLLM's PagedAttention raises GPU memory utilization from 60% to 95%+ using OS paging concepts for LLM inference.

Apr 52 分钟
Hermes AgentNous Research

Hermes Agent: Best Open-Source Local LLM Agent Framework in 2025

Nous Research's Hermes Agent offers per-model tool call parsers, Ollama/vLLM support, and MIT license at 22k stars.

Apr 52 分钟