一张 RTX 3090 显卡在 Windows 系统上原生跑出了 72 tok/s(每秒生成词元数,衡量模型输出速度)的速度 — 这意味着在本地跑大模型终于不用先装 Linux 了。

这是什么

Reddit 社区开发者发布了一款针对 Windows 的原生 vLLM(大模型推理加速框架)补丁与便携启动器。用户下载解压后,无需配置 Python 环境或使用 WSL/Docker 虚拟化,双击即可在 Windows 上运行 Qwen3.6-27B(270 亿参数的开源模型)。测试数据显示,在单张 3090 显卡上,短提示速度达 72 tok/s,长提示约 64.5 tok/s,单卡甚至能支持 127k 的超长上下文。这得益于使用了 INT4(4 位整数量化,一种压缩模型降低显存占用的技术)版本的模型。

行业怎么看

我们注意到,本地大模型一直存在“Linux 强迫症”——性能好但门槛高。这项工作把 Windows 和 Linux 的易用性差距大幅抹平,让更多习惯 Windows 环境的传统企业能零门槛试水本地部署。不过,社区也有不同声音:从绝对性能看,Windows 仍落后于 Linux(同卡在 Linux 可达 80+ tok/s);且该方案仅支持英伟达 30 系及以上显卡,老显卡和 AMD 用户被拒之门外。此外,非官方分支的 vLLM 在企业级长期稳定性上还有待验证,INT4 量化在复杂逻辑任务上的精度损耗也是潜在风险。

对普通人的影响

对企业 IT:无需重构底层基础设施,可直接在现有 Windows 工作站上试点本地 AI 部署,低成本验证数据隐私保护方案。

对个人职场:技术爱好者能更轻松地在办公电脑上跑起本地模型,处理不希望上传云端的敏感文档摘要与信息提取工作。

对消费市场:本地部署的极简化和显存优化,可能会进一步推高大显存消费级显卡在非游戏办公场景的需求。