Qwen3.6单卡深搜95.7%—本地AI追平Perplexity，Agent比拼工具调用而非模型大小

这是什么

Qwen3.6-27B 在单张 RTX 3090 上跑出 SimpleQA（一种事实性问答基准测试）95.7% 的准确率——本地部署的 AI 深度搜索，首次逼近了 Perplexity 等云端产品的水平。这是开源项目 LDR（Local Deep Research）的进展。LDR 采用 LangGraph Agent（能自主调用工具、分步决策完成任务的 AI 程序）策略：让模型自主调用搜索工具、拆分子问题、多轮迭代，最多跑 50 轮——本质上是让小模型靠「多查几次、多想几步」弥补参数量不足。项目维护者提出了一个值得重视的观察：深度搜索任务中，工具调用能力比模型原始大小更重要。Qwen3.6 在结构化输出和工具调用上的改进，恰好是 Agent 场景最需要的。这意味着选模型时，「最新版小模型」可能比「旧版大模型」更适合做 Agent。 LDR 还做了几件开源社区少见的事：学术来源评级（接入 OpenAlex 和 DOAJ 数据库判断来源质量）、用户数据 SQLCipher 加密存储且管理员无法读取、零遥测、Docker 镜像带 SLSA 签名。MIT 协议，完全开源。

行业怎么看

支持者认为这是本地 AI 实用化的真实拐点。过去一年，开源深搜项目在效果上始终落后云端一截。单卡 3090 追平 Perplexity，意味着对隐私敏感的场景（法律、医疗、金融研究）有了可行方案。但反对意见同样有力。第一，基准污染风险：SimpleQA 的题目可能已渗入 Qwen3.6 的训练数据，分数虚高并非不可能。第二，语言偏置：xbench-DeepSearch 是中文基准，Qwen 作为中文能力最强的开源模型之一天然占优。第三，更难的考场还没进：BrowseComp 和 GAIA 这两个被社区公认为深搜能力硬核基准的测试尚未跑出成绩。第四，自评噪声：LLM 给自己打分存在系统偏差，虽用 Opus 抽检显示倾向低估，但无法排除。我们的判断：95.7% 需要打折看，但即使打到 85%，单卡本地深搜追平商业产品八成效果，已是一个可用的起点。

对普通人的影响

对企业 IT：数据不出域的 AI 研究助手从「概念验证」进入「可以试跑」阶段。LDR 的加密存储和零遥测设计比模型本身更能通过内部安全评审，合规敏感行业值得关注。 对个人职场：知识工作者的信息检索工具箱多了一个免费选项。一张二手 3090（约 5000 元）即可获得接近 Perplexity Pro 的深搜能力，对高频信息检索岗位有实际价值。 对消费市场：开源本地方案逼近商业产品，Perplexity、Tavily 等必须找到差异化壁垒——多模态、产品体验、数据生态，纯搜索精度已不够护城河。

Qwen3.6单卡深搜95.7%—本地AI追平Perplexity，Agent比拼工具调用而非模型大小

这是什么

行业怎么看

对普通人的影响

相关推荐

Qwen 3.6 跑分赢实测输 — 刷榜正在扭曲大模型能力认知

开源社区造出混合检索记忆工具 — Agent 不靠大上下文也能记事了

RTX 5080 跑本地编程模型引热议 — 消费级显卡开始抢云端 AI 的活

两张华硕 Spark 显卡跑大模型只慢一点 — AI 推理不再是昂贵硬件的专属

单张 3090 在 Windows 跑通 Qwen3 — 本地部署大模型不再必须折腾 Linux

Mistral 本地版文件损坏已修复 — 开源模型的品控盲区比你想的大