这是什么

Qwen3.6-27B 在单张 RTX 3090 上跑出 SimpleQA(一种事实性问答基准测试)95.7% 的准确率——本地部署的 AI 深度搜索,首次逼近了 Perplexity 等云端产品的水平。 这是开源项目 LDR(Local Deep Research)的进展。LDR 采用 LangGraph Agent(能自主调用工具、分步决策完成任务的 AI 程序)策略:让模型自主调用搜索工具、拆分子问题、多轮迭代,最多跑 50 轮——本质上是让小模型靠「多查几次、多想几步」弥补参数量不足。 项目维护者提出了一个值得重视的观察:深度搜索任务中,工具调用能力比模型原始大小更重要。Qwen3.6 在结构化输出和工具调用上的改进,恰好是 Agent 场景最需要的。这意味着选模型时,「最新版小模型」可能比「旧版大模型」更适合做 Agent。 LDR 还做了几件开源社区少见的事:学术来源评级(接入 OpenAlex 和 DOAJ 数据库判断来源质量)、用户数据 SQLCipher 加密存储且管理员无法读取、零遥测、Docker 镜像带 SLSA 签名。MIT 协议,完全开源。

行业怎么看

支持者认为这是本地 AI 实用化的真实拐点。过去一年,开源深搜项目在效果上始终落后云端一截。单卡 3090 追平 Perplexity,意味着对隐私敏感的场景(法律、医疗、金融研究)有了可行方案。 但反对意见同样有力。第一,基准污染风险:SimpleQA 的题目可能已渗入 Qwen3.6 的训练数据,分数虚高并非不可能。第二,语言偏置:xbench-DeepSearch 是中文基准,Qwen 作为中文能力最强的开源模型之一天然占优。第三,更难的考场还没进:BrowseComp 和 GAIA 这两个被社区公认为深搜能力硬核基准的测试尚未跑出成绩。第四,自评噪声:LLM 给自己打分存在系统偏差,虽用 Opus 抽检显示倾向低估,但无法排除。 我们的判断:95.7% 需要打折看,但即使打到 85%,单卡本地深搜追平商业产品八成效果,已是一个可用的起点。

对普通人的影响

对企业 IT:数据不出域的 AI 研究助手从「概念验证」进入「可以试跑」阶段。LDR 的加密存储和零遥测设计比模型本身更能通过内部安全评审,合规敏感行业值得关注。 对个人职场:知识工作者的信息检索工具箱多了一个免费选项。一张二手 3090(约 5000 元)即可获得接近 Perplexity Pro 的深搜能力,对高频信息检索岗位有实际价值。 对消费市场:开源本地方案逼近商业产品,Perplexity、Tavily 等必须找到差异化壁垒——多模态、产品体验、数据生态,纯搜索精度已不够护城河。