Article Not Found

Qwen3.6单卡深搜95.7%—本地AI追平Perplexity，Agent比拼工具调用而非模型大小

这是什么

Qwen3.6-27B 在单张 RTX 3090 上跑出 SimpleQA（一种事实性问答基准测试）95.7% 的准确率——本地部署的 AI 深度搜索，首次逼近了 Perplexity 等云端产品的水平。这是开源项目 LDR（Local Deep Research）的进展。LDR 采用 LangGraph Agent（能自主调用工具、分步决策完成任务的 AI 程序）策略：让模型自主调用搜索工具、拆分子问题、多轮迭代，最多跑 50 轮——本质上是让小模型靠「多查几次、多想几步」弥补参数量不足。项目维护者提出了一个值得重视的观察：深度搜索任务中，工具调用能力比模型原始大小更重要。Qwen3.6 在结构化输出和工具调用上的改进，恰好是 Agent 场景最需要的。这意味着选模型时，「最新版小模型」可能比「旧版大模型」更适合做 Agent。 LDR 还做了几件开源社区少见的事：学术来源评级（接入 OpenAlex 和 DOAJ 数据库判断来源质量）、用户数据 SQLCipher 加密存储且管理员无法读取、零遥测、Docker 镜像带 SLSA 签名。MIT 协议，完全开源。

行业怎么看

支持者认为这是本地 AI 实用化的真实拐点。过去一年，开源深搜项目在效果上始终落后云端一截。单卡 3090 追平 Perplexity，意味着对隐私敏感的场景（法律、医疗、金融研究）有了可行方案。但反对意见同样有力。第一，基准污染风险：SimpleQA 的题目可能已渗入 Qwen3.6 的训练数据，分数虚高并非不可能。第二，语言偏置：xbench-DeepSearch 是中文基准，Qwen 作为中文能力最强的开源模型之一天然占优。第三，更难的考场还没进：BrowseComp 和 GAIA 这两个被社区公认为深搜能力硬核基准的测试尚未跑出成绩。第四，自评噪声：LLM 给自己打分存在系统偏差，虽用 Opus 抽检显示倾向低估，但无法排除。我们的判断：95.7% 需要打折看，但即使打到 85%，单卡本地深搜追平商业产品八成效果，已是一个可用的起点。

对普通人的影响

对企业 IT：数据不出域的 AI 研究助手从「概念验证」进入「可以试跑」阶段。LDR 的加密存储和零遥测设计比模型本身更能通过内部安全评审，合规敏感行业值得关注。 对个人职场：知识工作者的信息检索工具箱多了一个免费选项。一张二手 3090（约 5000 元）即可获得接近 Perplexity Pro 的深搜能力，对高频信息检索岗位有实际价值。 对消费市场：开源本地方案逼近商业产品，Perplexity、Tavily 等必须找到差异化壁垒——多模态、产品体验、数据生态，纯搜索精度已不够护城河。

Qwen3.6单卡深搜95.7%—本地AI追平Perplexity，Agent比拼工具调用而非模型大小

这是什么

行业怎么看

对普通人的影响

Related Reading

Qwen3.6 Single-GPU Deep Search 95.7%: Local Matches Perplexity, Tool Use Beats Size

Qwen 3.6 Wins Benchmarks, Fails Reality: Benchmaxing Distorts AI Perception

Open-Source Hybrid Recall Tool Gives Agents Memory Without Giant Contexts

Single 3090 Runs Qwen3 Natively on Windows: Local LLMs Drop Linux Requirement

Ollama Runs Local LLMs on Mac with One Command — PCs Are the New AI Gateway

Qwen 3.6 Replaces Copilot Locally: Zero API Cost, But Novices Beware