一位开发者的周末项目交了成绩单:Qwen3.6-Solidity-27B 在 soleval 基准的 pass@1(单次生成正确率)上超过了 Claude Opus。一个垂域微调小模型在特定任务上追平顶级通用模型,这个信号值得我们注意。

这是什么

Solidity 是以太坊智能合约的编程语言,生态不小但相对垂直。这位开发者在通义千问(Qwen,阿里开源的大语言模型)的基础上,用 Solidity 相关数据做了微调(fine-tuning,即用特定领域数据继续训练已有模型,让它在目标领域表现更好),得到一个 27B(270 亿参数)的专用模型。在 soleval 这个 Solidity 编程评测集上,它的单次正确率超过了 Claude Opus——Anthropic 当前最强的通用模型。模型已开源在 HuggingFace 上。

行业怎么看

我们注意到两种声音。乐观派认为这是正确路线:通用大模型卷参数规模性价比越来越低,垂直场景用小底座+高质量领域数据微调,成本可控、效果可预期,才是多数企业的务实选择。反对意见同样明确:基准测试不等于真实开发环境,soleval 的任务覆盖面有限;拿一个专用模型在自己主场上比通用模型,赢了也不意外,真放到跨任务的工程场景里差距仍然明显。更重要的是,微调的数据质量和获取成本才是真正的门槛,不是每个领域都能像 Solidity 这样找到足够多的优质代码数据。

对普通人的影响

对企业 IT:智能合约审计和开发有了更轻量的模型可选,部署成本远低于调用顶级 API,适合对数据隐私敏感的金融场景。对个人职场:Web3 开发者多了一个开源、可本地运行代码助手的选项,降低了对商业 API 的依赖;但这也意味着「会用 AI 工具」的门槛在降低,竞争优势要从工具使用转向业务理解。对消费市场:短期影响有限,这类模型面向开发者而非终端用户;但它代表的「小模型+垂直数据」路径,未来可能复刻到法律、医疗等更贴近大众的领域。