AWS 为 SageMaker JumpStart 新增面向用例的部署预设配置

事件概述

亚马逊云科技（Amazon Web Services）近日在 AWS Machine Learning Blog 上宣布，正式为 SageMaker JumpStart 推出优化部署配置功能。此次更新引入了预定义的部署预设，这些预设能够感知具体的推理任务类型——例如内容生成、摘要提取和问答（Q& ;A）——而不再仅仅以并发用户数作为主要配置维度。

此前，SageMaker JumpStart 的部署流程要求用户根据预期并发用户数来配置端点，并提供 P50 延迟、首 Token 时间（TTFT）以及每用户每秒 Token 数等指标的可见性。据 AWS 介绍，这种方式被定义为"缺乏任务感知能力"，导致团队不得不针对特定工作负载的性能特征进行大量手动调优。

新系统在 SageMaker Studio 的部署流程中新增了一个 Performance（性能）配置面板。用户需要首先选择使用场景，再从四种约束模式中进行选择：Cost optimized（成本优化）、Throughput optimized（吞吐量优化）、Latency optimized（延迟优化）或 Balanced（均衡）。AWS 会为每种组合预先计算好实例配置和服务参数，从而大幅缩短不具备深厚 MLOps 经验的团队从配置到上线的时间。

为何值得关注

此次变化折射出托管机器学习平台竞争格局的整体转向：各平台正在从提供原始基础设施访问，逐步演进为提供具有明确立场、感知工作流的默认配置。对于同时运行多个推理工作负载的工程团队而言——例如同时维护一条对成本敏感的批量摘要流水线和一个对延迟敏感的对话界面——能够直接表达意图而非亲自配置硬件，将显著降低运维开销。

四模式约束体系同样表明 AWS 已充分意识到："性能"并非单一维度。一个吞吐量优化的摘要任务，其成本与延迟特征与一个延迟优化的实时代码补全端点在本质上截然不同。通过在部署界面中将这一区分明确编码，AWS 正在将过去需要手动基准测试或解决方案架构师介入才能完成的容量规划决策抽象化，实现自动处理。

对于正在评估托管推理平台的 CTO 而言，此举使 SageMaker JumpStart 得以更直接地对标 Azure AI Studio 和 Google Cloud 的 Vertex AI Model Garden——两者均已提供部署配置文件抽象能力。在易用性与部署体验的竞争上，三大超大规模云服务商正在加速角力。

运维层面的影响

负责生成式写作工作负载的团队，现在可以直接选择成本优化预设，无需再针对 Token 预算手动对比各实例类型的性能表现。
对话与问答（Q&A）应用可以选用延迟优化配置，优先保障 TTFT 指标——该指标与交互式场景中用户感知到的响应速度直接相关。
Balanced（均衡）选项为尚未明确定义 SLO 的团队提供了一个合理的默认起点，有效降低了初次部署时过度配置或配置不足的风险。
部署决策保持可审计性 ——AWS 表示客户仍可查看所建议部署方案的详细信息，这意味着预设配置是可检查的，而非一个黑箱。

技术细节

优化部署系统通过 SageMaker Studio 的模型部署界面呈现。选定支持该功能的模型后，用户可以打开一个可折叠的 Performance 窗口，该窗口会先引导用户完成使用场景的选择，再展示约束优化选项。AWS 表示，文本类模型在首批上线时即获支持，图像与视频用例的支持则被列为后续规划中的功能。

部署结果同时兼容 SageMaker AI Managed Inference 端点和 SageMaker HyperPod 集群，为已在使用上述任一目标环境的团队保留了现有的基础设施灵活性。公告中未提及对底层推理栈或模型制品的任何变更。

根据 AWS 文档，最低前置条件如下：

一个有效的 AWS 账户
一个 SageMaker Studio 域
一个具备创建模型和端点权限的 IAM 角色

支持优化部署的模型完整列表在源文档中有所引用，但公告摘要中并未逐一列出。建议各团队在迁移现有部署工作流之前，直接查阅 SageMaker JumpStart 模型目录，确认目标模型是否已获支持。

后续值得关注的动向

在未来 30 天内，以下进展值得持续跟踪：

图像与视频用例支持：AWS 已明确将其列为优化部署系统的待上线功能。一旦落地，该功能的价值将延伸至多模态工作负载——这类工作负载在企业级流水线中日益普遍。
模型目录扩展：支持优化部署的 JumpStart 模型数量有望持续增长。建议关注 AWS 变更日志，尤其留意托管于 JumpStart 上、来自第三方厂商近期发布的基础模型。
竞争对手的回应：Google 和 Microsoft 均在近几个季度相继推出了简化部署体验的功能。在不远的将来，Vertex AI 或 Azure AI Studio 推出类似预设系统的可能性相当大。
成本数据：AWS 尚未公布四种约束模式之间的基准对比数据。来自实践者的独立基准测试——针对相同工作负载分别测试成本优化与吞吐量优化配置——将为团队的基础设施决策提供目前缺失的实证依据。

AWS 为 SageMaker JumpStart 新增面向用例的部署预设配置

事件概述

为何值得关注

运维层面的影响

技术细节

后续值得关注的动向

相关推荐

6名工程师76天交付大项目，AI 编程真正改变的是软件组织方式

AWS 把芯片调优交给 AI 代理，Trainium 的门槛开始从专家能力变成工具能力

Supermicro 在买时间

SK海力士赴美，不是融资，是AI估值迁移

黄仁勋在催 HBM 扩产

纽约冻结数据中心一年

AWS 为 SageMaker JumpStart 新增面向用例的部署预设配置

事件概 述

为何值 得关注

运维层 面的影响

技术细节

后续值得关注的动向

相关推荐

6名工程师76天交付大项目，AI 编程真正改变的是软件组织方式

AWS 把芯片调优交给 AI 代理，Trainium 的门槛开始从专家能力变成工具能力

Supermicro 在买时间

SK海力士赴美，不是融资，是AI估值迁移

黄仁勋在催 HBM 扩产

纽约冻结数据中心一年

事件概述

为何值得关注

运维层面的影响