事件概述
字节跳动旗下云计算品牌火山引擎正式发布 Milvus Serverless—— 一款基于开源 Milvus 引擎构建的全托管向量数据库服务,主要面向 AI Agent 与 RAG 应用开发者。根据官方在 稀土掘金发布的产品公告,实例创建仅需约 3 秒,据称 比此前需要约 3 分钟完成的专属实例( Dedicated instance)提速 60 倍。
该服务现已通过火 山引擎控制台正式上线。完成创建后,开发者可立即获得专属 URI 端点,并 通过 PyMilvus SDK 以标准 token 认证方式完成连接。
为何值得关注实例创建延迟,是研发迭代速度的 隐性成本。对于需要频繁开展 PoC 验证、 A/B 实验或多智能体编排测试的团队而言,每次部 署环境都需等待 3 分钟,会显著拉 长从想法到原型的完整链路。将这一 等待压缩至 3 秒,切实扫除了开发工 作流中的一处关键阻塞点。
计费模式同样不 可忽视。火山引擎对存储的计费依据是写 入对象存储的实际字节数,而非预分配容量;计算费用则按读写请求次 数及请求数据量收取。当无数据存储、无请求在途 时,费用为零。这种缩容至零(scale-to-zero)的特性,直接回应 了 AI Agent 部署场景中普遍存在的成本结构问题——此类场景的流 量分布高度不均:活动期或峰值窗口期 请求量激增,其余时段近乎空闲。
对 于需要同时维护大量实验性或长尾 Agent 的团队而言——这些 Agent 的 ROI 尚不明朗——无需为空 闲计算资源付费的能力,从根本上改变了探索阶段的经济账 。在团队决定投入专属基础设施之前, 验证阶段的总体拥有成本将大幅压缩。
火 山引擎所主张的架构理念——将 Milvus 作为解 耦的记忆层置于 Agent 编排框架之下——同样具有重要的工程意 义。将向量检索层与 Agent 逻辑分离,意味着向量规模从百万级 扩展至十亿级时,只需调整存储层,无需改动 整个应用栈。
技术实现细节
Milvus Serverless 实例在底 层以逻辑集群的形式映射至共享的物理 Milvus 集群。实例创建无需拉 起新的集群节点,而是通过四个轻量级操作完成:数据库分区分配、用户创建、权限配置与网络路由。这正是整 个操作能在秒级完成而非分钟级的技术原因 。
计算资源的自动扩缩容由 QPS 与向量数据量指标驱动。底层集群节点根 据真实工作负载信号进行水平伸缩,并可在空闲期收缩至零。
据 公告文档,计费分为两个维度:
- 存储费用:按对 象存储上的实际向量数据量计费。无数据存储则不产 生存储费用。
- 计算费用:按读写请求次数、写入数据量及读取查询数据量计费。零请求即 零计算费用。
Serverless 模式下的 PyMilvus 连接方式与标准用法一 致,最简集成示例如下:
from pymilvus import connections, Collection, CollectionSchema, FieldSchema, DataType,
utility
connections.connect(
"<database>",
uri="http://your-instance-id.milvus.ivolces.com:19530",
token="<username>:<password
>"
)
fields = [
FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),
FieldSchema(name="text", dtype=DataType.VARCHAR, max_len=512),
FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=768)
]
schema = CollectionSchema(fields)
collection = Collection(name="agent_memory", schema=schema)示 例中的嵌入维度为 768,与常见 sentence transformer 模型的输出维度一致,但该服务支持自 定义维度配置。
后续值得关注的动向
以 下几个方向值得在未来 30 天内持续跟踪:
- 正式定价 页面发布:公告对计费模式的描述停留在定性 层面,尚未公布具体的单请 求或单 GB 费率。一旦公开定价页面上 线,即可与 Zilliz Cloud(Milvus 核心维护团队推 出的托管 SaaS 服务)及 Pinecone Serverless 进行直接横 向比较。
- Zilliz 的竞争回应:Zilliz 已 推出自有的 Serverless 层级。若火山引擎 宣称的 60 倍创建提速在独立测试中得 到验证,将对 Zilliz 的实例创建流程形成压 力。Zilliz 随后是否会发布博文质疑该 基准测试,或推出针对性的技术更新,都值 得关注。
- 与字节跳动 AI 产品的集成公告:火山引 擎是字节跳动面向外部的云计算品牌。需重点关注 Milvus Serverless 与豆包(字节跳动旗下大语言模型产 品)或内部 Agent 框架的集成公告——这类整合将加 速产品落地,并提供真实规模下的数据参 考。
- 规格限制文档:公告提及可 支持从百万到十亿级向量的规模扩展,但未明确 Serverless 层级的单实例上限。官方发布的配额与 限制文档,将揭示该层级究竟定位于原型验 证还是生产级工作负载。