01 触发事件
36kr 引述业内消息称,截至 2025 年底,SK 海力士员工总数达到 34549 人,同比增加 2159 人;对照看,三星电子负责芯片业务的 Device Solutions 部门员工从 78699 人降到 78064 人。两家科技巨头芯片相关从业人员合计 112613 人,同比增加 1554 人。
这不是一条普通的韩国就业新闻。
这是一个很具体的 AI 供给侧信号:在韩国整体就业市场放缓的背景下,SK 海力士还在逆周期加人,说明 memory,尤其是 AI 相关高带宽存储的约束并没有缓解。
我没在 SK 海力士内部看过 headcount 的岗位拆分,所以不能直接把这 2159 人全都等同于 HBM 产线、封装或研发人员;但即便如此,方向已经够清楚了:公司在为一轮不是季度级、而是年度级的需求做准备。
原文给出的最重要信息,不是“新增员工超 2000”,而是“SK 海力士加人,三星芯片部门略减人”。
02 这事的真正含义
表面上看,这是“AI 热潮带动存储芯片需求”。
问题不在这句废话本身,而在更深一层:AI 产业今天最稀缺的资源,越来越不是模型参数,不是 pretraining 配方,甚至短期也不是单纯的 GPU 数量,而是每一块算力能否被 memory subsystem 高效喂饱。
HBM 的战略地位,就是这么来的。
训练也好,推理也好,模型越大、context window 越长、KV cache 占用越高,对 memory 带宽和容量的依赖就越强。尤其过去 18 个月,行业讨论重心已经从“谁有更大的模型”转向“谁能在单位延迟、单位 token 成本下稳定提供服务”。这时,memory 不是配角,而是 token 经济学的一部分。
很多人会说,GPU 才是 bottleneck。
这话没错,但只说对了一半。
因为 GPU 的有效供给,从来不是裸芯片数量,而是“GPU + HBM + 封装 + 服务器整机 + 供电散热”这一整套系统的联合供给。没有 HBM,GPU 只是昂贵但吃不饱的数据通道。真正会被定价的,不是 FLOPS,而是可交付、可上线、可稳定跑长上下文和高并发推理的系统吞吐。
这也是为什么 SK 海力士的 headcount 变化值得看,而不是把它当成制造业噪音。
如果一家 memory 厂在宏观就业走弱时还继续扩招,说明它判断:
- 订单不是短单
- 客户承诺不是试探性的
- 产能建设和工艺爬坡仍然缺人
- AI demand 至少在它的规划周期内没有见顶
我可能误判的一点是,新增员工里可能有相当比例是传统 NAND/DRAM、管理支持或新产线泛化岗位,而非纯 HBM。但即便这样,资本和组织资源被继续压向 memory 侧,本身就是供给紧张的间接证明。
这才是 SK 海力士在说的事:AI 计算的核心约束,正在从“有没有模型”转成“能不能规模化把 token 送出来”。
03 历史类比 / 结构对照
这让我想到 2014 年前后的 AWS。
当时很多人把云计算理解成“租服务器更方便”,但 AWS 真正改变行业的地方不是 convenience,而是把原本企业内部看不见的基础设施约束,变成了开发者可消费、可计价、可弹性调用的服务层。 从那一刻起,软件公司的竞争边界被改写了。
今天的 HBM 和 memory 供应链,处在类似的位置。
差别在于,AWS 当年解决的是 compute provisioning;现在 memory 侧约束决定的是 AI inference economics。开发者表面上买的是 model API,背后实际消耗的是一整条高度稀缺的 memory 带宽链路。也因此,OpenAI、Anthropic、Google、xAI、Meta 之间的竞争,不只是谁模型更聪明,还包括谁更早锁定了上游 capacity。
更像一点说,这也有 2007 年 iPhone 供应链拐点的味道。
iPhone 的意义从来不只是手机发布,而是苹果开始重塑上游关键零部件和制造协同,把别人难以复制的供应链组织能力转成产品优势。今天 AI 领域的对应物不是触摸屏,而是 HBM、CoWoS 类先进封装、以及围绕它们的整机交付能力。
如果这个类比成立,那么接下来会发生的,不是“更多模型上线”这么简单,而是:
- 大模型公司继续向上游锁 capacity
- cloud provider 更深介入 memory 优化与硬件软件 co-design
- API 层的价格战,越来越受上游 memory 成本曲线约束
- 中小模型供应商更难拿到稳定、低成本的推理资源
我没法从这一则新闻直接推出“HBM 供给危机再次恶化”,这个结论证据还不够。但把它视为供给侧没有明显宽松、且龙头继续押注 AI memory 周期,我认为是合理的。
历史上,真正定义产业结构的,常常不是终端产品发布会,而是上游产能分配权开始倾斜的那一刻。
04 对 AI builder 意味着什么
对 AI builder、模型 API 消费者和做 routing 的团队,这条新闻的含义很具体。
第一,不要把 2026 年的 inference 成本线性外推为必然继续快速下滑。
很多人默认 token 会越来越便宜,这在长期也许成立;但中期里,若 memory 侧仍偏紧,长 context、低延迟、高并发场景的边际成本未必会按想象下降。特别是依赖 KV cache、大上下文 agent、代码补全和多轮工具调用的产品,成本可能比 benchmark 上显示得更硬。
第二,model routing 的价值会上升。
当不同供应商受制于不同 capacity 结构时,价格、延迟、可用性会出现更频繁波动。对 API 网关、聚合层、内部推理平台来说,真正的机会不是“接更多模型”,而是把 memory 约束映射成流量调度策略:什么时候用便宜模型跑 bulk 请求,什么时候切到稳定但贵的模型,什么时候利用 batch API、prompt caching 或 async 任务吸收成本峰值。
第三,长 context 产品要重新算账。
市场上很多产品把 128k、200k、1M context 当作 marketing checkbox,但这类能力背后本质上在烧 memory。问题不在“能不能做”,而在用户是否真的愿意为更高 memory footprint 买单。如果你的 retention 不是由长上下文直接驱动,那它大概率只是成本泄漏口。
第四,应用层 moat 不能建立在“某家模型无限供给、价格持续下探”这个假设上。
更稳的做法是:
- 保持 multi-provider 接入
- 把 prompt 结构做成可移植
- 把 caching、session compaction、context truncation 当成产品能力而不是 infra 细节
- 在 SLA 上预留 capacity 波动空间
我没在你们各自业务里看到真实 token mix,所以这条建议未必适用于每个团队。比如低频、高客单价的 vertical agent,可能根本不在乎 memory 成本波动。但对高并发、低 ARPU、依赖快速响应的产品,这已经不是优化项,而是生死线。
这个月值得调整的,不是模型排行榜,而是你的 token P&L。
05 反方观点 / 风险
最需要警惕的是:我可能把一条 headcount 新闻解读得过重了。
第一,招聘不等于产能立刻释放。
半导体扩产有长周期,新增员工也可能对应未来产线、研发储备,甚至只是组织补位。它是领先指标,不是交付结果。若后续 HBM 良率、封装、客户导入节奏不及预期,这个信号会被高估。
第二,AI memory 紧缺也可能被架构创新部分绕开。
如果 MoE、MLA、量化、KV cache 优化、speculative decoding、甚至新型 memory hierarchy 设计持续进步,那么单位 token 所需的 memory 压力会下降。届时,上游瓶颈不一定像今天这样卡得死。我没在内部跑过这些大规模优化组合,低估算法侧缓释能力是完全可能的。
第三,三星 headcount 下降,不一定意味着它在 AI memory 竞争里落后。
大公司内部组织调整、自动化、业务切分都可能影响人数口径。单看员工数变化,不能直接推导成市场份额变化。把“SK 海力士加人、三星减人”简单读成胜负手,证据还远远不够。
第四,若 cloud provider 和模型厂开始更激进地自研硬件、优化软件栈,上游 memory 厂的议价权也未必会无限走强。产业链里没有谁能永远吃掉全部 rent。
但即便把这些反方都放进去,我还是会保留核心判断:这条新闻的价值,不在就业,不在韩国,不在单一公司;而在它再次提醒市场,AI 的扩张速度仍然受制于极其具体的物理供给。
模型可以一夜发布。
capacity 不会。