本文前半部分将介绍 HBM、制造工艺、供应商之间的竞争格局、KVCache Offload、预填充与解码分离(Disaggregated Prefill Decode)、宽专家并行(Wide EP)与高 Rank EP。后半部分则会深入探讨 HBM 的未来,包括 HBM4 引入自定义 Base Die 所带来的革命性变化、OpenAI、Nvidia 与 AMD 等不同 AI 加速器在定制 HBM 方面的布局、Shoreline 面积问题、内存控制器卸载、Repeater PHY、LPDDR 与 HBM 混合方案,以及各种“海岸线扩展”技术。
此外,我们还将讨论 SRAM Tag、Memory-Under-Compute、供应链影响,以及三星面临的挑战。
HBM 简介
随着 AI 模型复杂度持续提升,AI 系统对于内存提出了更高要求:更大的容量、更低的延迟、更高的带宽以及更好的能效。不同类型的存储器各有取舍:SRAM 速度极快但密度很低;DDR DRAM 容量大且成本低廉,但带宽不足;而如今最主流的方案则是片上 HBM,它在容量与带宽之间取得了最佳平衡。
HBM 通过将多颗 DRAM 芯片进行垂直堆叠,并结合超宽数据通路,在带宽、密度与能耗之间实现了理想平衡,因此成为 AI 工作负载最合适的内存方案。尽管 HBM 的制造成本远高于 DDR5,价格也存在显著溢价,但市场需求依旧强劲。当前所有主流生成式 AI 训练与推理加速器均采用 HBM。各家加速器路线图也呈现出一致趋势:通过增加堆叠数量、提高层数以及采用更高速的新一代 HBM,持续提升单芯片的内存容量与带宽。相比之下,依赖其他内存形式的架构通常会遭遇明显的性能劣势。
本文将分析 HBM 的现状、供应链动态以及未来即将发生的重大变化。我们将讨论 HBM 在 AI 加速器架构中的关键作用、它如何改变整个 DRAM 市场,以及为什么传统内存行业分析方法正在被彻底颠覆。
对于订阅用户,我们还将回答三星未来是否仍具备竞争力这一关键问题,并介绍一项可能逆转 HBM 容量持续增长趋势的重要技术变革。
HBM 基础原理
首先简单介绍一下 HBM 为何特殊,以及它为何难以制造。
虽然人们提到 HBM 时往往想到多层 DRAM Die 堆叠形成的 3DIC 结构,但另一个同样重要的特征是其极宽的数据总线。即使在信号速率并不激进的情况下,这种超宽总线依然能够提供极高带宽。因此,从单位封装带宽来看,HBM 远远优于其他任何形式的内存。
更大的 I/O 数量意味着更高的布线密度与设计复杂度。每一个 I/O 都需要独立连线,同时还需要额外的电源和控制线路。以 HBM3E 为例,单个 HBM 堆栈与相邻 XPU 之间的连线数量已经超过 1000 条。
这种级别的布线密度无法通过普通 PCB 或封装基板实现,因此必须借助中介层(Interposer),无论是硅中介层还是有机中介层,并采用类似 CoWoS 的 2.5D 封装技术。
为了降低数据传输延迟与功耗,HBM 必须紧贴计算核心放置。因此,SOC 边缘区域(即 Shoreline)成为极其宝贵的资源。通常只有 SOC 的两侧能够部署 HBM,另外两侧需要保留给封装外部 I/O,这限制了 HBM 的摆放面积,也使得通过垂直堆叠增加容量成为唯一可行方案。
为了实现这种 3DIC 结构,堆栈中的每一层(顶部 Die 除外)都必须具备 TSV(Through-Silicon Via),用于向上层传递电源与信号。为了容纳 TSV,需要额外预留芯片面积,因此 HBM Die 面积明显大于对应 DDR Die。例如,SK 海力士 D1z DDR4 的位密度达到 0.296 Gb/mm²,而 HBM3 仅为 0.16 Gb/mm²,前者高出约 85%。
TSV 工艺正是普通 DRAM 与 HBM 之间最核心的区别之一。事实上,TSV 相关设备已经成为 DDR 产能转换为 HBM 产能时最大的瓶颈。
除了前端工艺之外,后端封装同样复杂。HBM 需要将 8 层或 12 层 DRAM 堆叠在底部 Logic Base Die 之上,形成总计 9 层或 13 层结构。与 CoWoS 一样,HBM 让先进封装技术首次进入主流市场,曾经只在少数场景使用的 MR-MUF 等技术,如今已成为行业共识。
HBM Bit Demand 爆发
伴随 AI 加速器需求激增,HBM Bit Demand 也呈现爆炸式增长。
即使定制 ASIC 快速崛起,到 2027 年 Nvidia 依然将占据绝大部分 HBM 需求。其激进产品路线图是主要原因,其中 Rubin Ultra 单颗 GPU 的 HBM 容量就将达到 1TB。
Broadcom 位列第二,主要受 TPU 与 MTIA 出货量增长推动。OpenAI 与 SoftBank 的项目虽然规模较小,但也将贡献可观增量。Amazon 也正在成为最大的 HBM 客户之一,并采取直接采购 HBM 的策略,而不是通过芯片设计合作伙伴采购,从而降低总体成本。
制造流程:前端工艺
当传统 DDR 产能转换为 HBM 产能时,最大的变化来自 TSV 制造设备以及双面凸点(Bumping)产能扩张。
TSV 制造需要刻蚀设备形成通孔,然后使用沉积与电镀设备填充 TSV。随后还需要研磨设备、额外刻蚀步骤以及临时键合设备,以便在加工过程中固定载板。
正因为这些新增步骤,行业如今通常用 TSV 产能来衡量 HBM 产能,而不是简单使用晶圆产能指标。
对于 Bumping 工艺,则主要依赖沉积、电镀与剥离设备。同时,Camtek 与 Onto 的光学检测设备还会用于检查凸点形状与缺陷情况。
制造流程:封装
在后端封装环节,SK 海力士持续推进 MR-MUF 技术。
简单来说,MR-MUF 具备更高生产效率以及更好的散热能力。SK 海力士与 NAMICS 联合开发的 Molded Underfill 材料,相比三星和美光采用的 Non-Conductive Film(NCF)具有更优异的热传导性能。
SK 海力士还绕开了 Thermal Compression Bonding(TCB),因为他们通过其他方式解决了翘曲问题。
TCB 虽然能够通过施加压力提高键合稳定性,但也会增加凸点损伤风险。相比之下,SK 海力士甚至能够增加更多 Dummy Bump,从而进一步改善散热性能。
在生产效率方面,MR-MUF 采用批量回流焊与一次性封装成型即可完成键合,而 TC-NCF 则需要针对每一层执行完整 TCB 流程,因此生产效率明显更低。
良率挑战
HBM 的技术复杂度远高于传统 DRAM,尤其是在高层数 3D 堆叠情况下。
虽然封装良率经常受到关注,但我们认为前端良率问题实际上更严重。
原因在于 TSV 和 Power Distribution Network(PDN)。
HBM 最大的挑战之一是如何通过 TSV 将电力稳定输送至整个堆栈顶部。特别是在 Refresh 操作期间,功耗会明显增加,因此电源网络设计成为关键差异化能力。
SK 海力士 HBM3E 通过将电源 TSV 分布到芯片四周,而非仅保留两组电源 TSV,使电源 TSV 数量提升接近 6 倍,从而大幅降低 IR Drop。其中 VPP 电压降最高可降低约 75%。
美光之所以能够在 HBM 领域实现跨越式进步,很大程度上也得益于其在 TSV 与供电网络上的长期投入。美光宣称其产品功耗降低约 30%,而核心优势很可能正来自 TSV 网络设计。
另一方面,HBM 还必须在有限功耗与热设计范围内达到目标频率。对于任何 3DIC 结构而言,散热始终是巨大挑战,而 DRAM 又对高温极其敏感。
事实上,超大规模数据中心运营商的数据表明,HBM 故障已经成为 GPU 故障的首要来源。
中国:CXMT 与华为 HBM
虽然出口管制禁止向中国直接出口 HBM 堆栈,但只要整颗芯片未超过 FLOPS 限制,带有 HBM 的产品仍可合法销售。
目前,一部分受限制 HBM 仍会通过 CoAsia Electronics、Faraday 与 SPIL 等渠道进入中国市场,随后用户拆解 GPU 并回收其中 HBM。
由于 HBM 已成为 AI 加速器最关键的组成部分之一,中国正在投入巨额资源建设本土 HBM 产业链。
未来五年,中国计划投入约 2000 亿美元用于半导体自主化建设,其中相当一部分预计将流向 HBM。
国内 DRAM 龙头企业 CXMT 正积极扩张 HBM 产能,并提前储备大量设备以降低未来出口管制升级带来的影响。
预计 HBM2 8-Hi 将于 2025 年上半年量产,到年底其 TSV 产能有望达到美光水平。
与此同时,华为也在推进自身 HBM 体系:武汉新芯(XMC)负责制造 HBM 晶圆,而盛合晶微(SJSemi)负责封装。目前仍以研发产能为主,但未来几年将逐步扩大规模。
HBM 堆叠层数:继续向上扩展
HBM 容量增长最直接的方法就是增加堆叠层数。
过去几个世代中,HBM 层数持续提升,但一直受限于 JEDEC 规定的 720 微米总高度。
为了在固定高度内塞入更多层,每层 DRAM Die 不得不变得越来越薄,同时层间凸点间距也不断缩小。然而 Die 越薄,就越容易出现翘曲和破损,进而影响良率。
Hybrid Bonding 最大优势在于完全取消凸点结构,从而释放更多垂直空间容纳额外 DRAM 层。
但这种方案也带来了更高成本与更复杂的良率问题,而 HBM 实际上并不需要 Hybrid Bonding 所提供的超高互连密度。
因此,HBM 的 Hybrid Bonding 应用时间表不断推迟。
最初业界曾预期 HBM4 就会采用 Hybrid Bonding,但如今这一时间点已经推迟至 HBM4E。
与此同时,JEDEC 已确认将堆栈高度标准从 720 微米放宽至 775 微米。这一决定实际上削弱了 Hybrid Bonding 的必要性。
目前看来,16 层堆叠已经基本得到解决,而未来是否会进一步扩展至 20 层以上,则仍有待观察。
AI 加速器为何如此依赖 HBM
AI 加速器本质上是为吞吐量而设计的设备。
与 CPU 相比,它们牺牲了通用性和复杂控制逻辑,换取海量并行计算能力。绝大多数 AI 加速器都围绕 GEMM(矩阵乘加)运算优化,因为这类运算占据了训练和推理负载的主体。
如此庞大的并行计算能力意味着系统必须持续从外部获取数据,因此需要极高的内存带宽以及规模化互连带宽。
如果带宽不足,大量计算单元将被迫空闲,整个加速器价值也会大幅下降。
推理中的 HBM
在 LLM 推理过程中,模型权重长期驻留于 HBM。
与此同时,HBM 还需要存储 KVCache。
每当模型生成下一个 token 时,GPU 都需要同时读取模型权重与完整 KVCache,在 Self-Attention 阶段完成历史上下文匹配,然后再将新的 Key 与 Value 写回 HBM。
因此,Token Decode 阶段会不断重复读取权重与不断增长的 KVCache。
现实情况是,推理任务往往不是计算受限,而是内存带宽受限。GPU 花费更多时间等待数据,而不是执行计算。
随着推理模型能够进行更长时间的思考与规划,Context Length 已经从几千 Token 增长至几十万甚至更多。
即使 KVCache 压缩技术不断进步,内存容量压力依然快速增长。
KVCache Offload
为了缓解宝贵 HBM 资源的压力,业界开始将 KVCache 转移到 DDR 甚至 SSD 等更廉价存储层。
今天,这已经成为主流实践。
Nvidia 推出的 Dynamo Distributed KVCache Manager 就是典型例子。
其思想与 CPU 的多级缓存体系非常相似:
- 高频访问 KV 保留在 HBM
- 中频访问 KV 存放于 DDR
- 极少访问 KV 存放于 NVMe
HBM 与 DDR 并不是竞争关系,而是分层协同关系。
实际上,对于现代 LLM,大部分 KV 并不会长期停留在 HBM 中,而是在生成后很快被转移或驱逐。
随着 agentic 应用兴起,以及工具调用、文档检索等低延迟需求增加,DDR 在缓存体系中的重要性甚至正在提升。
训练中的 HBM
在传统预训练过程中,GPU 每一次前向传播与反向传播都高度依赖 HBM。
模型权重存储于 HBM;
中间激活值写入 HBM;
反向传播读取这些激活值与权重计算梯度;
优化器状态同样保存在 HBM;
最终优化器读取梯度并更新权重。
与推理相比,训练阶段通常计算密度更高,因此更容易受到算力限制而非带宽限制。
但随着强化学习成为提升模型能力的核心路径,大量训练工作实际上正在演变成推理负载,因此 HBM 的重要性只会进一步提升。