HBM 是由 JEDEC 标准定义的一种先进堆叠式 DRAM 技术,通过在硅通孔(Through-Silicon Via, TSV)工艺的基础上,将多个 DRAM 芯片垂直堆叠,形成一个高容量的单颗粒。与传统的 GDDR 内存相比,HBM 能在更小的物理空间内提供极高的内存带宽,专为高性能计算(HPC)、AI/机器学习加速器和数据中心 GPU/ASIC 设计。
核心原理
TSV 堆叠架构
传统 DRAM 通过金线键合(wire bonding)和 BGA 封装与主板连接,引脚数量和信号延迟限制了带宽。HBM 采用 TSV(Through-Silicon Via) 技术:
- 每个 DRAM 裸片(die)上制作大量微孔,贯穿整个硅片
- 微孔填充铜,形成垂直导电通道
- 多个 DRAM 裸片通过 TSV 垂直堆叠,再连接到一块较小的逻辑基座裸片(logic die / I/O die)
- 逻辑裸片负责 I/O 通信,对外提供标准接口
这种垂直堆叠方式使数据引脚数量从 GDDR 的几百根增加到 1024-bit 或 4096-bit 超宽位宽,大幅提升带宽。
与GPU/ASIC 的集成
HBM 通常采用 2.5D 集成方式:
- HBM 堆叠芯片和计算芯片(GPU/CPU/ASIC)同时放置在 硅中介层(silicon interposer) 上
- 中介层使用 EMIB(Embedded Multi-die Interconnect Bridge) 或 CoWoS(Chip-on-Wafer-on-Substrate)等先进封装技术
- 计算芯片与 HBM 之间通过极短的硅中介层互连,信号延迟远低于传统 PCB 走线
HBM 各代演进
HBM(第一代,2013)
| 参数 |
值 |
| 标准 |
JEDEC HMC(Hybrid Memory Cube)/ 早期自定义 |
| 带宽/芯片 |
约 128 GB/s(4 芯片) |
| 堆叠层数 |
8 层 DRAM + 1 层逻辑 |
| 位宽 |
128-bit × 8 = 1024-bit |
| 传输速率 |
2.0 Gbps |
| 代表产品 |
AMD Radeon Pro Stellation, NVIDIA Kepler |
HBM2(2014)
| 参数 |
值 |
| 位宽 |
1024-bit(8 堆叠)或 4096-bit(4 堆叠 × 1024) |
| 传输速率 |
2.0 Gbps |
| 带宽 |
128 GB/s(单堆叠)/ 512 GB/s(4 堆叠) |
| 引脚利用率 |
两端数据 + strobe,利用率为 100% |
| 电压 |
1.2V(HBM 的 1.2V) |
| 代表产品 |
NVIDIA Volta V100, AMD Instinct MI25 |
HBM2E(2017 修订版)
| 参数 |
值 |
| 传输速率 |
3.2 - 3.6 Gbps |
| 带宽 |
约 200 GB/s(单堆叠)/ 8192 GB/s(4 堆叠) |
| 代表产品 |
NVIDIA A100, HBM2E 12GB/16GB 配置 |
HBM3(2023)
| 参数 |
值 |
| 传输速率 |
6.4 - 8.0 Gbps |
| 位宽 |
1024-bit × 4 = 4096-bit |
| 带宽 |
最高 8192 GB/s(4 堆叠 × 8 Gbps) |
| 电压 |
0.6V(核心)/ 1.1V(I/O),支持 Bank Group 独立供电 |
| 新特性 |
CRC 错误校正、Panic 命令、DBI-C 数据总线反码 |
| 代表产品 |
NVIDIA H100, HBM3 12GB 配置 |
HBM3E(2024-2025)
| 参数 |
值 |
| 传输速率 |
10.7 - 14.2 Gbps(目前量产) |
| 带宽 |
最高 1.2 TB/s(4 堆叠 × 14.2 Gbps) |
| 容量 |
单堆叠 24GB,4 堆叠最大 96GB |
| 代表产品 |
NVIDIA Blackwell B200/GB200, AMD MI300/MI400 系列 |
HBM4(规划中,预计 2026-2027)
| 参数 |
值 |
| 传输速率 |
预计 16-24 Gbps |
| 带宽 |
预计 1.5-2.0 TB/s |
| 新特性 |
单堆叠支持 8 层 DRAM、CXL 集成支持、片上温度传感器 |
| 代表产品 |
尚未量产 |
关键指标对比
| 特性 |
HBM2E |
HBM3 |
HBM3E |
HBM4(预测) |
GDDR6X |
| 速率 |
3.2 Gbps |
6.4-8.0 Gbps |
10.7-14.2 Gbps |
16-24 Gbps |
16.8 Gbps |
| 单堆叠带宽 |
~200 GB/s |
~512 GB/s |
~450-600 GB/s |
~700-900 GB/s |
~40 GB/s |
| 4 堆叠总带宽 |
~800 GB/s |
~2 TB/s |
~1.2 TB/s |
~2.5-3 TB/s |
~40 GB/s |
| 功耗/带宽比 |
~0.8 W/TB/s |
~0.6 W/TB/s |
~0.5 W/TB/s |
更低 |
~1.0 W/TB/s |
| 单堆叠容量 |
4-8 GB |
8-16 GB |
16-24 GB |
24-32 GB |
N/A |
注:HBM 单堆叠容量通常较小(4-24GB),但 4 堆叠组合的总容量可达 96GB,远超单个 GDDR 芯片。