高带宽内存 HBM(High Bandwidth Memory)

HBM 是由 JEDEC 标准定义的一种先进堆叠式 DRAM 技术,通过在硅通孔(Through-Silicon Via, TSV)工艺的基础上,将多个 DRAM 芯片垂直堆叠,形成一个高容量的单颗粒。与传统的 GDDR 内存相比,HBM 能在更小的物理空间内提供极高的内存带宽,专为高性能计算(HPC)、AI/机器学习加速器和数据中心 GPU/ASIC 设计。

核心原理

TSV 堆叠架构

传统 DRAM 通过金线键合(wire bonding)和 BGA 封装与主板连接,引脚数量和信号延迟限制了带宽。HBM 采用 TSV(Through-Silicon Via) 技术:

  • 每个 DRAM 裸片(die)上制作大量微孔,贯穿整个硅片
  • 微孔填充铜,形成垂直导电通道
  • 多个 DRAM 裸片通过 TSV 垂直堆叠,再连接到一块较小的逻辑基座裸片(logic die / I/O die)
  • 逻辑裸片负责 I/O 通信,对外提供标准接口

这种垂直堆叠方式使数据引脚数量从 GDDR 的几百根增加到 1024-bit 或 4096-bit 超宽位宽,大幅提升带宽。

与GPU/ASIC 的集成

HBM 通常采用 2.5D 集成方式:

  • HBM 堆叠芯片和计算芯片(GPU/CPU/ASIC)同时放置在 硅中介层(silicon interposer)
  • 中介层使用 EMIB(Embedded Multi-die Interconnect Bridge) 或 CoWoS(Chip-on-Wafer-on-Substrate)等先进封装技术
  • 计算芯片与 HBM 之间通过极短的硅中介层互连,信号延迟远低于传统 PCB 走线

HBM 各代演进

HBM(第一代,2013)

参数
标准 JEDEC HMC(Hybrid Memory Cube)/ 早期自定义
带宽/芯片 约 128 GB/s(4 芯片)
堆叠层数 8 层 DRAM + 1 层逻辑
位宽 128-bit × 8 = 1024-bit
传输速率 2.0 Gbps
代表产品 AMD Radeon Pro Stellation, NVIDIA Kepler

HBM2(2014)

参数
位宽 1024-bit(8 堆叠)或 4096-bit(4 堆叠 × 1024)
传输速率 2.0 Gbps
带宽 128 GB/s(单堆叠)/ 512 GB/s(4 堆叠)
引脚利用率 两端数据 + strobe,利用率为 100%
电压 1.2V(HBM 的 1.2V)
代表产品 NVIDIA Volta V100, AMD Instinct MI25

HBM2E(2017 修订版)

参数
传输速率 3.2 - 3.6 Gbps
带宽 约 200 GB/s(单堆叠)/ 8192 GB/s(4 堆叠)
代表产品 NVIDIA A100, HBM2E 12GB/16GB 配置

HBM3(2023)

参数
传输速率 6.4 - 8.0 Gbps
位宽 1024-bit × 4 = 4096-bit
带宽 最高 8192 GB/s(4 堆叠 × 8 Gbps)
电压 0.6V(核心)/ 1.1V(I/O),支持 Bank Group 独立供电
新特性 CRC 错误校正、Panic 命令、DBI-C 数据总线反码
代表产品 NVIDIA H100, HBM3 12GB 配置

HBM3E(2024-2025)

参数
传输速率 10.7 - 14.2 Gbps(目前量产)
带宽 最高 1.2 TB/s(4 堆叠 × 14.2 Gbps)
容量 单堆叠 24GB,4 堆叠最大 96GB
代表产品 NVIDIA Blackwell B200/GB200, AMD MI300/MI400 系列

HBM4(规划中,预计 2026-2027)

参数
传输速率 预计 16-24 Gbps
带宽 预计 1.5-2.0 TB/s
新特性 单堆叠支持 8 层 DRAM、CXL 集成支持、片上温度传感器
代表产品 尚未量产

关键指标对比

特性 HBM2E HBM3 HBM3E HBM4(预测) GDDR6X
速率 3.2 Gbps 6.4-8.0 Gbps 10.7-14.2 Gbps 16-24 Gbps 16.8 Gbps
单堆叠带宽 ~200 GB/s ~512 GB/s ~450-600 GB/s ~700-900 GB/s ~40 GB/s
4 堆叠总带宽 ~800 GB/s ~2 TB/s ~1.2 TB/s ~2.5-3 TB/s ~40 GB/s
功耗/带宽比 ~0.8 W/TB/s ~0.6 W/TB/s ~0.5 W/TB/s 更低 ~1.0 W/TB/s
单堆叠容量 4-8 GB 8-16 GB 16-24 GB 24-32 GB N/A

注:HBM 单堆叠容量通常较小(4-24GB),但 4 堆叠组合的总容量可达 96GB,远超单个 GDDR 芯片。