SD扩散型模型是什么

扩散型模型,英文 Diffusion Model,是一类生成模型,核心思想是:

先把真实数据逐步加噪声,变成纯噪声;再训练模型学会从噪声一步步还原出真实数据。

它常用于:

  • 图像生成:Stable Diffusion、DALL·E 类模型
  • 视频生成
  • 语音生成
  • 3D 生成
  • 图像修复、超分辨率、风格迁移

1.核心思想

扩散模型包含两个过程:

1.1 正向扩散过程:加噪声

把一张真实图片逐步加入高斯噪声:

1
2
3
4
5
6
7
清晰图片 x0
↓ 加一点噪声
x1
↓ 再加噪声
x2
↓ ...
xT 约等于纯噪声

可以理解为:

把一张猫图,慢慢破坏成一堆随机噪点。


1.2 反向去噪过程:生成数据

模型学习如何从噪声恢复图片:

1
2
3
4
5
6
7
纯噪声 xT
↓ 去掉一点噪声
xT-1
↓ 再去噪
xT-2
↓ ...
清晰图片 x0

生成图片时,输入通常是随机噪声,模型一步步去噪,最终生成图像。


2.工作流程图

flowchart LR
    A[真实数据 x0
图片/音频/视频] --> B[逐步加噪] B --> C[纯噪声 xT] C --> D[神经网络预测噪声] D --> E[逐步去噪] E --> F[生成数据 x0']

3.Stable Diffusion 为什么快

Stable Diffusion 不是直接在像素空间扩散,而是在 潜空间 Latent Space 中扩散。

流程:

flowchart TD
    A[原始图片] --> B[VAE Encoder]
    B --> C[潜空间 latent]
    C --> D[扩散去噪模型 U-Net]
    D --> E[去噪后的 latent]
    E --> F[VAE Decoder]
    F --> G[生成图片]

优势:

  • 计算量更小
  • 显存占用更低
  • 生成速度更快
  • 可以在消费级 GPU 上运行

4.一句话总结

扩散型模型就是一种“先加噪破坏数据,再学习反向去噪生成数据”的生成模型,是当前图像、视频、语音生成领域的核心技术路线之一。