SD扩散型模型是什么

Posted on 2026-06-05 Views:

扩散型模型，英文 Diffusion Model，是一类生成模型，核心思想是：

先把真实数据逐步加噪声，变成纯噪声；再训练模型学会从噪声一步步还原出真实数据。

它常用于：

图像生成：Stable Diffusion、DALL·E 类模型
视频生成
语音生成
3D 生成
图像修复、超分辨率、风格迁移

1.核心思想

扩散模型包含两个过程：

1.1 正向扩散过程：加噪声

把一张真实图片逐步加入高斯噪声：

清晰图片 x0
   ↓ 加一点噪声
x1
   ↓ 再加噪声
x2
   ↓ ...
xT 约等于纯噪声

可以理解为：

把一张猫图，慢慢破坏成一堆随机噪点。

1.2 反向去噪过程：生成数据

模型学习如何从噪声恢复图片：

纯噪声 xT
   ↓ 去掉一点噪声
xT-1
   ↓ 再去噪
xT-2
   ↓ ...
清晰图片 x0

生成图片时，输入通常是随机噪声，模型一步步去噪，最终生成图像。

2.工作流程图

flowchart LR
    A[真实数据 x0
图片/音频/视频] --> B[逐步加噪]
    B --> C[纯噪声 xT]

    C --> D[神经网络预测噪声]
    D --> E[逐步去噪]
    E --> F[生成数据 x0']

3.Stable Diffusion 为什么快

Stable Diffusion 不是直接在像素空间扩散，而是在 潜空间 Latent Space 中扩散。

流程：

flowchart TD
    A[原始图片] --> B[VAE Encoder]
    B --> C[潜空间 latent]
    C --> D[扩散去噪模型 U-Net]
    D --> E[去噪后的 latent]
    E --> F[VAE Decoder]
    F --> G[生成图片]

优势：

计算量更小
显存占用更低
生成速度更快
可以在消费级 GPU 上运行

4.一句话总结

扩散型模型就是一种“先加噪破坏数据，再学习反向去噪生成数据”的生成模型，是当前图像、视频、语音生成领域的核心技术路线之一。