SD扩散型模型是什么
扩散型模型,英文 Diffusion Model,是一类生成模型,核心思想是:
先把真实数据逐步加噪声,变成纯噪声;再训练模型学会从噪声一步步还原出真实数据。
它常用于:
- 图像生成:Stable Diffusion、DALL·E 类模型
- 视频生成
- 语音生成
- 3D 生成
- 图像修复、超分辨率、风格迁移
1.核心思想
扩散模型包含两个过程:
1.1 正向扩散过程:加噪声
把一张真实图片逐步加入高斯噪声:
1 | 清晰图片 x0 |
可以理解为:
把一张猫图,慢慢破坏成一堆随机噪点。
1.2 反向去噪过程:生成数据
模型学习如何从噪声恢复图片:
1 | 纯噪声 xT |
生成图片时,输入通常是随机噪声,模型一步步去噪,最终生成图像。
2.工作流程图
flowchart LR
A[真实数据 x0
图片/音频/视频] --> B[逐步加噪]
B --> C[纯噪声 xT]
C --> D[神经网络预测噪声]
D --> E[逐步去噪]
E --> F[生成数据 x0']
3.Stable Diffusion 为什么快
Stable Diffusion 不是直接在像素空间扩散,而是在 潜空间 Latent Space 中扩散。
流程:
flowchart TD
A[原始图片] --> B[VAE Encoder]
B --> C[潜空间 latent]
C --> D[扩散去噪模型 U-Net]
D --> E[去噪后的 latent]
E --> F[VAE Decoder]
F --> G[生成图片]
优势:
- 计算量更小
- 显存占用更低
- 生成速度更快
- 可以在消费级 GPU 上运行
4.一句话总结
扩散型模型就是一种“先加噪破坏数据,再学习反向去噪生成数据”的生成模型,是当前图像、视频、语音生成领域的核心技术路线之一。