大模型NSFW(not safe for work)
在大模型相关的语境中,NSFW 是英文术语 “Not Safe For Work” 的缩写,原意是“在工作场合不安全”的内容,通常指:
含有 色情(nudity / pornography)、血腥暴力、仇恨言论、毒品、恶心画面 等令人不适或不适合在公共、工作场所查看的内容。
在大模型中的具体含义:
在大语言模型(如 ChatGPT、文心一言、通义千问等)或图像/视频生成模型(如 Stable Diffusion、Sora、Midjourney 等)中:
NSFW 内容是指模型可能生成的“违规”或“不合规”的输出;
通常被平台或模型内置策略过滤或禁止生成;
有些社区/开源模型允许 NSFW 模式切换,比如:
- Stable Diffusion 的
--nsfw参数(是否允许输出不安全内容); - LLaMA 等模型在开源版本中可能存在去除过滤器的修改版本。
- Stable Diffusion 的
示例
文本类:
- 色情小说、露骨聊天 → NSFW
- 仇恨攻击言论、极端政治 → NSFW
图像类:
- 裸体艺术、暴力场景 → NSFW
视频类:
- AI Deepfake、逼真性行为内容 → NSFW
相关机制
大模型会通过以下方式防止 NSFW 内容生成:
| 手段 | 描述 |
|---|---|
| Prompt 屏蔽 | 对输入做内容审查,比如包含敏感词就拒绝响应 |
| 输出检测 | 对生成内容再检测一次,如含 NSFW 特征则屏蔽 |
| 微调训练 | 通过 RLHF(人类反馈训练)让模型“不想说 NSFW” |
| 模型阉割 | 对权重修改,减少模型掌握敏感知识的能力(如“去魅”) |