大模型NSFW(not safe for work)

在大模型相关的语境中,NSFW 是英文术语 “Not Safe For Work” 的缩写,原意是“在工作场合不安全”的内容,通常指:

含有 色情(nudity / pornography)血腥暴力仇恨言论毒品恶心画面 等令人不适或不适合在公共、工作场所查看的内容。


在大模型中的具体含义:

在大语言模型(如 ChatGPT、文心一言、通义千问等)或图像/视频生成模型(如 Stable Diffusion、Sora、Midjourney 等)中:

  • NSFW 内容是指模型可能生成的“违规”或“不合规”的输出

  • 通常被平台或模型内置策略过滤或禁止生成

  • 有些社区/开源模型允许 NSFW 模式切换,比如

    • Stable Diffusion 的 --nsfw 参数(是否允许输出不安全内容);
    • LLaMA 等模型在开源版本中可能存在去除过滤器的修改版本。

示例

  • 文本类:

    • 色情小说、露骨聊天 → NSFW
    • 仇恨攻击言论、极端政治 → NSFW
  • 图像类:

    • 裸体艺术、暴力场景 → NSFW
  • 视频类:

    • AI Deepfake、逼真性行为内容 → NSFW

相关机制

大模型会通过以下方式防止 NSFW 内容生成:

手段 描述
Prompt 屏蔽 对输入做内容审查,比如包含敏感词就拒绝响应
输出检测 对生成内容再检测一次,如含 NSFW 特征则屏蔽
微调训练 通过 RLHF(人类反馈训练)让模型“不想说 NSFW”
模型阉割 对权重修改,减少模型掌握敏感知识的能力(如“去魅”)