大模型NSFW(not safe for work)

Posted on 2025-06-22 Views:

在大模型相关的语境中，NSFW 是英文术语 “Not Safe For Work” 的缩写，原意是“在工作场合不安全”的内容，通常指：

含有 色情（nudity / pornography）、血腥暴力、仇恨言论、毒品、恶心画面 等令人不适或不适合在公共、工作场所查看的内容。

在大模型中的具体含义：

在大语言模型（如 ChatGPT、文心一言、通义千问等）或图像/视频生成模型（如 Stable Diffusion、Sora、Midjourney 等）中：

NSFW 内容是指模型可能生成的“违规”或“不合规”的输出；
通常被平台或模型内置策略过滤或禁止生成；
有些社区/开源模型允许 NSFW 模式切换，比如：
- Stable Diffusion 的 --nsfw 参数（是否允许输出不安全内容）；
- LLaMA 等模型在开源版本中可能存在去除过滤器的修改版本。

示例

文本类：
- 色情小说、露骨聊天 → NSFW
- 仇恨攻击言论、极端政治 → NSFW
图像类：
- 裸体艺术、暴力场景 → NSFW
视频类：
- AI Deepfake、逼真性行为内容 → NSFW

相关机制

大模型会通过以下方式防止 NSFW 内容生成：

手段	描述
Prompt 屏蔽	对输入做内容审查，比如包含敏感词就拒绝响应
输出检测	对生成内容再检测一次，如含 NSFW 特征则屏蔽
微调训练	通过 RLHF（人类反馈训练）让模型“不想说 NSFW”
模型阉割	对权重修改，减少模型掌握敏感知识的能力（如“去魅”）

0%