平息画师怒火：Stable Diffusion学会在绘画中直接「擦除」侵权概念

2023.04.09

来源：机器之心

任何一个创作过程，都是始于「模仿」、终于「创造」。对于 AI 来说，这一学习过程也是相同的。

近期，开源版本的 Stable Diffusion 文本到图像的扩散模型，使图像生成技术得到极为广泛的应用，但是如何规避色情或风格侵权是需要解决的问题，作者提出 Erased Stable Diffusion（ESD）方法，有效的解决了前面的问题。

文本到图像生成模型备受关注，其具备优秀的图像生成质量和看似无限的生成潜力。诸如此类的生成模型都是基于大规模的互联网数据集进行训练的，这使它们能够学习很广泛的概念。然而，模型生成的一些概念是不受欢迎的，比如受版权保护的内容和色情内容。

如何尽量避免模型输出这些内容呢？在最近的一篇论文中，来自美国东北大学、麻省理工学院的作者提出了一种在预训练之后有选择地从文本条件模型的权重中删除单个概念的方法。

论文链接：https://arxiv.org/pdf/2303.07345v1.pdf

此前的方法侧重于数据集过滤、post-generation 过滤或推理指导，而本文提出的方法不需要重新训练，这对于大型模型来说是不可思议的。基于推理的方法可以审查或有效引导模型输出的方式以避免生成不需要的概念。相比之下，本文的方法直接从模型的参数中将概念移除，从而可以安全地分配其权重。

图像生成中的安全问题

Stable Diffusion 文本到图像扩散模型的开源，让图像生成技术得到了极为广泛的应用，但也带来了一些问题。

为了限制不安全图像的生成，第一个 Stable Diffusion 版本绑定了 NSFW 滤波器，以便在滤波器被触发时审查图像，但由于代码和模型权重都是公开可用的，因此滤波器很容易被禁用。

为了防止敏感内容的生成，随后的 Stable Diffusion 2.0 模型对过滤的数据进行训练，以删除明显有问题的图像，实验是在 50 亿张图像的 LAION 数据集上进行的，消耗了 15 万个 GPU 时。

如此一来，整个过程的成本之高，使得在数据发生变化与涌现能力之间建立因果关系这件事极具挑战性。有些研究人员反映，从训练数据中删除明显问题图像和其他主题可能会对输出质量产生负面影响。

尽管作者们付出了一系列努力，涉及色情的内容在模型的输出中仍然很普遍：当作者使用 Inappropriate Image Prompts (I2P) 基准测试的 4703 个 prompt 来评估图像的生成结果时，他们发现当前流行的 SD1.4 模型生成了 796 张暴露的身体部位的图片，而新的受训练集限制的 SD2.0 模型产生 417 张类似图片。

另一个问题是，文本到图像模型所模仿的作品可能是受版权保护的。AI 生成的艺术作品不仅在质量上与人类生成的艺术相媲美，而且还可以忠实地复制真实艺术家的艺术风格。Stable Diffusion 和其他大型文本到图像合成系统的用户发现，诸如「art in the style of [artist]」之类的 prompt 可以模仿特定艺术家的风格，从而有可能产生侵权的作品。此前，也正是因为多位艺术家的担忧，导致了一场针对 Stable Diffusion 制作主体的法律诉讼 —— 艺术家指控 Stable Diffusion 侵犯了他们的作品。为了保护艺术家，最近的一些工作尝试于在线发布艺术作品之前对艺术作品应用对抗干扰，以防止模型模仿它。然而，这种方法并不能从预训练模型中删除模型本已学习到的艺术风格。

因此，为了解决安全和版权侵犯的问题，本文的作者们提出了一种从文本到图像模型中「擦除概念」的方法，即 Erased Stable Diffusion（ESD），可以通过微调模型参数来实现擦除，而不需要额外的训练数据。

相比于训练集审查方法，本文提出的方法速度更快，并且不需要从头开始训练整个系统。此外，ESD 可用于目前已有的模型，无需修改输入图像。相比于 post-generation 过滤或简单的黑名单方法，「擦除」是不容易被绕过的，即使用户可以访问参数。

方法

ESD 方法的目标是使用自身的知识从文本到图像扩散模型中擦除概念，而不需要额外的数据。因此，ESD 选择微调预训练模型而不是从头开始训练模型。本文方法专注于 Stable Diffusion（SD），一个由三个子网络组成的 LDM，包括一个文本编码器 T、一个扩散模型 (U-Net)θ 和一个解码器模型 D。

ESD 通过编辑预训练的扩散 U-Net 模型的权重 θ 去除特定的风格或概念。ESD 是受到了无分类器指导方法和基于分数的合成等工作的启发。具体来说，使用无分类器指导的原则来训练扩散模型，将模型的分数从想要消除的特定概念 c 中擦除，例如「Van Gogh」这种词语。利用预训练模型对概念的认知，同时让其学习将微调输出的分布的质量从该概念中移除。

扩散模型的 score-based 的公式中，目标是学习条件模型的分数

。使用贝叶斯规则和

可得出：

平息画师怒火：Stable Diffusion学会在绘画中直接「擦除」侵权概念

加⼊OKEx全球社群

相关推荐