AI大模型，进入攻防阶段

2023.11.07

原文来源：雷科技

图片来源：由无界 AI生成

AI大模型的本质，就是用大量的数据进行训练，使其能够了解并掌握各种数据，你所看到的文字回答、图画、视频、音乐，其实都是由一个个数据子集根据模型算法所构造的结果。

实际上，我们的大脑在回答问题时，也是类似的方式，只不过我们有着更强大的模糊运算能力，甚至可以跳出原有知识的束缚，从一个新的角度对问题进行解析，换言之就是无中生有。

但是，我们也往往会因为一些错误的认知、失真的记忆等因素，而得出一些完全错误或是与真相背道而驰的答案，那么AI呢？他们同样如此，甚至当他们的数据库中出现污染时，他们会“信誓旦旦”地给出完全错误的回答，并且认为这就是正确的。

随着AI大模型的数据版权问题愈演愈烈，如今网上正在涌现出不少针对AI大模型设置的陷阱，他们的做法是通过插入特殊数据，破坏AI的数据库，使其产生完全错误的回答。最终迫使开发者回滚相关数据版本，并主动避开产生错误数据的网站，以达到保护自身数据版权不受侵害的目的。

对于这种行为，有个十分贴切的形容——毒丸。

毒丸的危害有多大？

关注AI大模型领域的朋友，应该都还记得前段时间，国内某科技公司的市值一天内蒸发上百亿，而造成这个后果的原因就是该企业的AI大模型遭到污染，进而让AI生成了一篇有违主流价值观的文章，该文章被一位家长发现后发到了网上，引起了广泛关注。

值得注意的是，也有声音称文章并非由AI生成，而是AI在抓取网络资源时无意将其纳入数据库中，并在后续同步到了应用里，导致该文章得到了曝光。不管是什么原因，一个显而易见的事实都摆在我们面前，AI在分辨事物好坏的能力上，依然有着明显的欠缺。

早在AI大模型受到关注的初期，就有声音发出质疑：“如果我们给AI投喂一些有害的数据，是否就可以让AI成为一个坏人？”，答案无疑是肯定的。有人将AI部署到匿名网络论坛4chan中，学习论坛中各个用户之间的交流，在一段时间的训练后，开发者获得了一个“五毒俱全”的AI，它支持纳粹、支持种族歧视、支持种族清洗，并且擅长用各种恶毒的语言辱骂对话者。

这个结果甚至让开发者都感到震惊，同时也说明如果对AI的训练数据不加以甄别，就会导致AI的认知及回答都出现严重的错误。所以，主流AI大模型都会加入了多重纠错和屏蔽措施，避免数据库遭受有害信息的污染。

但是，相较于比较容易甄别及防范的文字数据，绘画等数据的“毒丸”则更加隐蔽且高效。此前，有黑客团队就为此专门开发了一套“投毒”工具，这套工具可以在看似正常的画作中加入特殊的特征码，使得AI将其误认为是另一个数据子集的作品，然后通过重复地污染数据池，来达到彻底破坏AI认知的目的。

被污染的AI在面对画图需求时，就会给出完全错误的回答，比如你让AI画一只狗，在短暂等待后，出现在你面前的却是一只猫或者一头牛，或者其他随便什么东西，反正摆在你面前的肯定不是“一条狗”。

图源：technologyreview

随着污染数据的增多，AI生成的图画也会越发抽象，到最后变成一堆无意义的线条时，这个AI的数据库基本上就算是玩完了，想要让他恢复正常，只能选择版本回归，让其回到出现问题之前的状态。

但是，如何确定数据污染时间点也是一项费时费力的工作，而且会直接让这段时间的训练数据打水漂，增加训练成本又降低训练效率，画师们正是通过这种方式来保护自己的版权不受侵害，并逼迫AI公司主动绕开挂上了禁止抓取标识的作品。

如果说毒丸只用在备注了禁止抓取的画作上，那么这只能算是一次版权纠纷，而且多数网友或许也会选择站在画师一边。但是，开发者很快就发现有大量并未标识禁止抓取的作品也内置了毒丸，并且开始持续性地污染AI数据库，想要从浩瀚的训练数据中找出毒丸，难度却极大，可以说直接影响了AI绘画模型的训练速度。

如何防范毒丸的污染，已经成为各个AI大模型需要慎重对待的问题。

AI攻防战

如何避免AI被污染？对此，开发者想了很多办法，比如加入更严苛的数据审核制度，宁愿降低训练效率也要将疑似有问题的数据剔除出去。但是，这个方法的效果并不算好，随着审核力度加强的还有毒丸的隐蔽性。

AI大模型，进入攻防阶段

加⼊OKEx全球社群

相关推荐