复制成功

分享至

主页 > 比特币 >

“盗”数据,AI 大模型的黑暗面

2023.06.19

原文来源:

“盗”数据,AI 大模型的黑暗面

图片来源:由无界 AI 生成

一个叫作“一笔两划”的创业公司,公开声讨曾经的教培龙头“学而思”,说它用“扒库”的方式,“偷”走了自己辛辛苦苦攒下的数据。

故事的起因,是在今年4月中旬,“笔神作文”(一笔两划公司旗下产品)发现,服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。

访问量远超日常平均值。笔神作文对深AI透露,平时的日访问量大约是几百或几千,那几天暴增至每天超过50万。一周之内,他们的数据被爬取了258万次。

“盗”数据,AI 大模型的黑暗面

笔神作文公布的数据库调用情况

通过查阅服务器日志,笔神作文发现,单一IP通过“爬虫”技术,高密度地爬取了他们的数据库。这个IP每次访问的搜索词,都是作文相关,系统会每页返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,基本上把库里同个题目的所有作文,全部抓取完了。

业内人士介绍,通常情况下,普通用户不会这么干。这种对数据库的搜刮式访问,也被称为“扒库”。

笔神作文认为,“扒库”的幕后黑手,是它的合作伙伴学而思。

“扒库”事件发生后没多久,笔神作文发现,学而思在进行数学大模型MathGPT的研发,并表示将于近期上线一款“AI助手”,其中一项功能,就是作文。

笔神作文被“扒库”,和学而思开发“作文AI助手”,这两起事件之间是否有关联,目前尚没有明确结论。

但笔神作文认为,自己的权益被侵犯了。它向对方发去律师函,并将这件事公之于众,试图讨要一个说法。学而思方面则给出公开回应,称对笔神素材内容的使用均符合合同要求,且其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

此次事件中,值得探讨的不仅是作文素材。数据,对于大模型而言,意味着什么?

“盗”数据,AI 大模型的黑暗面

合作伙伴变成门口野蛮人?

双方各执一词

我们先简单介绍一下笔神作文。

这家公司成立于2017年,产品“笔神”是一款人工智能辅助写作软件,算是AI+教育的产物。一开始“笔神”面向内容创作平台和相关工具厂商,后来深入到垂直领域,用AI教学生写作文,于是就有了“笔神作文”。

你可以简单理解:它处在教育行业,面向的是学生群体,利用了人工智能技术,解决的是写作文的场景。

AI写作文,跟今天大火的ChatGPT,在技术上有很多共通之处。它们都涉及到自然语言处理、语义分析预测、机器学习等技术。笔神作文创始人宋嘉伟,曾担任过索尼高级系统架构师、奇点机智CTO。

早在五年前,宋嘉伟就说过,在考虑如何将bert或GPT-2这些预训练语言模型技术运用到应用中去。当时GPT尚未出圈,不像今天这样广为人知。

开始做AI作文之后,笔神作文正式进入教育赛道,跟教培龙头学而思踏进了同一条河流。

据笔神方面介绍,2020年12月,笔神作文跟学而思达成合作。笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,按调用次数结算费用。为此,笔神作文为学而思开放了服务接口。

也就是说,学而思可以调用笔神作文数据库中的作文素材,并为之付费。

作文素材,是这项交易中的一个核心资产,也是笔神作文商业模式的基石。事实上,笔神作文最早就是从素材这个点切入的。它当年主打的“一键找素材”功能,用户通过搜索关键词,系统可以自动匹配素材,资源从古诗词经典、公文,到现代网文均有涵盖。在写作过程中,系统还可以实时推送素材。

这些素材不是来源于网络,而是笔神自有的数据库。通过AI技术的智能识别、翻译、匹配,笔神能向用户的搜索行为反馈回合适的素材。

当这些作文素材的量足够大、质量足够优质、匹配够精准,就具备了一定的商业价值,甚至可以对外售卖。这才有了跟学而思的合作。

问题是,这些素材有被“偷”走的风险,尤其是在开放部分接口的情况下。

按照笔神作文对深AI的介绍,他们对与学而思的合作范围进行了限定,“我们开放接口让他们调用我们的数据,显示在他们自己的APP里,但合同中并未包括存储数据或用于AI算法的权限。数据应仅供他们的用户调用,不能被存储在他们的机器上。”

相当于,当用户在学而思的产品端发起搜索,调用的作文范本来自笔神作文,学而思不能自己储存。

4月中旬的那次异常调用,让笔神作文认为,超出了正常的商业合作范围。“他们的行为触发了我们的防御机制,这才使我们发现了这一情况。”

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier