Chat-GPT就是“参考答案”，连字节跳动也在“抄作业”？

2023.12.19

原文来源：元宇宙新声

图片来源：由无界 AI生成

众所周知，在AI大模型领域，OpenAI研发出Chat-GPT这件事就像上学时老师布置了一个特别困难的题目，就在大家都还在整理解题思路或是百思不得其解的时候，班级里的学霸已经第一个写完了，于是大部分人则更倾向于与学霸交流思路，抑或是直接抄作业。

近期的种种风波似乎也证实了，许多看似复杂的事物其本质是一样的。前有马斯克的Grok AI 因为数据集污染被怀疑抄袭甚至是套壳Chat-GPT ，现有字节跳动涉嫌违反服务条款被OpenAI 封号。

字节跳动，陷入大模型舆论风波

近日，外媒The Verge报道称，字节跳动利用微软的 OpenAI API 账户生成数据来训练自己的人工智能模型，这种行为实际上已经违反了微软和OpenAI的使用条款。在此消息被披露不久，The Verge进一步称OpenAI已经暂停了字节跳动的账户。

那么字节跳动具体是违反了什么条款呢?其实在OpenAI的服务条款中有一项明确的规定，那就是OpenAI提供的模型能力，不允许用来被“开发任何与之产品和服务形成竞争的 AI 模型”。

根据The Verge的说法，证据是来自字节跳动的一份内部文件——海外版飞书Lark的聊天记录。

这份文件表明，字节跳动在代号为“种子计划”(Project Seed)基础大语言模型项目中，几乎是在每个开发阶段都依赖OpenAI的API来进行开发，包括训练和评估模型。

“种子计划”大约在一年前启动，目前主要研发两个产品，一个是在国内已经上线的豆包;另一个是针对商业用户的聊天机器人平台，目前正在开发中。

参与“种子计划”的员工是深知过度依赖OpenAI API的后果，于是他们就开始讨论如何通过“数据脱敏”来粉饰证据。以至于经常会出现员工达到OpenAI API的最大访问上限的情况。

The Verge根据内部文件表示，字节跳动大约是在几个月前下达了“模型开发的任何阶段停止使用 GPT 生成的文本”的命令。

不过也正是在这个时候，字节跳动发布了自家大语言模型豆包。豆包AI官微介绍，豆包AI可以提供聊天机器人、写作助手以及英语学习助手等功能，它可以回答各种问题并进行对话，帮助人们获取信息，支持网页Web平台，iOS以及安卓平台。豆包能提供自然语言处理、知识理解、对话、信息检索、情感分析、机器学习等多种类型的帮助。

但是，字节跳动继续以违反 OpenAI 和微软服务条款的方式使用 API，包括评估豆包背后模型的性能。一位对字节跳动内部情况有第一手了解的人指出，“他们说他们想确保一切都是合法的，但他们实际上只是不想被抓住把柄”。

三方接连表态，着急的只有字节

字节跳动

在The Verge发出这篇报道之后，字节跳动发言人Jodi Seth做出了如下回应：GPT 生成的数据在“种子计划”的早期开发中用于注释模型，并且在今年年中左右的时候已从字节跳动的训练数据中删除。字节跳动得到了微软的授权，可以使用GPT API。我们在非中国市场利用GPT支持我们的产品;但在中国市场，则是使用我们自研的模型来支持豆包。

昨日下午，字节跳动相关负责人再度回应称，公司在使用 OpenAI 相关服务时，强调要遵守其使用条款。我们也正与 OpenAI 联系沟通，以澄清外部报道可能引发的误解。

字节跳动使用 OpenAI 服务相关情况的介绍：

1、今年年初，当技术团队刚开始进行大模型的初期探索时，有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试，没有计划上线，也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后，这种做法已经停止。

2、早在今年 4 月，字节大模型团队已经提出了明确的内部要求，不得将 GPT 模型生成的数据添加到字节大模型的训练数据集，并培训工程师团队在使用 GPT 时遵守服务条款。

Chat-GPT就是“参考答案”，连字节跳动也在“抄作业”？

加⼊OKEx全球社群

相关推荐