被OpenAI“封号”，字节跳动在打什么算盘？

2023.12.20

高质量的语料数据，是大模型的“香饽饽”。

原文来源：AI新智能

图片来源：由无界 AI生成

眼看着2023就要过去了，没想到年底又曝出一个大瓜。

近期据《The Verge》报道：

字节跳动因使用ChatGPT的API，来开发自家大模型，被OpenAI“封号”了。

尽管在事后，字节澄清，表示自己此举“仅为测试”，且早已勒令停止。

然而，这终归是一件让人浮想联翩的事……

字节被封号的背后，打的究竟是什么算盘？

字节想要什么？

虽然在《The Verge》报道中，没有明确指出字节究竟是怎么用OpenAI的API来开发自身大模型的，但可能的训练路径来说，用一个大模型（例如OpenAI的GPT）来训练另一个大模型的过程，往往有以下几种。

其中一种，就是“师傅带徒弟”的模式。

想象一下，师傅（已有的大模型）在处理各种任务时，会生成一些输出（例如文本、图像等）。徒弟（新的大模型）会观察师傅的行为，尝试模仿这些输出。

这样，徒弟就能学会如何处理类似的任务。在实际应用中，这可以通过让新模型学习旧模型生成的数据来实现。

还有一种方式，就是通过联合训练，让“师傅”和“徒弟”一起处理任务。

在实际应用中，这可以通过让两个模型共享一些层次或参数来实现，新旧模型就可以互相学习、互相帮助，共同完成任务。

从技术可行性来判断，在这次事件中，字节使用的更有可能是第一种方法。

即利用了OpenAI API生成的数据作为训练数据。

因此，在这次风波中，字节真正想要的，是ChatGPT生成的高质量语料数据。

而这样的数据，也是任何一个训练中的大模型，最渴望的“香饽饽”。

但由于之前OpenAI的协议中，已明确表示禁止用其大模型去开发竞品，因此，字节被OpenAI“封号”也是一种必然。

问题是：作为一家实力雄厚的大厂，字节理应不缺相应的人手和资金，去做这些数据爬取、语料标注方面的工作，为何要走这一步“险棋”呢？

为何犯险？

其实，在现阶段的大模型赛道上，字节缺的不是人才和资金，而是时间。

与百度、讯飞等国内大厂相比，字节真正入局大模型的时间，可以说是相当晚了。

从时间上看，字节真正推出第一款大模型豆包的时间，是今年的8月中旬，而那时，大模型之火已经燃烧了近半年之久。

任何真正想入局大模型的玩家都知道，模型层的竞争，是有时间窗口的。

在大模型领域，先进入市场的企业往往能够积累更多的用户、数据和经验，从而形成竞争优势。后来者要想迎头赶上，需要付出更多的努力和成本。

尽管8月上线的豆包，让字节勉强赶上了模型层的晚班车，但从性能和定位上看，那更像是一个“尝鲜”的应景之作，无法真正与字节现有的业务相契合。

作为一个在移动互联网时代制造了抖音这类爆款的大厂，字节真正想要的，是像文心一言那样更通用、更全能，且能整合或嵌入进自身的各类APP中的大模型。

这才有了后来字节的“种子计划”——计划在今年年底前，打造与 GPT-3.5 性能相匹敌的Seed 大模型。

问题是，大模型的训练，终归不是件一蹴而就的事。

标注数据、提取优质语料等等一系列繁琐的前期工作，都需要时间。

那如何在有限的、紧迫的时间内，搜集到足够多的高质量语料数据？

一个最靠谱的办法，就是直接使用那些已经验证过的，成熟度较高的模型的数据，例如ChatGPT。

模型层的窗口期

其实，不只是字节，即使是身处一线的AI玩家谷歌，也为了“急于求成”，做出了类似小动作。

本月月初，谷歌曾失望地宣布，被其寄予厚望的大模型Gemini，由于无法较好地处理非英语领域的查询任务，而被推迟了上线。

可鬼使神差的是，之后没过几天，谷歌就来了个回马枪，在12月6日郑重推出了Gemini，似乎之前提到的“缺陷”已经不是问题。

相关推荐