谁在成为大模型的“AI运营”？

2024.01.12

原文来源：产业家

作者：皮爷

图片来源：由无界 AI生成

在过去的一段时间里，“AI-native”成为所有工具的一个显著探索趋势，不论是算力集群的智算中心，还是数据库侧的向量数据库，再或者是不断进化的算法，都在以一种更适配大模型架构的方式被推演出来。

那么，大模型时代，数据应该如何训练？或者说，如何把数据在大模型侧做更好的表达？

“大模型如何落地？”

在近一年的时间以来，关于这个问题的讨论正在愈演愈烈。如果说市场对于大模型最开始的关注点更多的在参数、算力、开源，那么如今越来越多人的视线开始向更核心的环节转移——数据。

相较于算力等更简单粗暴的命题，数据要更为复杂。从某种层面来说，它对应的是模型的知识质量。

在10月底的一个关于大模型的闭门会上，这个问题更是被鲜明地提出。参会的人不乏底层通用大模型产品负责人，而更多地则是已经开始尝试将大模型进行落地的企业从业者，其中模型接入方法有自研，也更有开源，但作为第一批将大模型内嵌到企业场景的人，他们的共同反馈是：不能用，不好用。

“我们很难把模型训练成能嵌入场景或应用的样子，不知道是哪里出了问题，是通用大模型本身能力不行，还是我们自己的数据训练、标注不到位。”一位企业创始人表示。

实际上，在大模型被越发高频尝试的当下，这正在成为越来越多企业面临的问题。即在市面上即见即得的模型之外，如何将其转化成企业自身能自己使用的大模型？

“我们刚开始训练了三轮，但越到后面越不好训练，中间不仅花费算力，更花费的是人力。”上述创始人告诉产业家。

但在最核心环节之一的数据侧，进度却始终缓慢。这种“缓慢”甚至成为着大模型在大规模场景落地的最关键掣肘之一。

那么，大模型时代，数据应该如何训练？或者说，如何把数据在大模型侧做更好的表达？在即将到来的2024年，这个被摆到台面上的问题已经不仅是这一步应该怎么迈，更升级的挑战是这一步应该怎样迈好。

谁能先答好这个命题，谁就能快人一步。

一、大模型的“关键一道门”，应该如何推开？

“我们现在是把一些大模型的数据标注交给外包团队。”这是在9月份和一位金融方向的IT负责人交流中他和我们的讲述，主要面向方向是基于线下网点的客服和营销。

如何把数据“挪移”到大模型中来？在当下的大模型潮流里，数据标注和训练几乎是所有大模型企业必须经历的一个环节。

数据标注，对其固有的标签是对数据进行知识型标注，在过去多年的发展里其更多的以拖、拉、勾、画等方式存在包括自动驾驶等需要大量数据标注的行业，从业人员画像较为复杂，标注任务相较简单。

但如今的大模型标注不同。“我们替换了两个标注团队，最终才经过训练，有了不错的门店服务和引导效果。”上述负责人告诉产业家。

更具体的情况是，其采用的是国内某互联网大厂的开源模型，基于开源的框架进行自己模型的搭建，整体进度较快，但在数据训练环节，时间却被大大放缓。

他表示，最开始选择的外包团队也是市面上的某标注企业，但从最开始提出需求到最后的效果验收，不仅时间较长，而且最终的准确率也不高；而第二次选择的团队尽管同样花费时间长，但最终效果还算满意。

这正在成为越来越多企业的缩影。即伴随着国内底层大模型的逐步低门槛化，越来越多的挑战已然不聚焦在模型算法本身，更多的在于数据，也就是如何把模型从“可用变得好用”。

实际上，做好大模型的数据标注不是一件容易的事情。

首先从数据本身而言，和之前的标注相比，大模型需要的数据量级更大，而且数据结构更为复合，除了单个数据标签之外，不少大模型的训练需要用到合成数据（即用AI产生的数据），这也就意味着数据本身的标注模型和标注方法与之前不再相同。

相关推荐