深度对话产业专家：“百模大战”愈演愈烈，地球上现有算力不够支撑十亿人使用

2023.05.09

图片来源：由无界 AI工具生成

“百模大战”愈演愈烈，互联网大厂、创业公司、甚至科研机构，都在过去的2-3个月内推出了大模型。为何似乎短短时间内，几乎所有的科技公司都对“大模型”摩拳擦掌？所有的生意真的都值得用AI重做一遍吗？在AI重塑商业的过程中，大模型的意义究竟是什么？我们真的需要这么多大模型吗？究竟有没有标准可以评判大模型的优劣？未来，我们究竟应该如何驾驭大模型？

带着这些有关大模型的关键问题，腾讯科技邀请了两位在NLP领域有几十年研究经验、并具有产业经验的专家：MoPaaS 魔泊云创始人、CEO鲁为民博士，多语言多领域自然语言处理（NLP）资深架构师、Trend首席科学家李维博士，用了将近两个小时的时间，试图讨论并解决以上问题。虽然有些问题目前可能没有唯一答案，但是我们可以找到某些启发或探究路径。本文将呈现直播的完整回放，及内容的精华梳理。文章较长，但值得收藏阅读。

策划、主持丨郭晓静

编辑丨郭晓静、秦昊阳

文字整理丨赵杨博

大模型是未来商业版图必争之地还是新的红海竞争？

腾讯科技：“百模大战”进行中，那我们到底如何去评判一个大模型？目前有没有公认的标准，能评价大模型的性能优劣？

李维：这其实是一个很大的问题。大模型与上一代AI的“单任务模型”不同，单任务模型通常有公认的数据集作为黄金标准，用于测试系统的优劣并排名高低。对于大模型来说，评测提出了新的挑战。因为大模型是多任务的，任务其实是开放式的，难以预先定义，具体任务常常由应用场景而定。结果就是，数据质量的测试既繁重，也难以全面。

在这种情况下，如何评价大模型的好坏？客观地说，其实目前为止并没有真正的公认的客观评判标准和方法。随着时间推移，AI共同体也许会凝聚共识，逐渐形成一些核心功能的评测方案。

但是，做大模型的团队，在开发过程中需要合适的质量监控（Quality Assurance，QA）指标来帮助纠正航向。像大模型这样需要高算力和巨大资源耗费的工程，如果没有一个好的QA团队来帮助，很可能会走偏。等你开始意识到走偏的时候，已经花费数月的时间，而你的竞争对手可能已经领先。从这个角度来看，QA非常重要，但如何做好QA，目前来说都还是各自在摸索。

回顾一下Open AI 的做法。GPT-3开源的时候，Open AI发的报告用了很长的篇幅展示测试结果，用的是NLP领域中以前定义过的各项任务（大约20-30种）测试这个大模型，比如Sentiment Analysis，Name Entity Tagging，Open Question Answer，等。测试之后发现ChatGPT的的NLP多任务的综合表现都还不错。这是大模型测试发展的第一阶段。

后来进入第二阶段，面对更广阔的前景，如何测试大模型？Open AI从GPT3.5到GPT4，开始把考核人的专业知识的测试拿出来测试大模型。中小学的各科考试，大学生的入学考试，研究生的考试，最后到职业考核，例如律师资格考试、医生资格考试等，都用来测试，看看大模型表现怎么样。这个从道理上来说是更高级的，比上一阶段的测试更加全面、更加实用，因为我们人就是这么考过来的。但这样做工作量巨大。比如在GPT-4发布时，微软已经投入大半年的时间和几十人的团队来测试它，证明它比GPT-3提升了一大步，例如，律师资格从GPT3的不及格，到 GPT4 的优异表现（位居人类律师考试成绩的前10%）。

未来我们应该如何评估大模型？如何对人类的这些考试进行排序？哪些考试是最核心、最有用的？或者有哪些优先级的配置等等？这可能是一个需要我们进一步讨论探索的课题。究竟应该如何客观地评价大模型，如何在有限的时间和资源条件下做出客观的评价并给出有用的反馈，让数据团队更有针对性地准备数据，让开发团队不偏离方向，保障模型的健康迭代，这是大模型开发者的共同挑战，还需要时间积累经验，形成基本的QA操作规范。

从另一个角度来看，现在所有声称成为本行业第一的人其实都是有疑问的，因为根本就不存在共同的标准，只能说是勇气可嘉。当然，OpenAI除外，人家是先行者，是公认的领跑者，他们的最新模型 GPT4 就是当前大模型技术的天花板。对于所有其他的追随者，包括谷歌，目前来看还没有清晰明了的标准来测量他们。

中国有一句古话叫“文无第一”，多任务的开放式大模型，基本是这样的形态。现在不管谁自称第一，只能看成是营销而已。真正重要的是，你的模型不能太差。如果你的模型太差，就会被用户自然淘汰。开放以后，长期无人问津是危机的信号。只要你没有被遗忘，你可能是第一，也可能是第二，不得而知，但你总可以说是“最好之一”。

腾讯科技：大模型创业有哪些商业模式？我们到底需要多少大模型？

鲁为民：首先，我们需要多少大型模型？这是一个值得思考的问题，因为它其实有很多限制因素。

深度对话产业专家：“百模大战”愈演愈烈，地球上现有算力不够支撑十亿人使用

加⼊OKEx全球社群

相关推荐