复制成功

分享至

主页 > 比特币 >

深度对话产业专家:“百模大战”愈演愈烈,地球上现有算力不够支撑十亿人使用

2023.05.09
深度对话产业专家:“百模大战”愈演愈烈,地球上现有算力不够支撑十亿人使用

图片来源:由无界 AI工具生成

“百模大战”愈演愈烈,互联网大厂、创业公司、甚至科研机构,都在过去的2-3个月内推出了大模型。为何似乎短短时间内,几乎所有的科技公司都对“大模型”摩拳擦掌?所有的生意真的都值得用AI重做一遍吗?在AI重塑商业的过程中,大模型的意义究竟是什么?我们真的需要这么多大模型吗?究竟有没有标准可以评判大模型的优劣?未来,我们究竟应该如何驾驭大模型?

带着这些有关大模型的关键问题,腾讯科技邀请了两位在NLP领域有几十年研究经验、并具有产业经验的专家:MoPaaS 魔泊云创始人、CEO鲁为民博士,多语言多领域自然语言处理(NLP)资深架构师、Trend首席科学家李维博士,用了将近两个小时的时间,试图讨论并解决以上问题。虽然有些问题目前可能没有唯一答案,但是我们可以找到某些启发或探究路径。本文将呈现直播的完整回放,及内容的精华梳理。文章较长,但值得收藏阅读。

策划、主持丨郭晓静

编辑丨郭晓静、秦昊阳

文字整理丨赵杨博


大模型是未来商业版图必争之地还是新的红海竞争?


腾讯科技:“百模大战”进行中,那我们到底如何去评判一个大模型?目前有没有公认的标准,能评价大模型的性能优劣?

李维:这其实是一个很大的问题。大模型与上一代AI的“单任务模型”不同,单任务模型通常有公认的数据集作为黄金标准,用于测试系统的优劣并排名高低。对于大模型来说,评测提出了新的挑战。因为大模型是多任务的,任务其实是开放式的,难以预先定义,具体任务常常由应用场景而定。结果就是,数据质量的测试既繁重,也难以全面。

在这种情况下,如何评价大模型的好坏?客观地说,其实目前为止并没有真正的公认的客观评判标准和方法。随着时间推移,AI共同体也许会凝聚共识,逐渐形成一些核心功能的评测方案。

但是,做大模型的团队,在开发过程中需要合适的质量监控(Quality Assurance,QA)指标来帮助纠正航向。像大模型这样需要高算力和巨大资源耗费的工程,如果没有一个好的QA团队来帮助,很可能会走偏。等你开始意识到走偏的时候,已经花费数月的时间,而你的竞争对手可能已经领先。从这个角度来看,QA非常重要,但如何做好QA,目前来说都还是各自在摸索。

回顾一下Open AI 的做法。GPT-3开源的时候,Open AI发的报告用了很长的篇幅展示测试结果,用的是NLP领域中以前定义过的各项任务(大约20-30种)测试这个大模型,比如Sentiment Analysis,Name Entity Tagging,Open Question Answer,等。测试之后发现ChatGPT的的NLP多任务的综合表现都还不错。这是大模型测试发展的第一阶段。

后来进入第二阶段,面对更广阔的前景,如何测试大模型?Open AI从GPT3.5到GPT4,开始把考核人的专业知识的测试拿出来测试大模型。中小学的各科考试,大学生的入学考试,研究生的考试,最后到职业考核,例如律师资格考试、医生资格考试等,都用来测试,看看大模型表现怎么样。这个从道理上来说是更高级的,比上一阶段的测试更加全面、更加实用,因为我们人就是这么考过来的。但这样做工作量巨大。比如在GPT-4发布时,微软已经投入大半年的时间和几十人的团队来测试它,证明它比GPT-3提升了一大步,例如,律师资格从GPT3的不及格,到 GPT4 的优异表现(位居人类律师考试成绩的前10%)。

未来我们应该如何评估大模型?如何对人类的这些考试进行排序?哪些考试是最核心、最有用的?或者有哪些优先级的配置等等?这可能是一个需要我们进一步讨论探索的课题。究竟应该如何客观地评价大模型,如何在有限的时间和资源条件下做出客观的评价并给出有用的反馈,让数据团队更有针对性地准备数据,让开发团队不偏离方向,保障模型的健康迭代,这是大模型开发者的共同挑战,还需要时间积累经验,形成基本的QA操作规范。

从另一个角度来看,现在所有声称成为本行业第一的人其实都是有疑问的,因为根本就不存在共同的标准,只能说是勇气可嘉。当然,OpenAI除外,人家是先行者,是公认的领跑者,他们的最新模型 GPT4 就是当前大模型技术的天花板。对于所有其他的追随者, 包括谷歌,目前来看还没有清晰明了的标准来测量他们。

中国有一句古话叫“文无第一”,多任务的开放式大模型,基本是这样的形态。现在不管谁自称第一,只能看成是营销而已。真正重要的是,你的模型不能太差。如果你的模型太差,就会被用户自然淘汰。开放以后,长期无人问津是危机的信号。只要你没有被遗忘,你可能是第一,也可能是第二,不得而知,但你总可以说是“最好之一”。

腾讯科技:大模型创业有哪些商业模式?我们到底需要多少大模型?

鲁为民:首先,我们需要多少大型模型?这是一个值得思考的问题,因为它其实有很多限制因素。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier