大模型是不是有点太多了？

2023.10.25

原文来源：远川科技评论

图片来源：由无界AI生成

上个月，AI业界爆发了一场“动物战争”。

一方是Meta推出的Llama（美洲驼），由于其开源的特性，历来深受开发者社区的欢迎。NEC（日本电气）在仔细钻研了Llama论文和源代码后，迅速“自主研发”出了日语版ChatGPT，帮日本解决了AI卡脖子难题。

另一方则是一个名为Falcon（猎鹰）的大模型。今年5月，Falcon-40B问世，力压美洲驼登顶了“开源LLM（大语言模型）排行榜”。

该榜单由开源模型社区Hugging face制作，提供了一套测算LLM能力的标准，并进行排名。排行榜基本上就是Llama和Falcon轮流刷榜。

Llama 2推出后，美洲驼家族扳回一城；可到了9月初，Falcon推出了180B版本，又一次取得了更高的排名。

Falcon以68.74分力压Llama 2

有趣的是，“猎鹰”的开发者不是哪家科技公司，而是位于阿联酋首都阿布扎比的科技创新研究所。政府人士表示，“我们参与这个游戏是为了颠覆核心玩家”[4]。

180B版本发布第二天，阿联酋人工智能部长奥马尔就入选了《时代周刊》评选的“AI领域最具影响力的100人”；与这张中东面孔一同入选的，还有“AI教父”辛顿、OpenAI的阿尔特曼，以及李彦宏。

阿联酋人工智能部长

如今，AI领域早已步入了“群魔乱舞”的阶段：但凡有点财力的国家和企业，或多或少都有打造“XX国版ChatGPT”的计划。仅在海湾国家的圈子内，已不止一个玩家——8月，沙特阿拉伯刚刚帮国内大学购买了3000多块p00，用于训练LLM。

金沙江创投朱啸虎曾在朋友圈吐槽道：“当年看不起（互联网的）商业模式创新，觉得没有壁垒：百团大战、百车大战、百播大战；没想到硬科技大模型创业，依然是百模大战...”

说好的高难度硬科技，怎么就搞成一国一模亩产十万斤了？

Transformer吞噬世界

美国的初创公司、中国的科技巨擘、中东的石油大亨能够逐梦大模型，都得感谢那篇著名的论文：《Attention Is All You Need》。

2017年，8位谷歌的计算机科学家在这篇论文中，向全世界公开了Transformer算法。这篇论文目前是人工智能历史上被引数量第三高的论文，Transformer的出现则扣动了此轮人工智能热潮的扳机。

无论当前的大模型是什么国籍，包括轰动世界的GPT系列，都是站在了Transformer的肩膀上。

在此之前，“教机器读书”曾是个公认的学术难题。不同于图像识别，人类在阅读文字时，不仅会关注当前看到的词句，更会结合上下文来理解。

比如“Transformer”一词其实可翻译成“变形金刚”，但本文读者肯定不会这么理解，因为大家都知道这不是一篇讲好莱坞电影的文章。

但早年神经网络的输入都彼此独立，并不具备理解一大段文字、甚至整篇文章的能力，所以才会出现把“开水间”翻译成“open water room”这种问题。

直到2014年，在谷歌工作、后来跳槽去了OpenAI的计算机科学家伊利亚（Ilya Sutskever）率先出了成果。他使用循环神经网络（RNN）来处理自然语言，使谷歌翻译的性能迅速与竞品拉开了差距。

RNN提出了“循环设计”，让每个神经元既接受当前时刻输入信息，也接受上一时刻的输入信息，进而使神经网络具备了“结合上下文”的能力。

循环神经网络

RNN的出现点燃了学术圈的研究热情，日后Transformer的论文作者沙泽尔（Noam Shazeer）也一度沉迷其中。然而开发者们很快意识到，RNN存在一个严重缺陷：

该算法使用了顺序计算，它固然能解决上下文的问题，但运行效率并不高，很难处理大量的参数。

RNN的繁琐设计，很快让沙泽尔感到厌烦。因此从2015年开始，沙泽尔和7位同好便着手开发RNN的替代品，其成果便是Transformer[8]。

Noam Shazeer

相比于RNN，Transformer的变革有两点：

一是用位置编码的方式取代了RNN的循环设计，从而实现了并行计算——这一改变大大提升了Transformer的训练效率，从而变得能够处理大数据，将AI推向了大模型时代；二是进一步加强了上下文的能力。

随着Transformer一口气解决了众多缺陷，它渐渐发展成了NLP（自然语言处理）的唯一解，颇有种“天不生Transformer，NLP万古如长夜”的既视感。连伊利亚都抛弃了亲手捧上神坛的RNN，转投Transformer。

相关推荐