复制成功

分享至

主页 > 数字货币 >

大模型套壳祛魅:质疑套壳,理解套壳

2024.01.03

作者|赵健

来源丨甲子光年

套壳不是核心竞争力,把壳做厚才是。
大模型套壳祛魅:质疑套壳,理解套壳

图片来源:由无界 AI生成

刚刚过去的 2023 年是大模型元年,在国产大模型数量狂飙突进的同时——已经超过 200 个,“套壳”一直是萦绕在大模型头上的舆论阴云。

从年初到年末,从百度文心一言到零一万物,从字节跳动到谷歌 Gemini,各种“涉嫌套壳”的事件屡次冲上热搜,随后又被相关方解释澄清。

非 AI 从业者,视套壳如洪水猛兽;真正的 AI 从业者,对套壳讳莫如深。但由于“套壳”本身并没有清晰、准确的定义,导致行业对套壳的理解也是一千个读者有一千个哈姆雷特。

当我们在谈论套壳的时候,到底在谈论什么?

抛开具体场景谈套壳都是在贴标签。为了厘清大模型套壳的逻辑,「甲子光年」访谈了一些AI从业者、投资人,结合 OpenAI、Meta 以及国内大模型相关技术论文,从一个大模型的“炼丹”过程入手,看看在哪些步骤、哪些环节,存在套壳的空间。

2024 年或许是大模型大规模落地的元年,一些 AI Native 的应用将会陆续出现。在积极发展大模型应用生态之时,希望行业对于“套壳”的讨论能够抛开情绪,回归事实。


1.大模型的统一“内核”


大模型套壳祛魅:质疑套壳,理解套壳

为了更好地理解套壳,必须区别“外壳”与“内核”的区别。

今天,所有大模型的内核,都起源于 2017 年谷歌大脑团队(Google Brain,2023年 4 月与谷歌收购的 AI 公司 DeepMind 合并为 Google DeepMind )发布的Transformer 神经网络架构。

Transformer 一经问世,逐步取代了过去的 RNN(循环神经网络)与 CNN(卷积神经网络),成为 NLP(自然语言处理)前沿研究的标准范式。

在 Transformer 诞生的十年前,有一部好莱坞大片《变形金刚》在全球上映,这部电影的英文名字就叫“Transformers”。就像电影中能够灵活变身的变形金刚一样,作为神经网络架构的 Transformer 也可以通过改变架构组件与参数,衍生出不同的变体。

Transformer 的原始架构包含两个核心组件——编码器(Encoder)与解码器(Decoder),编码器负责理解输入文本,解码器负责生成输出文本。在 Transformer 的原始架构上“魔改”衍生出三个变体架构——只采用编码器(Encoder-only),只采用解码器(Decoder-only),以及两者的混合体(Encoder-Decoder)。

这三个变体架构分别有一个代表性模型——谷歌的 BERT ,OpenAI 的 GPT 系列模型,以及谷歌的 T5。今天,这三个模型名称通常也指代了其背后的模型架构名称(后文也以此指代)。

大模型套壳祛魅:质疑套壳,理解套壳

Transformer的模型架构图,左侧为Encoder,右侧为Decoder。图片来自谷歌论文

在 2020 年之前,NLP 的模型研究基本都是围绕算法展开,基于 BERT、T5 与 GPT 架构的模型百花齐放。这一时期模型参数较小,基本都在 10 亿以内量级。其中,谷歌 BERT 的表现独领风骚,基于 BERT 架构的模型一度在阅读理解的竞赛排行榜中屠榜。

直到 2020 年,OpenAI 发布一篇论文,首次提出了 Scaling Laws(尺度定律),NLP 的研究才正式进入大模型时代——大模型基于“大算力、大参数、大数据”,模型性能就会像摩尔定律一样持续提升,直到“智能涌现”的时刻。

在此期间,GPT 架构的性能表现逐渐超越 BERT 与 T5,成为大模型的主流选择。今天百亿参数以上的主流大模型中,除了谷歌最新发布的 Gemini 是基于 T5 架构,几乎清一色都是从 GPT 架构衍生而来。可以说,GPT 完成了一场大模型架构内核的大一统。

大模型套壳祛魅:质疑套壳,理解套壳

大模型进化树,其中 GPT 系列枝繁叶茂。图片来自Github,作者Mooler0410

从大模型的进化脉络来看,今天所有的模型都是在“套壳” Transformer 以及其三个变体架构。

当然,Transformer 也有“不愿套壳”的挑战者。比如,2023 年 12 月 5 日,两位分别来自卡内基梅隆大学与普林斯顿大学的教授,发布了一款名为“Mamba”(曼巴)的新架构,在语言建模性能媲美 Transformer 的同时,还解决了一些扩展性的局限。但这个新架构的具体表现,还需要时间的检验。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier