大模型炼丹指南：信则灵，不信则妄

2023.04.27

原创：陈彬

来源：远川研究所

图片来源：由无界 AI工具生成

每一个大模型都是一台昂贵的“碎钞机”，这已经成为各路 AI 观察家们津津乐道的常识。

大模型训练成本有一个简单的比例：训练费用跟参数量的平方成正比。比如 OpenAI 训练 1750 亿参数的 GPT-3 费用大概是 1200 万美元，训练 5000 亿参数（业界预估）的 GPT-4 成本就飙升至 1 亿美元。

成本大都来自 GPU 使用时长。Meta 训练 650 亿个参数的 LLaMA 模型耗费 100 万个 GPU 小时；HuggingFace（号称机器学习届的 GitHub）训练 Bloom 模型耗费了超过两个半月的时间，使用的算力相当于一台装有 500 个 GPU 的超级计算机。

Google 在训练 5400 亿参数的 PaLM 模型时，在 6144 块 TPU v4 芯片上训练了 1200 小时，然后又在在 3072 块 TPU v4 芯片上训练了 336 小时，总共消耗了 2.56 e24 FLOPs 的算力，折合成 Google 云计算的报价，大概在 900~1700 万美元左右。

但是……几百上千万美金的训练费用和几亿美金的硬件投入，相比 AIGC 开启的浪潮，真的算贵吗？

微软 2022 年的净利润是 727 亿美金，Google 是 600 亿美金，Meta 则是 230 亿美金，在 OpenAI 花费 460 万美金训练 GPT-3 之前，这些巨头都投入了几十甚至上百亿美金用来寻找所谓的“新方向”。

微软迄今为止向 OpenAI 投入了 100 多亿美金，这个数字看起来很多，但要知道微软当年收购 LinkedIn 就花了 262 亿美金，而在更早的时候收购诺基亚手机业务花了 71.7 亿美金，基本等于打了水漂。

Meta 则花了更多“冤枉钱”来寻找第二曲线。2021 年扎克伯格把 Facebook 的名字改成了“Meta”，投入巨资 All in 元宇宙，2022 年元宇宙部门亏损 137 亿美元。在 ChatGPT 问世之前，Meta 甚至一度准备把 2023 年的 20% 预算投入到元宇宙中去。

Google 对 AI 一向重视，不仅收购了“前 GPT 时代”的明星 DeepMind，还是 Transformer 这一革命性模型的提出者，但 Google 并没有像 OpenAI 那样孤注一掷地“死磕”大语言模型，而是在多个方向上“撒胡椒面”——总投入并不少，但效果加起来都不如一个 ChatGPT。

拉开视野来看，全球科技巨头——包括国内的大型互联网企业在移动互联网渗透率见顶之后，展开了惨烈的“存量博弈”，卷算法推荐、卷短视频、卷 Web3、卷本地生活……投入的资金远远超过 OpenAI 在 ChatGPT 诞生前烧掉的 10 亿美金。

发现新大陆的费用，跟旧大陆的内耗向来不在一个数量级。欧洲人在哥伦布发现新大陆之前内卷了 1000 年，而发现新大陆只花了西班牙王室投资的 200 万马拉维迪（大约 14000 美元）——跟新大陆给世界带来的变化相比，这点儿钱其实微不足道。

事实上，“资金”从来都不是启动本轮 AI 浪潮的核心因素。真正核心的因素是另外两个字：信仰。

蛮力的神迹

ChatGPT 走红后，好事儿的媒体跑去采访了 Google 旗下的 DeepMind 创始人 Demis Hassabis。

被 OpenAI 抢去了所有风头的 Hassabis 言辞有点儿不客气：“面对自然语言这一挑战，ChatGPT 的解决方案如此不优雅——仅仅是更多的计算能力和数据的蛮力，我的研究灵魂对此倍感失望。”

Demis Hassabis 和柯洁

这句话听起来很“酸”，然而他接着话锋一转：“但这的确是获得最佳结果的方式，所以我们（的大模型）也以此为基础。”意思就是虽然不太认同，但 OpenAI 的“蛮力”真的很香，我们也不得不去学。

Hassabis 身段灵活，但早期对“蛮力”这件事的态度，让 Google 和 OpenAI 有了致命的分野。

2017 年，谷歌在论文中公开了革命性的 Transformer 模型，业界逐渐意识到这个模型对于构建 AGI（通用人工智能）的意义。然而，基于同样的 Transformer，谷歌与 OpenAI 却走上了两条不同的两条路。

OpenAI 旗帜鲜明地从 Transformer 构建大语言模型，疯狂堆参数，2018 年 6 月发布 GPT-1，参数 1.17 亿；2019 年 2 月发布 GPT-2，参数 15 亿；2020 年 5 月发布 GPT-3，参数 1750 亿，在蛮力的道路上“一条路走到黑”。

而 Google 虽然也地祭出 BERT（3 亿参数）、T5（110 亿参数）和 Switch Transformer（1.6 万亿参数），表面上跟 OpenAI 斗的有来有回，但光从模型的名字就能看出来：Google 总在更换模型搭建的策略，而 OpenAI 的策略更单一更专注。

比如 GPT-2 和 GPT-1 相比，OpenAI 没有重新设计底层结构，而是将 Transformer 堆叠的层数从 12 层增加到 48 层，并使用了更大的训练数据集，而 GPT-3 进一步把层数增加到了 96 层，使用比 GPT-2 还要大的数据集，但模型框架基本上没有改变。

大模型炼丹指南：信则灵，不信则妄

加⼊OKEx全球社群

相关推荐