复制成功

分享至

主页 > 比特币 >

大模型炼丹指南:信则灵,不信则妄

2023.04.27

原创:陈彬

来源:远川研究所

大模型炼丹指南:信则灵,不信则妄

图片来源:由无界 AI工具生成

每一个大模型都是一台昂贵的“碎钞机”,这已经成为各路 AI 观察家们津津乐道的常识。

大模型训练成本有一个简单的比例:训练费用跟参数量的平方成正比。比如 OpenAI 训练 1750 亿参数的 GPT-3 费用大概是 1200 万美元,训练 5000 亿参数(业界预估)的 GPT-4 成本就飙升至 1 亿美元。

成本大都来自 GPU 使用时长。Meta 训练 650 亿个参数的 LLaMA 模型耗费 100 万个 GPU 小时;HuggingFace(号称机器学习届的 GitHub)训练 Bloom 模型耗费了超过两个半月的时间,使用的算力相当于一台装有 500 个 GPU 的超级计算机。

Google 在训练 5400 亿参数的 PaLM 模型时,在 6144 块 TPU v4 芯片上训练了 1200 小时,然后又在在 3072 块 TPU v4 芯片上训练了 336 小时,总共消耗了 2.56 e24 FLOPs 的算力,折合成 Google 云计算的报价,大概在 900~1700 万美元左右。

但是……几百上千万美金的训练费用和几亿美金的硬件投入,相比 AIGC 开启的浪潮,真的算贵吗?

微软 2022 年的净利润是 727 亿美金,Google 是 600 亿美金,Meta 则是 230 亿美金,在 OpenAI 花费 460 万美金训练 GPT-3 之前,这些巨头都投入了几十甚至上百亿美金用来寻找所谓的“新方向”。

微软迄今为止向 OpenAI 投入了 100 多亿美金,这个数字看起来很多,但要知道微软当年收购 LinkedIn 就花了 262 亿美金,而在更早的时候收购诺基亚手机业务花了 71.7 亿美金,基本等于打了水漂。

Meta 则花了更多“冤枉钱”来寻找第二曲线。2021 年扎克伯格把 Facebook 的名字改成了“Meta”,投入巨资 All in 元宇宙,2022 年元宇宙部门亏损 137 亿美元。在 ChatGPT 问世之前,Meta 甚至一度准备把 2023 年的 20% 预算投入到元宇宙中去。

Google 对 AI 一向重视,不仅收购了“前 GPT 时代”的明星 DeepMind,还是 Transformer 这一革命性模型的提出者,但 Google 并没有像 OpenAI 那样孤注一掷地“死磕”大语言模型,而是在多个方向上“撒胡椒面”——总投入并不少,但效果加起来都不如一个 ChatGPT。

拉开视野来看,全球科技巨头——包括国内的大型互联网企业在移动互联网渗透率见顶之后,展开了惨烈的“存量博弈”,卷算法推荐、卷短视频、卷 Web3、卷本地生活……投入的资金远远超过 OpenAI 在 ChatGPT 诞生前烧掉的 10 亿美金。

发现新大陆的费用,跟旧大陆的内耗向来不在一个数量级。欧洲人在哥伦布发现新大陆之前内卷了 1000 年,而发现新大陆只花了西班牙王室投资的 200 万马拉维迪(大约 14000 美元)——跟新大陆给世界带来的变化相比,这点儿钱其实微不足道。

事实上,“资金”从来都不是启动本轮 AI 浪潮的核心因素。真正核心的因素是另外两个字:信仰。


蛮力的神迹


ChatGPT 走红后,好事儿的媒体跑去采访了 Google 旗下的 DeepMind 创始人 Demis Hassabis。

被 OpenAI 抢去了所有风头的 Hassabis 言辞有点儿不客气:“面对自然语言这一挑战,ChatGPT 的解决方案如此不优雅——仅仅是更多的计算能力和数据的蛮力,我的研究灵魂对此倍感失望。”

大模型炼丹指南:信则灵,不信则妄

Demis Hassabis 和柯洁

这句话听起来很“酸”,然而他接着话锋一转:“但这的确是获得最佳结果的方式,所以我们(的大模型)也以此为基础。”意思就是虽然不太认同,但 OpenAI 的“蛮力”真的很香,我们也不得不去学。

Hassabis 身段灵活,但早期对“蛮力”这件事的态度,让 Google 和 OpenAI 有了致命的分野。

2017 年,谷歌在论文中公开了革命性的 Transformer 模型,业界逐渐意识到这个模型对于构建 AGI(通用人工智能)的意义。然而,基于同样的 Transformer,谷歌与 OpenAI 却走上了两条不同的两条路。

OpenAI 旗帜鲜明地从 Transformer 构建大语言模型,疯狂堆参数,2018 年 6 月发布 GPT-1,参数 1.17 亿;2019 年 2 月发布 GPT-2,参数 15 亿;2020 年 5 月发布 GPT-3,参数 1750 亿,在蛮力的道路上“一条路走到黑”。

而 Google 虽然也地祭出 BERT(3 亿参数)、T5(110 亿参数)和 Switch Transformer(1.6 万亿参数),表面上跟 OpenAI 斗的有来有回,但光从模型的名字就能看出来:Google 总在更换模型搭建的策略,而 OpenAI 的策略更单一更专注。

比如 GPT-2 和 GPT-1 相比,OpenAI 没有重新设计底层结构,而是将 Transformer 堆叠的层数从 12 层增加到 48 层,并使用了更大的训练数据集,而 GPT-3 进一步把层数增加到了 96 层,使用比 GPT-2 还要大的数据集,但模型框架基本上没有改变。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier