复制成功

分享至

主页 > 比特币 >

a16z:巨额计算成本压力下,不同企业该如何选择 AI 基础设施?

2023.04.28

撰文: Guido Appenzeller、Matt Bornstein 和 Martin Casado

来源:a16z

a16z:巨额计算成本压力下,不同企业该如何选择 AI 基础设施?

图片来源:由无界 AI工具生成

生成式人工智能的热潮是以计算为基础的。它的一个特性是,增加更多的计算量会直接导致更好的产品。通常情况下,研发投资与产品的价值更直接相关,而且这种关系明显是次线性的。但目前人工智能的情况并非如此,今天推动该行业发展的主要因素仅仅是训练和推理的成本。

虽然我们不知道真实的数字,但我们从可靠的消息来源听说,算力的供应十分紧张,需求超过了 10 倍!所以我们认为,现在,以最低的总成本获得计算资源已经成为人工智能公司成功的决定因素。

事实上,我们已经看到许多公司在计算资源上花费的资金占其总筹资额的 80% 以上。

在这篇文章中,我们试图分解 AI 公司的成本因素。绝对数字当然会随着时间的推移而变化,但我们不然我 AI 公司受计算资源的访问限制将立即缓解。因此,希望这是一个有助于思考的框架。


为什么 AI 模型的计算成本如此之高?


生成式人工智能模型种类繁多,推理和训练成本取决于模型的大小和类型。幸运的是,今天最流行的模型大多是基于 Transformer 的架构,其中包括热门的大型语言模型(LLM),如 GPT-3、GPT-J 或 BERT。虽然 transformer 的推理和学习操作的确切数量是特定于模型的(请参阅本文),但有一个相当准确的经验法则仅取决于参数的数量(即神经网络的权重)模型以及输入和输出 Token 的数量。

Token 基本上是几个字符的短序列。它们对应于单词或单词的一部分。获得对 token 的直觉的最好方法是使用公开的在线标记器(如 OpenAI)尝试标记化。对于 GPT-3,一个 token 的平均长度是 4 个字符。

Transformer 的经验法则是,对于一个具有 p 个参数的输入和一个长度为 n 个 token 的输出序列的模型,前向通过(即推理)大约需要 2*n*p 浮点运算(FLOPS)¹。对同一模型的训练,每个 token 大约需要 6*p 浮点运算(即,额外的后向传递需要多四次运算 ²)。你可以通过将其乘以训练数据中的 token 量来估算总的训练成本。

Transformer 的内存需求也取决于模型大小。对于推理,我们需要 p 个模型参数来适应内存。对于学习(即反向传播),我们需要在前向和后向传递之间存储每个参数的额外中间值。假设我们使用 32 位浮点数,这就是每个参数需要额外的 8 个字节。对于训练一个 1750 亿个参数的模型,我们需要在内存中保留超过一兆字节的数据 -- 这超过了目前存在的任何 GPU,需要我们将模型分割到不同的卡上。推理和训练的内存需求可以通过使用更短长度的浮点值来优化,16 位已成为普遍现象,预计在不久的将来会有 8 位。

a16z:巨额计算成本压力下,不同企业该如何选择 AI 基础设施?

上表是几个流行模型的规模和计算成本。GPT-3 有大约 1750 亿个参数,对应 1,024 个 token 的输入和输出,计算成本大约为 350 万亿次浮点运算(即 Teraflops 或 TFLOPS)。训练一个像 GPT-3 这样的模型需要大约 3.14*10^23 的浮点运算。其他模型如 Meta 的 LLaMA 有更高的计算要求。训练这样的模型是人类迄今为止承担的计算量较大的任务之一。

总结一下:人工智能基础设施之所以昂贵,是因为底层的算法问题在计算上极其困难。与用 GPT-3 生成一个单词的复杂性相比,对一个有一百万个条目的数据库表进行排序的算法复杂性是微不足道的。这意味着你要选择能够解决你的用例的最小模型。

好消息是,对于 transformer,我们可以很容易地估计出一个特定大小的模型将消耗多少计算和内存。因此,选择合适的硬件成为下一个考虑因素。


GPU 的时间和成本争论


计算复杂性是如何转化为时间的?一个处理器核心通常可以在每个周期执行 1-2 条指令,由于 Dennard Scaling 的结束,在过去的 15 年中,处理器的时钟速率一直稳定在 3 GHz 左右。在不利用任何并行架构的情况下,执行单个 GPT-3 推理操作将需要 350 TFLOPS/(3 GHz*1 FLOP)或 116,000 秒,或 32 小时。这是非常不切实际的;相反,我们需要专门的芯片来加速这项任务。

实际上,今天所有的 AI 模型都在使用大量专用内核的卡上运行。例如,英伟达 A100 图形处理器有 512 个 "张量核心",可以在一个周期内完成 4×4 矩阵乘法(相当于 64 次乘法和加法,或 128 个 FLOPS)。人工智能加速器卡通常被称为 GPU(图形处理单元),因为该架构最初是为桌面游戏开发的。在未来,我们预计人工智能将日益成为一个独特的产品系列。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier