大模型的“成本瘦身”运动

2023.11.03

原文来源：脑极体

图片来源：由无界 AI生成

数据大、参数量大、算力大，大模型的某些能力才会“涌现”，这一点在科技圈广为流传。

做大模型的主流思想是：不要轻易说模型“不行”，如果“它还没行”，那就做得更大一点。

所以，不到一年的时间，大模型的参数规模增长100倍，如今已经突破了万亿级别，资源消耗量巨大，也带来了越来越高的存储成本、推理成本、运维成本、落地成本……以及社会成本。

目前，大模型仍处于商业化的黎明，如何回收大模型的投入，还存在很多未知数与不确定，而大模型一直在变大，成了一门极其烧钱的生意，背靠微软的Open AI，2022年就亏损了5.4 亿美元左右。

不断膨胀的成本，就是一张张真金白银的账单，压在大模型企业身上的一根根“稻草”。Anthropic的首席执行官Dario Amodei最近预测，在未来两年内，他们的模型成本将达到100亿美元。

除了企业自身，社会也同样在承担大模型的隐形成本。谷歌就曾报告称，训练 PaLM 在大约两个月内耗费了大约 3.4 千瓦时的电量，相当于300 个家庭每年的能源消耗总量。大模型高能耗给环境带来的负担和成本，最终由整个社会来买单的。

很显然，无论是商业上、环境上，比拼模型体量都是不可持续的。

一味求大的时代，已经过去了。

问题是，怎么给大模型“减负”呢？

事实上，通用大模型的头部厂商，一直都在积极地开展“成本瘦身”运动。

比如微软在Microsoft Build 2020 上曾公开了为GPT-3提供支持的AI supercomputing超级计算机，可以让AI模型的训练效率比其他平台高16倍，更快的训练可以降低时间成本与风险成本。

国产大模型也不例外。

盘古大模型早在2.0版本中，就尝试采用稀疏+稠密架构，以降低训练成本。文心一言推出一个月以后，也通过技术手段将大模型的推理性能提升近10倍，推理成本降到原来的十分之一。

避免走向臃肿沉重，成为人人都能使用的工具，大模型的“成本瘦身运动”，势在必行。具体怎么实现？本文就来谈一谈这个问题。

一口吃不成胖子

大模型的哪些成本可以优化，哪些成本无法削减，哪些成本还要进一步加大投入？搞清楚这些之前，首先得知道是怎么胖的。才能在保证大模型的性能表现和用户体验（健康）的前提下，合理且精准地进行“成本瘦身”。

简单来说，AI三要素——数据、算力、算法，仍然是决定大模型成本的最关键因素。

先说数据。Garbage in, garbage out，在大模型时代依然适用。

数据质量会直接决定大模型的能力。OpenAI招聘了多位博士来处理各行业的专业数据，并找了独角兽企业Scale AI等多家数据标注公司，给GPT-3进行大规模的数据集投喂。同时，算法模型会不断迭代升级，对数据量的需求会随着使用量的上升和性能优化而持续不短的时间。

中文大模型的成本高，一个主要原因就是，中文数据量和质量，与英文还存在差距，训练中文大模型，需要采集和处理的中文语言数据更多。另一方面，英语语法结构相比中文更简单，中文文本的复杂性和多样性，有的中文词汇可以表达多种含义，语境丰富，上下文理解的歧义多、难度大，也增加了中文模型的训练难度，需要额外的资源来支撑中文大模型的训练。

再说算力。

大模型的训练、运行、服务、迭代等一整个全周期，都要计算和存储资源。

大模型的训练，主打一个“暴力美学”，参数越大，训练所用的计算资源就越多。GPT-3所使用的超级计算机，包含了一万个GPU、285000个处理器内核。国内的文心4.0，也是基于飞桨平台在万卡集群训练出来的。

这还不算完。大模型在部署后开放服务，随着使用量的增加，要完成的推理任务也越来越多。24小时进行大量的“思考”和“输出”，这个推理过程，也会持续消耗计算资源，就像人脑在处理大量复杂任务时，需要消耗糖原，很容易感到饥饿，得大吃一顿来补充能量。所以，大模型的推理成本也是很高的。

175B的GPT-3部署后的推理至少需要五个A100 GPU，而国内面向全社会开放服务的大模型，比如文心一言，据说推理成本也是上一代的8-10倍。

最后说说算法。

降低大模型对计算资源的巨大依赖，一个主流方案是优化模型，在性能不变的基础上，以更快的推理速度、更小的延迟、更低的资源需求来运行，相当于ROI投入产出比更高了，训练、推理环节所需要的算力资源，单位成本更低。

大模型的“成本瘦身”运动

加⼊OKEx全球社群

相关推荐