复制成功

分享至

主页 > 数字货币 >

算力供需矛盾:一边大模型争霸、一边GPU算力闲置

2023.12.29

原文来源:钛媒体APP

作者 | 杨丽

算力供需矛盾:一边大模型争霸、一边GPU算力闲置

图片来源:由无界 AI‌生成

全球大模型争霸赛,正推进大量产业应用诉求。但这一年矛盾最突出的话题却不是怎么用明白大模型,而是企业用户对云数据中心、服务器集群,对大算力芯片的海量计算诉求没有得到充分满足。算力供需矛盾的背后,很重要的一点其实是算力闲置问题。

据研究机构IDC最新数据,2023年上半年加速服务器市场规模达到31亿美元,同比2022年上半年增长54%。其中GPU服务器依然是主导地位,占据92%的市场份额,达到30亿美元。同时NPU、ASIC和FPGA等非GPU加速服务器以同比17%的增速占有了8%的市场份额,达到2亿美元。

这里的GPU就是面向智算场景的GPGPU(General-purpose computing on graphics processing units,通用图形处理器)。其中大部分市场由英伟达占据,2022年,英伟达A100 GPU芯片供货量紧张,且价格水涨船高,而在中国市场,在10月新的禁令之前,中国特供版A800和H800 GPU也早已断货。

大模型算力应用基本可分为“训练”和“推理”两个场景。在推理场景,尽管对算力性能要求不高,但当训练好的模型部署到实际生产中时,会需要大量服务器进行并行网络计算,推理成本会骤然提升。

而训练场景所需的算力会更强,这一阶段,神经网络需要不止一台服务器进行大规模计算。由于模型训练有时间周期,算力满额意味着GPU卡实现了100%资源利用,但训练任务比较小对算力要求不高,也得占用一张卡,基本处于闲置状态。

据相关分析称,OpenAI在GPT-4的训练中使用了大约2.15e25的FLOPS,在大约25000个A100 GPU上进行了90到100天的训练,其算力利用率约为32%至36%。这种算力利用率低的情况在业内更加普遍。

钛媒体结合政策了解到的情况是,中国正主导构建用于数据处理的高性能通讯网络,以及多元异构的芯片算力(包括GPU、CPU、以及国产芯片等)的调度和管理问题。


算力闲置的本质逻辑


过去十年,分布式云计算构建经典的“削峰填谷”和“资源池化”,以更好地实现云服务的弹性调度。这种变化其实也在影响云服务的商业模式转变。

一位咨询机构云服务合伙人曾对钛媒体表示,过去云服务商依靠的正是虚机忙时和闲时调度,去获得超额的利润回报,也就是“超卖”,此时各家比拼的是谁的调度技术更优秀。

而大模型场景下,算力需要大规模集中式训练,服务器也无法被切分成单个虚机,怎样设计算子和算力调度,怎样满足大模型应用的高性能智算场景,这是云服务商在头疼、大模型创企或其他中小团队在反复提要求的部分。

不少领域实践者或学术专家进行分析,这一挑战也体现在大模型平台设计的工程性问题上。

例如,如何提升大规模分布式训练的计算效率一直是大模型预训练的一个核心问题。特别是在实际的AI集群环境中,会存在GPU之间的互联带宽受限或AI服务器之间的网络互联带宽有限。

大模型参数量巨大,意味着对显存的占用也大。过去小模型的结构不易有效进行计算和通信,但大模型规模已在TB级别,GPU显存大小基本在80G(以英伟达A100为例),单个GPU无法完全容纳整个模型训练,采用分布式训练是必然。这也同时导致了GPU通信问题,由于卡与卡之间存在的通信开销,增加一倍卡并不能带来线性的性能加速。

此外,卡数量增多后,过热、故障就会一定比例出现,这往往会导致训练中断、梯度爆炸、算法重跑一遍等,模型训练成本也会居高不下。

钛媒体注意到,业内出现了诸多专门为大规模并行计算设计的高性能分布式训练框架,并伴随大模型技术的深化而逐步创新。

有众所周知的大数据开发引擎Spark,专为深度学习开发的PyTorch,目前Pytorch官方也同样开发了分布式训练框架Accelerate供AI人士使用。而UC Berkeley RISELa开源的Ray(据称也是ChatGPT背后在使用的框架)和云托管产品AnyScale,微软开源的深度学习库DeepSpeed也备受欢迎。在从业者看来,尽管分布式训练框架非常多,但主流方案还是PyTorch+Megatron-LM+DeepSpeed。

目前在国内也有类似的分布式训练框架,例如潞晨科技的ColossalAI、一流科技的OneFlow,而对于国内在炼大模型的头部互联网厂商,如阿里的EPL(原名Whale)、华为的MindSpore、腾讯的AngelPTM等,市面上已有的框架并不能完全满足其诉求,也会设计相应的软件栈用于自身基础设施、硬件设施进行进一步定制和开发。


提高资源利用,分布式还能怎么创新?


免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier