万卡时代不打群架，中国智算正过三关

2024.05.09

我前两天看到了一个挺震撼的视频，科学家们在NASA戈达德空间飞行中心的天体物理学家指导下，使用Discover超级计算机模拟了跳入黑洞的过程。

画面视觉效果摄人心魄，而一组数据同样让我感到震撼：该视频生成10TB的数据，只用了5天，耗费了0.3%总算力。如果我们想用自己的笔记本电脑模拟这个场景，需要花费的时间是10年。

“时间就是金钱，效率就是生命”，这句改开时代的口号，在大模型驱动的智算时代，仍旧不过时。

算力作为生产力，所节约的不只是金钱，更重要的是时间。

目前算力集群已经从千卡，迈入了万卡、五万卡集群。甚至有媒体预测，GPT6未来部署的时候，需要70万-80万张卡才能支撑。

那问题来了，万卡集群在执行大规模训练任务时负载重，发生软硬件错误的概率，当然也就更高。万卡时代，一张卡、一台机器或一个链路的故障，都可能导致中断，拖慢进程。那么十万卡、百万卡等更大数量级的提升，未来如何应对？

最近几个月，我们团队跟不少ICT厂商做了交流，简单总结一下行业动向，那就是：迈入万卡时代，必须“过三关”。

万卡时代，做AI=“中彩票”？

有必要首先说明一下，为什么智能计算仍在“堆卡”？从千卡、万卡到十万卡、百万卡，这个趋势是可持续的吗？

伴随着模型规模与数据参数愈发庞大，在可以预见的未来，基础设施层面的“堆卡”竞赛仍将继续。

目前，国际科技巨头如谷歌、微软、苹果等，在算力集群建设上持续投入，其中AI算力占总算力支出的比例持续增长，预计到2025年将达到25%。放眼国内，万卡及以上的组网也成为下一代智算中心的建设重点。

然而，算力集群卡的数量非线性增加，会带来更大的不稳定性和协作难度。正如新华三在前不久的媒体与分析师大会上所说，单卡单打独斗我们（与N卡）有差距，多卡集群服务不能打群架。

（拍摄自新华三集团2024媒体与分析师沟通会）

我们知道，分布式并行训练能够加速训练过程，是大模型常用的训练方式，相当于将任务分配给多个AI硬件，组成协作节点和集群，主打一个“人多力量大”。但是，人多还得心齐啊，让多卡用高效一致的步伐进行协作，却是一件难事，容易出现“打群架”的情况。

多卡“打架”，集群就会因故障而中断。

一位清华大学计算机教授曾分享过一个数据，其团队写一次容错检查点checkpoint需要三小时，这还是世界先进水平（未经优化前）。

工作三小时就得被迫停下，活（训练过程）又一点不能少，只能加班加点。普通打工人听了都得“抓狂”，更别说要跟技术创新抢速度、作业生产要效率的产学界了。

多卡集群“不打群架”，将算力最大化地有效使用起来，发挥每一张GPU的价值，提升训练效率，对开发人员来说，堪比中“彩票”，价值很大，但概率却不定。

显然，千行百业智能化，当然不能靠“中彩”和运气。

当算力集群即将从万卡，迈入五万、十万乃至百万卡的清晰未来，我们不能只以单一的规模和FLOPS浮点运算次数，来衡量智算中心的综合水平。其他因素也同样重要，比如集群扩展性、兼容性、算效比、能耗比等。

如何提供一个稳定可靠高性能的智算基础设施，万卡时代要“过三关”。

第一关：闯过资源墙

超大规模集群的不稳定性，一方面要对抗硬件数量非线性增长带来的“增熵”。

随着集群增大，AI芯片也会出现算力衰减的情况。支撑稳定高效的训练，就需要优化分布式计算系统的并行加速比。

更高的加速比，可以让集群在执行同一任务时，获得更高的速度和效率。也就是说，算力集群能够最大限度地一直运转，那么有效训练时间的比例更高，是开发人员衡量集群性能的一个关键。

相关推荐