从德扑天才到女巫杀手,
AI时代的网络:需求从何而来 创新将走向何方?
摘要
网络是AI大模型时代的关键一环。大模型时代,我们已经开始看到光模块、交换机等网络设备迭代加速,需求爆发。但市场对于为何显卡需要搭配大量光模块,以及通信为何成为大模型痛点体会较浅。本文中,我们将从原理出发,探讨网络为何成为AI时代的全新“C位”,并将从最新的产业变化中,讨论未来网络侧的创新与背后的投资机会。
网络需求从何而来?进入大模型时代,模型体积和单卡上限之间的差距迅速拉大,业界转而寻求多服务器集群来解决模型训练问题,这也构成了AI时代网络“上位”的基础。同时,相较于过去单纯用于传输数据,如今网络更多的用于同步显卡间的模型参数,对于网络的密度,容量都提出了更高要求。
日益庞大的模型体积:(1)训练耗时=训练数据规模x模型参数量/计算速率(2)计算速率=单设备计算速率x设备数x多设备并行效率。当下,业界对于训练数据规模和参数的双重追求下,唯有加速提升计算效率,才能缩短训练耗时,而单设备计算速率的更新有其周期和限制,因此如何利用网络尽可能的扩大“设备数”和“并行效率”直接决定了算力。
多卡同步的复杂沟通:在大模型训练过程中,将模型切分至单卡后,每经过一次计算,单卡之间都需要进行对齐(Reduce、Gather等),同时,在英伟达的通信原语体系NCCL中,All-to-All(即所有节点都可以互相获取值并对齐)的操作较为常见,因此对网络之间的传输和交换提出了更高的要求。
愈发昂贵的故障成本:大模型的训练往往持续数月以上,而中间一旦发生中断,需要回到几小时或者几天前的断点进行重新训练。而整个网络中某一个软硬件环节的故障,或者过高的延迟,都有可能导致中断。更多的中断,代表着落后的进度和愈发高昂的成本。现代的AI网络,已经渐渐发展成堪比飞机、航母等的人类系统工程能力的结晶。
网络创新将走向何方?硬件随需求而动,经过两年,全球算力投资规模已经膨胀到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。
通信介质的更迭:光、铜与硅是人类传输的三大介质,在AI时代,光模块追求更高速率的同时,也迈出了LPO、LRO、硅光等降本之路。在当前时间点,铜缆凭借性价比,故障率等因素占领了机柜内连接。而Chiplet,Wafer-scaling等新半导体技术,则正在加速探索硅基互联的上限。
网络协议的竞争:片间通信协议与显卡强绑定,如英伟达的NV-LINK,AMD的Infinity Fabric等等,其决定了单台服务器或者单个算力节点的能力上限,是非常残酷的巨头战场。而IB与以太网的斗争则是节点间通信的主旋律。
网络架构的变化:当下节点间网络架构普遍采用叶脊架构,叶脊具有便捷、简单、稳定等特点。但随着单个集群节点数增多,叶脊稍显冗余的架构会给超大集群带来较大的网络成本。当下,如Dragonfly架构,rail-only架构等新架构有望成为面向下一代超大集群的演进方向。
投资建议:通信系统核心环节:中际旭创、新易盛、天孚通信、工业富联、英维克、沪电股份。通信系统创新环节:长飞光纤、太辰光、源杰科技、盛科通信-U、寒武纪、德科立。
风险提示:AI需求不及预期,Scaling law失效,行业竞争加剧
1. 投资要件
市场对于通信网络在AI训练中的重要程度认识不足。AI行情以来,市场更加从产业链逻辑关注网络产业链的研究,主要研究方向集中在每一代网络架构需要的光模块数量,并以此为基础进行产业链各个环节的产量与业绩测算,但市场对于AI与通信的底层关系的研究较少。本文从模型,多卡同步,训练性价比等三大方面,对AI时代通信网络的核心地位进行更深入的讨论。
概括来看,通信在AI时代站上C位主要有三大原因。第一,日益庞大的模型体积下,显卡的数量和连接后的运算效率直接决定了训练所需的时间,而时间,恰恰是日益激烈的巨头AI竞赛中最为宝贵的资源。第二,从训练的原理出发,在主流的并行模式由模型并行转向数据并行后,每一层运算后,都需要集群内的不同NPU之间对齐已有参数,数以千计的芯片时间的对齐过程,要保证低延迟与准确,对网络的要求极高。第三,网络故障的成本极高,当下模型训练时间往往持续数月,一旦故障或中断较多,即使是回档至几小时前的存档点,对于整体训练效率和成本也会产生极大的损耗,对于分秒必争的巨头AI产品迭代来说,更为致命。同时,当下集群规模已然行至万卡,而其中的连接部件可能数以十万计,如何保证这些部件的整体稳定和良品率,已经变成了一项极其深奥的系统工程。
市场对通信网络未来迭代方向认识不足。市场对于通信网络的迭代更多的认识停留在跟随显卡换代的研究层面。我们认为,硬件迭代带来的更新的周期和方向相对固定,而其余方向的迭代和产业链创新程度与日俱增。同时,当前海外巨头的AI资本投入战争已经达到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。
总体来看,产业链对于前沿的探索主要集中于三个方向。第一,通信介质迭代,这里面既包括光、铜、硅三种基材的共同进步,也包括各种介质内的技术创新,如LPO、LRO、硅光、chiplet、Wafer-scaling等。第二,通信协议的创新,这同样包含两个方面,第一,节点内部通信,如NVLINK和Infinity Fabric,该领域壁垒和创新难度极高,属于巨头战场,第二,节点间通信,产业界则主要聚焦于IB与以太网两大协议的竞争。第三,网络架构的更新,叶脊架构是否能够适应超多节点数量,OCS助力下,Drangonfly能否成为下一代网络架构主流,同时Rail-only+软件优化能够成熟,都是产业的新看点。
行业催化:
1. Scaling Law持续有效,集群规模经一部扩大,通信网络需求持续上升。
2. 海外AI正循环加速,互联网巨头加速资本开支竞赛。
投资建议:通信系统核心环节:中际旭创、新易盛、天孚通信、沪电股份。
通信系统创新环节:长飞光纤、中天科技、亨通光电、盛科通信。
2. 从云计算时代迈向 AI 时代,为什么通信愈发重要
上一轮通信的辉煌,可以追溯到互联网时代,爆发式的网络流量传输需求,让人类第一次搭建起了以海量服务器,存储和交换机共同构成的交换体系。在这一轮建设中,思科一枝独秀,成为了人类科技进步的领头羊。但随着互联网浪潮趋于平和,光模块与交换机更多的随着宏观经济,云开支,和产品更新而波动,更加偏向于宏观经济品种,而速率,技术的更迭也较为按部就班,进入了周期波动向上稳态发展期。
小模型时代,业界更加专注于算法创新,往往整个模型体积可以由单卡、单台服务器或者较为简单的小集群来承担,因此来自AI侧的网络连接需求并不突出。但大模型的出现改变了一切,OpenAI证明了在当下,用较为简单的Transformer算法,通过堆砌参数的形式,可以较好地提高模型性能,因此,整个产业界进入了模型体积加速膨胀的快速发展期。
我们先来看两个决定模型计算速度的基本公式,从而可以更好的理解为什么大模型时代,算力规模或者说算力硬件产业链会率先受益。
(1)训练耗时=训练数据规模x模型参数量/计算速率
(2) 计算速率=单设备计算速率x设备数x多设备并行效率
在当下的大模型时代,我们可以看到,在训练耗时的分子端的两项因子,正在同时扩大,在算力恒定的情况下,训练耗时将会被指数级延长,而在愈发激烈的巨头模型战场,时间是最宝贵的资源。因此,竞争之路非常明确,唯有加速堆叠算力。
在第二个公式中我们可以看到,在算力日益膨胀的今天,单卡算力由于模型体积,芯片更新的上限,在算力构成的占比中已经从全部退化成了其中一环,显卡数量,以及多设备并行效率也成为两个同样重要的一环,这也是英伟达前瞻性收购Mellanox的原因,是希望在计算速率的每一个决定因子中,都能取得领先。
我们在前期报告《AI算力的ASIC之路-从以太坊矿机说起》中详细阐述了单卡算力的多种路线,本文中不在赘述,而我们看到的后两项,设备数与多设备并行效率,并不是简单的通过堆叠显卡数量就可以简单实现。越多的设备数,对于网络结构的可靠程度,并行计算的优化程度要求呈现指数级增加,这也是为何网络成为AI重要瓶颈之一的终极原因。我们在本节中会从训练原理出发,阐述为何设备的堆叠和并行销量的提升,是人类历史上最复杂的系统工程。
2.1 大模型时代的多卡合作原理,模型并行与数据并行
在模型训练中,将模型拆分至多卡的过程并非传统流水线或简单分割那样简单,而是采用更为复杂的方式来分配显卡之间的任务。总体来看,任务分配方式大体可以分为两种,模型并行与数据并行。
最早在模型体积较小但数据量上升时,业界普遍采用数据并行的方式。在数据并行式的运算中,每张GPU上都保留有完整的模型副本,而训练用的数据被分割后进入不同显卡并进行训练,在反向传播后,每张卡上的模型副本梯度将被同步减少。但随着模型参数膨胀下,单块显卡愈发难以容纳完整模型,因此,在头部大模型训练中,数据并行作为单一并行的分配方式正在逐渐减少。
模型并行则是当下在大模型时代逐渐兴起的一种分配方式。由于模型体积过于庞大,因此将模型的不同部分装载进入显卡内,并给显卡灌入相同的数据流,对每一部分的参数进行训练。
模型并行有两种主流模式,分别为张量并行与流水线并行。在一个模型训练运算的底层运算矩阵乘法中(C=AxB),张量并行指的先将B矩阵拆分成多个向量,每个设备持有一个向量,然后将A矩阵分别与每一个向量相乘,然后将得出进行汇总,即可总结出C举证。
而流水线并行则是将模型按层进行分割,将模型按层分割成若干块,每一块都交给一个设备进行,同时在前向传播过程中,每个设备将中间的激活传递给下一个阶段,在随后的向后传播过程中,每个设备将输入张量的梯度回传给前一个流水线阶段。
在当下的大模型训练中,没有任何一种数据并行能够单独存在,在头部大模型训练中,往往需要将上述的多种技术混合,实现多维混合并行。在实际连接时,会将这个AI集群划分为若干Stage,每个Stage对应一个逻辑上的Batch,每个Stage由若干台GPU节点组成。这样在架构上满足多维混合并行的需求。
无论是何种并行方式,都需要在每一轮计算后,都需要通过反向广播的形式来同步每一张GPU内的参数,不同的并行的方式,对应不同的广播延迟,也需要依靠不同的网络协议或者通信介质来,由此我们可以看出,当下的网络集群构建,正在逐步从“传输”进化成一个真正意义上的“系统工程”。
2.2 大模型时代的多卡互联核心:同步的准确率
AI网络集群承担的一项重要功能,便是将不同显卡分工训练完成的结果,在计算单元之间进行对齐,从而使得显卡能够进行下一步的工作,这项工作也被称为反向广播,由于广播过程中往往对结果采用Reduce,Gather等算法进行处理,那么全局的广播则被称为All to All ,我们在AI集群性能指标中常见的All-to-All 延迟,指的就是做一次全局反向广播需要的时间。
从原理上来看,做一次反向广播同步数据似乎较为容易,只需要每张显卡互发数据即可,但在真正的网络集群构建中,却会遇到许多问题,这也让缩短这一时延,成为了各种网络方案追求的一个重点方向。
第一个问题在于,每一张显卡完成当前计算所需要的时间长短是不一致的,如果统一等待同一组内的最后一个显卡完成任务后再进行反向广播,那会导致先一步完成任务的显卡有大量的时间处于空置状态,从而降低整个计算集群的性能。而同样,如果采用过于激进的同步方法,则有可能导致同步期间出现错误,从而导致训练中断。因此,稳定高效的同步方法,一直是业界追寻的方向。
从当下来看,主要的同步方法可以分为同步并行,异步并行,All-Reduce等等。
我们先来看同步并行,同步并行的思路我们在前文中已有提及,即在当前单元内,所有计算单元完成计算后,统一进行一次通讯,其优点是稳定与简单,但是会造成大量的计算单元空置。以下图为例,计算单元一完成计算后,需要等待计算单元4完成计算,并等待集合通信的时间,造成了大量的空置,降低了集群的整体性能。
异步并行则是面对如兴趣推广等非生成式大模型时候的选择,当一个设备完成一轮正向与反向计算后,不需要等待另一台设备完成循环,直接进行数据同步,这种传输模式下,网络模型训练不收敛,不适用于大模型训练,但对于如搜索模型,推荐模型等较为适用。
第三类,也是目前大家使用的最多的一类,All-Reduce或者也可以称为All-to-All-Reduce,即将所有设备(All)上的信息归纳(Reduce)到所有设备(All)上。显然,直接的All-Reduce将带来极大的通信资源浪费,因为同一份数据可能会被冗余传输多次。因此,许多优化版All-Reduce算法被提出,如环状All-Reduce、基于二叉树的All-Reduce等,这些算法均能极大降低All-Reduce的带宽和延迟。
我们以中国AI龙头百度发明的Ring All-Reduce为例,来说明分布式计算工程师们,是如何通过不断迭代,来缩短同步时间的。
在Ring All-Reduce(环同步)中,每台设备仅需与另外两台设备通信,分为Scatter-Reduce与All-Gather两个步骤。首先对相邻设备完成多次Scatter-Reduce操作,在每台设备分别得到聚合后的完整数据的一部分。随后,每台设备再对齐相邻设备完成多次All-Gather操作,在每台设备中补全完整数据。环状All-Reduce不仅能降低带宽和延迟,还可以简化网络的拓扑结构,降低网络的搭建成本。
但无论是何种算法,都依赖于网络通信硬件的支持,无论是从芯片原生和协议层面支持更大的带宽,还是从纯铜线连接转为通过NVLink,亦或是IB协议的引入,RDMA需求的爆发,均是为了满足愈发复杂的沟通与同步需求,这些内容我们会在后文中陆续展开。
至此,我们对于为何AI需要高密度通信的原理层逻辑已经有了初步认知,首先从小模型时代到大模型时代的迅速切换,使得多节点集群与分布式训练成为刚需,而将模型分拆至不同算力节点运算时,如何分拆,如何保证同步则是更加繁复的系统工程,而通信则是这一切软件原理实现的基础,高质量、高通量、高稳定性的通信元器件与通信网络。
2.3 大模型时代的系统工程:监测-总结-创新,迭代永远在路上。
上文中,我们阐述了训练原理决定了大模型对于通信体系的依赖程度。无数不同的,复杂的并行与同步需求一起,组成了AI集群中的数据流动,虽然通信网络在此类需求的带动下,速率和产品迭代不断加速,连接方式创新不断,但时至今日,仍然没有一个完美的集群能够一劳永逸地解决所有问题,同时集群的稳定性虽然不断优化,但由上百万个精密器件组成的系统,断点与中断问题仍然时有发生。
因此,大模型通信体系的进化方向可以大体分为三个,一个是对大模型系统的监测能力,能够实时感知大模型数据流动,运行态势,从而能够及时发现故障,在这一过程中,以网络可视化为基础的软硬件抓包成为了主流手段,通过FPGA芯片和专用软件,监控集群中的数据流动,从而为感知提供基础工具,
以软件实现的数据抓包最常用,国内外知名产品有Wireshark(处理TCP/UDP)、Fiddler(处理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。以Wireshark为例,其基本工作原理是:程序将网卡的工作模式设置为“混杂模式”(普通模式下,网卡只处理属于自己的MAC地址的数据包,混杂模式下,网卡会处理所有流经的数据包),同时由Wireshark进行数据包的截获、重发、编辑和转存。
软件抓包会占用部分系统性能。首先,混杂模式下网卡处于“广播模式”,会处理网络下层收发的所有数据包,本身就会消耗网卡一部分性能;其次,软件抓包不是在链路层串行或并行抓取,而是将数据包进行复制和存储,占用了一部分CPU和存储的资源。同时,类似Wireshark这种软件大多只能做到对系统里的单一网络节点进行流量监控,难以覆盖到全局网络,适合被动的故障排除作业,不适用于主动风险监测。
为了不影响系统整体性能,并行或串行接入的软硬件结合工具应运而生,常用的工具有DPI和DFI。DPI(Deep Packet Inspection,深度报文检测)是一种基于报文的应用层信息对流量进行检测和控制的功能。DPI着重对应用层的分析,能够识别各种应用及其内容。当IP数据包、TCP或UDP数据流通过支持DPI技术的硬件设备时,设备会通过深入读取报文载荷来进行重组和分析,从而识别整个应用程序的内容,然后按照设备定义的管理策略对流量进行后续处理。DFI(Deep/Dynamic Flow Inspection,深度/动态流检测)采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。DPI技术适用于需要精细和准确识别、精细管理的环境;而DFI技术适用于需要高效识别、粗放管理的环境。
DPI/DFI由独立硬件串/并接在物理层,不会影响物理层的性能表现。以浩瀚深度的DPI软硬件产品为例,其可以部署在电信网络的各层级网络节点,同时通过SaaS/PaaS完成对各层级监测节点数据收集、分析和呈现。DPI硬件串接或并接在通信物理层,通过镜像数据包实现近乎无损的网络监测。DPI软件嵌入在DPI硬件、独立服务器或交换机/路由器中,实现网络监测。
解决了监测问题之后,大模型系统工程的迭代之路便有了基础,前文提到,在实操中,更加需要注重的便是系统运行效率和稳定性间的平衡,一方面,我们通过Reduce方法的优化,并行方法的创新等等,创造出新的训练方法和理论,分布式训练的底层创新,然而底层创新始终需要相关硬件的支持,更大通量的交换机,更加契合的交换协议,更稳定,更便宜的通信器件将是大模型系统升级中永远不可或缺的一环。
3.通信协议的竞争与迭代:承载AI数据流的话语权
上一章节中,我们系统阐述了AI集群中的通信主要起到哪些作用,本节中,我们将系统性地介绍构成整个通信体系的最基础部分-通信协议。
从直觉上来看,通信系统主要由交换机、光模块、线缆、网卡等等实物硬件组成,但其实真正决定了一个通信系统的建立,运行和性能特点的,却是流转在实物硬件内部的通信协议。通信协议是在计算机网络中,为了保证数据顺利、准确地传送,通信双方必须遵守的一系列约定。这些约定包括数据的格式、编码规则、传输速率、传输步骤等。
在AI时代,通信协议的分类主要分为两大类,第一,用于算力节点内部的算力卡之间通信的高速协议,这一类协议具有速度快,封闭性强、可扩展性弱等特点,往往是各家显卡厂商的核心能力壁垒之一,其速率,接口等等需要芯片层面的支持。第二类协议则是用于连接算力节点之间的协议,这类协议具有速度慢,可扩展性强等特点,第二类协议目前主要有两大主流,InfiniBand协议以及以太网下的RoCE协议族,这类协议保证了数据的跨节点传输能力,也是构建超大集群的基础,同时也为智算单元接入数据中心提供了解决方案。
3.1 节点内通信—大厂核心壁垒,算力“摩尔定律”的希望
节点内通信,即单台服务器内部的显卡通信协议,负责同一服务器内部的显卡之间的高速互联,发展至今,这一协议主要包括了PCIe、NVLink、Infinty Fabric三种协议。
我们先来看历史最为悠久的PCIe协议,PCIe协议是一种公开的通用协议,传统服务器个人电脑中的不同硬件都通过PCIe协议来进行连接,在当第三方组装的算力服务器中,显卡之间任然像传统服务器一样,通过PCIe插槽和主板上的PCIe线路进行互联。
PCIe是最广泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管道,对数据传输速度起到决定性作用,目前最普及的总线协议为英特尔2001年提出的PCIe(PCI-Express)协议,PCIe主要用于连接CPU与其他高速设备如GPU、SSD、网卡、显卡等,2003年PCIe 1.0版本发布,后续大致每过三年会更新一代,目前已经更新到6.0版本,传输速率高达64GT/s,16通道的带宽达到256 GB/s,性能和可扩展性不断提高。
PCIe总线树形拓扑和端到端传输方式限制了连接数量和速度,PCIe Switch诞生。PCIe采用端对端数据传输链路,PCIe链路的两端只能各接入一个设备,设备识别数量有限,无法满足有大量设备连接或需要高速数据传输的场景,因此PCIe Switch诞生。PCIe Switch具备连接和交换双重功能,可以让一个PCIe端口识别和连接更多设备,解决通道数量不够的问题,并可以将多条PCIe总线连接在一起,从而形成一个高速网络,实现多设备通信,简言之PCIe Switch相当于PCIe的拓展器。
但正如上文中所说,随着模型规模逐步扩大,同时NPU之间同步循环愈发复杂,速率较低并未对模型运行模式进行专门优化的的PCIE已经不能满足大模型时代的需求,因此,各大显卡厂商专有的协议在大模型时代快速兴起。
我们认为,当先业界关注度最高,进化速度最快的协议便是NV-Link协议,英伟达提出的高速GPU互联协议,对比传统PCIe总线协议,NVLINK主要在三个方面做出较大改变:1)支持网状拓扑目,解决通道有限问题;2)统一内存,允许GPU共享公共内存池,减少GPU之间复制数据的需要,从而提高效率;3)直接内存访问,不需要CPU参与,GPU可直接读取彼此的内存,从而降低网络延迟。此外,为解决GPU之间通讯不均衡问题,英伟达还引入NVSwitch,一种类似交换机ASIC的物理芯片,通过NVLink接口将多个GPU高速互联,创建高带宽多节点GPU集群。
我们通过回顾NV-link的发展史,可以发现,节点间的NV-Link互联正是随着显卡间同步需求的变化而逐步迭代。第一代的NV-Link出现在Pascal架构上,英伟达通过在PCB板上的高速铜线以及通用的PCIE Switch,在单台服务器内部链接了8卡服务器,我们通过下图中的连接方式可以发现,通过显卡外部大环叠加四张显卡内部X型连接的方式,8张GPU间,以任意一张为起点,都可以用最短路径完成全局数据对齐。
但随着单个显卡性能的扩张,吞吐量的提升,以及显卡之间同步方式的愈发复杂,单纯纯线缆连接以及固定的线路已经无法满足显卡间的沟通需求。因此在Ampere架构中,也就是对应的第三代NVLINK,英伟达引入了第一代专用的NV-Link Switch芯片,从而进一步加大NV-Link速率,灵活性。
但从Pascal架构到Ampere架构的更新中,由于当时的客户需求仍然集中于小模型,大规模的计算集群并未出现,因此NV-LINK保持着常规更新的节奏,主要通过芯片内部通道迭代,NV-Link Switch芯片迭代来实现速率的更新,期间英伟达还为游戏显卡推出了NV-Link桥接器,来满足部分高端C端用户的需求。
从A100到p00的更新中,英伟达迈出了NV-Link进化的第一步,当大模型的需求开始涌现,超大的数据规模、模型体积使得过去以8张显卡为上限的NV-Link互联难以应付,使用者们不得不把模型切片,装进不同服务器间进行训练以及对齐,而服务器间较慢的沟通速率直接影响了模型训练的效果。我们把能用最高速通信协议互联的显卡数量称之为HB-DOMIN,而在模型参数日益庞大的发展过程中,在同等代际芯片内,HB-DOMIN成为了决定模型训练能力的关键因素。
在这种背景下,英伟达的NV-LINK在Hopper架构上迈出了进化的第一步,通过外置的专用交换机,承载更多的NV-LINK switch芯片,从而扩大现有显卡的HB-DOMIN。在Hopper100时代,通过Gp00 SuperPOD产品,NV-LINK第一次走出服务器内部,实现了跨越服务器的256张显卡互联。
但由于Hopper架构下对应的NV-Link 3.0交换芯片成熟度较低,英伟达需要两层架构来连接显卡,因此一个Gp00 256卡集群内需要大量的高端光模块,成本极高,给客户的采购带来了不便。同时,在Gp00发布之时,模型的参数还未膨胀到万亿级别,根据Meta的研究结果显示,在万亿参数之下,超过100后的HB-Domin扩张边际效应会出现加速递减。
在Blackwell架构时代,英伟达正式完善了NVLINK的扩张之路,随着4NM最新一代NV-Link交换芯片的发布,英伟达推出了正式的拳头产品 GB200 NVL72。英伟达通过单机柜内部单层NVlink+铜缆的连接,实现了用较低成本达成一个具有高性价比的HB-DOMIN数字的目标,真正迈出了节点内互联协议向上层扩张的第一步。
我们除了在最新一代NV-LINK上,也再一次重新认识了节点内互联协议的重要性,甚至可以说,节点内通信的扩张,已经成了摩尔定律是否能在算力时代延续的关键。节点内通信协议的迭代以及低成本实现,是当前应对“通信墙”、“内存墙”的最佳解决办法。
当前NV-LINK最大的竞争者便来自于英伟达在通用显卡领域的最大竞争者AMD,与英伟达相同,即使是对网络协议开放最为支持的AMD,在其节点内互联领域,依然使用其专用的协议“Infinity Fabric”,但同时,与英伟达不同AMD将这份协议共享给了合作的博通、Arista、思科这三家以太网龙头。
当下来看,Infinity Fabric与NVLINK的差距仍然较大,在包括专用交换芯片、多卡互联、协议完成度等方面,AMD仍然有较长的路需要追赶、这也体现出,当前的头部通用算力竞争,已经从芯片设计这一单一环节,慢慢扩大到节点内通信这一环节。
总结来看,节点间通信正在变成算力中愈发重要的组成部分,同时,随着HB-DOMIN扩大,“算力节点”也在逐步扩大,我们认为,这背后是节点间协议在整个AI集群内的“向上渗透”,同时,依靠在节点间协议及其承载硬件的系统化压缩,也是未来AI算力实现摩尔定律的解决之道。
3.2 节点间通信协议:历久弥新,封闭与开放之争
现在我们把视角移到算力节点外部,来看一下当前构成全球算力集群连接的主流协议。当下的算力中心,NPU正在逐步迈向百万级规模,即使算力节点或者我们说的HB-DOMIN加速扩大,但节点间连接依然是构成全球AI算力的基石部分。
从当前来看,节点间连接协议主要分为InfiniBand协议与以太网家族内的ROCE协议族。超算节点间互联的核心在于RDMA功能。过去,在传统的CPU为主的数据中心中,普遍采用TCP/IP协议进行传输,即数据从发送端内存发出后,经过发送端设备CPU编码后,发送至接收端设备的CPU,经过解码后放入内存。这一过程中由于数据经过多个设备且多次编解码,因此会产生较高的延迟,而延迟则是对计算卡间相互同步最关键的的因素,因此,在显卡间互联的需求下,绕过CPU,实现内存之间的远程直接互访(Remote Direct Memory Access)RDMA变成为了AI集群连接的刚需。
在这种背景下,当前由英伟达主导的原生支持RDMA的IB协议以太网下支持该功能的ROCE协议族变成了当下的唯二选择,而这两种协议鲜明的特点又让整个节点间协议的竞争变得精彩异常。
IB协议的出现最早可以追溯至1999年,当时,通信能力过差的PCI总线逐渐成为各个设备之间沟通的瓶颈,在此背景下,英特尔、微软、IBM、几大巨头成立的FIO Developers Forum和NGIO Forum进行了合并,创立了InfiniBand贸易协会(InfiniBand Trade Association,IBTA),并在2000年推出了第一版的IB协议框架。在1999年创立的交换芯片公司Mellanox也加入了IB阵营。
IB从创立之初,便领先性的提出了RDMA概念,从而能够绕开PCI总线的限制,进行更加高速的访问,但好景不长,在2022年,英特尔,微软等巨头相继宣布退出IB联盟,转而转向我们上文提到的PCIE协议的研发,IB因此走向衰落。但到了2005年,随着存储设备间的通信需求上升,IB重新迎来上升期,再后来,随着全球超算搭建,越来越多的超级计算机开始使用IB进行连接。在这过程中,依靠着对IB的不离不弃和相关收购,Mellanox从一家芯片公司扩展到了网卡、交换机/网关、远程通信系统和线缆及模块全领域,成为世界级网络提供商,在2019年,英伟达用69亿美元的报价击败英特尔与微软,成功收购了Mellanox。
另一方面,以太网则在2010年发布了RoCE协议,基于以太网协议实现RDMA,同时在2014年提出了更加成熟的RoCE v2。
进入大模型时代以来,全球数据中心快速转向智算化,因此主要的新增投资设备都需要RDMA连接方式的支持。但当下的竞争格局又与之前的RoCE V2与IB的竞争发生了变化,由于英伟达在全球显卡领域的绝对领先地位,英伟达显卡对于IB的适配程度更加完善,其中最明显的一点体现在Mellanox交换机部署的Sharp协议中。
由于在AI运算中,显卡与显卡之间需要大量的复杂Reduce通信,上文中也提到,这也是AI通信系统工程中需要解决的核心问题,在Mellanox交换机产品中,在英伟达的帮助下,公司创新性地在交换芯片中集成了计算引擎单元,可以支持相关Reduce计算,从而帮助GPU减轻负载,但是相关功能需要GPU厂商的配合。
由此可见,AI时代的通信协议之争,背后核心已然变成了显卡厂商的话语权之争,当下来看,IB协议凭借着英伟达的支持,占据了较好的竞争优势,而传统的以太网厂商们,由于缺乏一款有力的芯片支撑,则在部分功能上稍显弱势。但是AMD带领下的超以太联盟的出现,有望逐渐扭转这一局面。
2023年7月19日,AMD、博通、思科、ARISTA、Meta、微软等来自计算芯片、网络侧以及用户侧的各个龙头厂商共同组建了超以太网联盟,我们认为,超以太网联盟成立的目的便是为了能够在以太网的基础之上,搭建起一个完全开放,更加灵活,且性能超越IB的网络协议,从而与IB进行抗衡。
AMD作为超以太联盟的核心成员,在Mi300系列发布会上,公司表示其显卡的后端连接将会无条件使用以太网,同时用于节点内互联的Infinity Fabric协议,也将开放给以太网厂商。我们判断,随着AMD和UEC联盟中博通等成员的合作进度逐渐加快,UEC联盟也有望真正形成一套类似于N卡+IB的兼容与合作体系,从而给英伟达带来挑战。但其过程注定漫长,从AMD侧单卡算力的追赶,再到博通侧交换芯片的进步,再到不同厂商间的开放与合作,仍有许多路要走。
总结来看,节点间通信协议之争,已经渐渐的从原理之争演变成了话语权之争,使用何种协议,更多的是GPU话语权的延伸,英伟达希望通过IB扩大全环节话语权,客户则希望拥抱更加开放的IB,行业的竞争将持续推动通信协议的持续进化。
4.AI推动下,网络硬件创新将走向何方?
上节我们讨论了AI需求是如何推动RDMA功能的进化与放量,同样,在网络硬件的领域,AI的新需求也正在带来除了速率更新外的其他变化,从传输介质、交换机、网络架构乃至数据中心整体形态都在发生变化。
4.1 光、铜与硅,传输介质之争将走向何方
近年来,随着人类数据量快速膨胀,以及传输速率成倍提升,我们在无线网、固网等电信侧率先迎来了光进铜退的浪潮,从最早的拨号上网,再到光纤入户乃至现在的FTTR,正式一轮轮光纤光缆对于铜线的逐步替代。
到了数据中心内部,光进铜退的进程也同样在进行,由光模块、AOC等等光通信组成的通信系统正在逐渐代替有DAC,AEC等组成的铜传输系统,这背后是高速率传输下,铜介质衰减愈发剧烈的必然物理规律。如果没有AI带来的多样需求,随着服务器网口速率逐代提升,光传输会渐渐向机柜内部持续渗透,并最终形成全光数据中心。
但AI的出现,给个“光进铜退”这一过程带来了一丝波折,或者说让市场产生了一定的困惑。其背后的核心原因是:AI带来了通信系统复杂度与造价的非代际线性增长,在指数级的需求增加面前,高速率光模块变得愈发昂贵。因此,性价比更高的铜缆在当前速率吸引力逐步提升,同时叠加散热等等配套部件的改善,显卡厂商得以将更多的计算单元尽可能多的压缩在铜缆可以触及的单机柜范围内。
从背后我们不难发现,在AI时代,由于开支的增加,在当前2-3年的节点内,光铜之争的核心从速率升级变为了成本先行,同时由于通信系统的复杂程度加速上升,简化与低故障率亦成为了客户选择介质的关键考虑因素。
长距离跨服务器传输:光模块是唯一方案,降本与简化是创新方向。
由于铜缆的传输距离限制,所谓“光退铜进”也只能发生在短距离传输上,而面对5米以上的传输距离,也就是跨服务器或跨算力节点传输时,光传输仍然是唯一选择。但当下,客户的除了关心常规的速率升级之外,对于成本和故障率(器件复杂程度)的追求正在愈发急迫,这也带动了光通信行业未来的升级方向。
LPO/LRO:LPO通过线性直驱技术替换传统的DSP,将其功能集成到交换芯片中,只留下driver和TIA芯片。LPO光模块中用到的TIA、driver芯片性能也有所提升,从而实现更好的线性度。LRO则是在一端采用传统光模块,另外一端采用LPO光模块,从而使得客户的接受度更高的一种过渡方案。
硅光:硅光通过成熟技术使得部分光模块的光引擎中的分立器件能够自动化集成在硅基芯片上,从而能够实现大幅的成本降低,同时自动化生产和制程更新也能帮助硅光芯片进行迭代,我们认为,LPO、硅光是行业进度最快的两个降本创新方案。
薄膜铌酸锂:铌酸锂材料是可靠材料中电光系数最优的选择(考虑居里点和电光系数)。薄膜工艺拉进电极距离,降低电压提升带宽电压比。相比其他材料兼具大带宽/低损耗/低驱动电压等诸多光电最需要的优点。当下来看,薄膜铌酸锂主要用于高速率硅光调制器,我们认为,使用薄膜铌酸锂调制器可以在1.6T,3.2T实现更好的性能。
CPO:CPO指将光模块直接封装在交换机主板上,从而能够共享交换机主板散热,同时缩短电信号在交换机主板上传输的距离,但是目前来看,由于AI中心中的光模块属于易损品,共封装后维护难度较大,因此客户对CPO的认可程度还有待观察。
机柜内连接:成本与稳定双重优势下,铜线是中短期优势选择,随着长期速率上升,光进铜退仍会发生。
DAC:Direct Attach Cable,即为高速铜缆,可以适应较短距离内的超高速连接,当前市场主流800G DAC长度在3米以内,是一种拥有较高性价比的机柜内连接方案。
AOC:Active Optical Cables,有源光缆,即为两端提前完成一体化分装的光模块与光纤构成的系统,其传输距离相较传统的多模或单模光模块较短,但是成本也较低,是超越铜缆传输极限后的机柜内短距离连接选择。
关于硅的演进,当下的主流思路主要包括了Chiplet与Wafer-scaling两种,这两种方法的核心思路都在于,通过更先进的半导体制造与设计工艺,从而扩大单块芯片能够承载的计算单元数,并尽可能的使得更多通信发展在单块硅片内,最大化计算效率,这部分内容我们在此前深度《AI算力的ASIC之路——从以太坊矿机说起》中有详细介绍,在本文中不再赘述。
综合来看,传输介质的更迭与竞争跟随需求而动,而当下的需求则非常明晰,在MOE等新训练框架下,模型参数往万亿规模进发,如何高性价比的实现更可能强的单节点算力,或者说是扩大“HB-DOMIN”域的数量,从而使得模型的切分不必过于细碎,导致训练效率的降低,无论是光、铜还是最底层的硅,都在此路线上不断努力。
4.2 交换机的创新:光交换机初出茅庐
交换机作为网络的核
交换机作为网络的核心节点,是承载通信协议的核心部件,在如今的AI集群内,交换机也承担起愈发复杂的任务,如上文提到的Mellanox交换机中,其就通过SHARP协议兼具了部分对齐运算的功能,帮助AI运算进行加速。
但另一方面,尽管如今的电交换机愈发强大,更新迭代的速度依旧稳定,但纯光交换似乎正在成为一种全新的潮流。究其原因,我们认为,光交换机风潮的背后主要有两点原因,第一,AI参与者的巨头化。第二,AI集群的加速扩大。
光交换系统相比于电交换系统,其去除了电芯片,使用光学镜片,对传入交换机内部的光信号进行折射与分配,从而让其不经过转换,从而传入对应的光模块之中。与电交换机相比,光交换机由于省去了光电转换的过程,因此功耗,时延等等会更低,同时由于其不受制与电交换机芯片的容量上限限制,对于网络层数优化和单台交换机能够覆盖的台数也有增加,但相反,使用光交换机需要专门设计网络架构让其适配,同时光交换机的集群一旦建立,无法进行零散扩容,只能一次性扩容一整个网络集群,灵活性也较差,此外,光交换机在目前阶段,没有通用版本,需要自研或者定制化设计,门槛较高。
但随着AI竞争正式进入巨头厮杀的后半程,巨头所拥有的AI集群规模正在快速扩大,巨头拥有成熟的投资规划、网络架构的自研能力、以及充足的资金,因此在节点规模不断扩大的今天,如谷歌等巨头客户正在加速OCS体系的研发与部署。
而回归到传统的电交换部分,如今的电交换机的创新,除了上文的协议部分,更多的集中在了芯片部分,包括制程的迭代,功能的创新等等,同时,如博通等交换机厂商,凭借自有IP在不同下游客户芯片处的运用,使得自身的与客户的绑定变得更强,结合通信协议上的战队,在AI时代,交换机行业已经正式变成了芯片联盟之间的全方位比拼。
4.3 网络架构的创新:叶脊之后,走向何方?
网络架构则是协议与硬件外的通信系统的重要构成部分,架构决定了服务器中的数据以何种路径进行传输,同时优秀的网络架构能够使得数据流量全域可达的同时,缩减时延,保证稳定性。同时,网络架构还需要满足易于维护和扩容的需求,因此,架构是通信系统从纸面设计走向实物工程中的重要一环。
现代社会的网络架构,从电话时代的矩阵图结构,再到ClOS网络模型为现代网络奠定基础架构,CLOS的架构核心是,用多个小规模、低成本的单元,构建复杂、大规模的网络。在CLOS模型的基础上,逐渐发展出了各种网络拓扑结构,例如星型、链型、环型、树型等架构,随后,树型网络逐渐成为主流架构。
树型架构主要经过了三代演变,第一代即为最为传统的树型架构,这种树型架构的特点在于,每经过一层,带宽严格2:1收敛,即两个100M的下游设备接入交换机后,固定输出一路100M的数据流,面对云计算到来之前较小的数据流,这种架构尚能应付,但随着互联网以及云计算时代的到来,逐级收敛的带宽无法满足流量传输需求,因此一种名为“胖树”的改进型架构被逐渐运用于数据中心。胖树架构采用三层交换机,其核心理念是,使用大量的低性能交换机,构建出大规模的无阻塞网络。对于任意的通信模式,总有路径让他们的通信带宽达到网卡带宽,但是在上层运用更加高级的交换机,让顶层交换尽可能保持较低的收敛比。
“胖树”架构为现代数据中心的连接奠定了基础,但其本身也存在着诸如带宽的浪费、难以扩容、难以支持大规模云计算等等问题,面对日益庞大的网络规模,传统胖树的缺陷愈发明显。
于是在胖树的基础上,进化出了当下先进数据中心与AI集群使用的叶脊(Spine-Leaf)架构,相比于胖树,叶脊更加强调扁平化,与繁复的三层胖树相比,每个低层级的交换机(leaf)都会连接到每个高层级的交换机 (spine),形成一个 full-mesh 拓扑。leaf 层由接入交换机组成,用于连接服务器等设备。spine 层是网络的骨干(backbone),负责将所有的 leaf 连接起来。这样的构型下,任意两个物理服务器之间的数据转发,其经过的节点数都是固定的一台叶与一台脊交换机,保证了东西向流量的承载和时延,也通过了脊交换机的扩容,避免了大量使用异常昂贵的核心层交换机,同时也可以通过随时增加脊层交换机的数量,来对整个网络进行扩容。
当下来看,叶脊凭借其诸多优点,已经成为了主流AI集群与头部数据中心的标准架构,但随着单个AI集群内部的节点数量急剧膨胀,同时AI训练过程中对于延时的极端追求,胖树架构的一些问题也开始凸显,我们,第一,当规模急剧膨胀时,交换机的容量上限更新是否能够满足显卡集群进化的速度。第二,叶脊在面对上百万计算节点的互联时,是否还具备性价比?
叶脊架构的如上两个问题,也带领着网络架构层面的创新,我们认为,创新主要集中在两个方向,第一,追寻超大节点数下的新型架构,第二通过诸如扩大HB-DOMIN叠加软件优化的方式,在充分理解模型的基础上,缩减节点之间的流量沟通。
第一种解决方法的代表之一,便是蜻蜓(Dragonfly)架构,蜻蜓架构最早在2008年被提出,最早被运用于HPC中,但由于其每一次扩展都必须重新布线,同时布线较为复杂,所以即使其使用的交换机相较于CLOS架构的较少,但最终没能成为主流。但是如今在海量节点和AI硬件资本支出昂贵的背景下,Dragonfly架构逐渐开始重新受到业界前沿的关注。在当下,随着上文提到的OCS光交换系统的出现,复杂的布线有望通过OCS进行简化,第二巨头对于AI集群的规划和资本支出节奏更为明确,因此dragonfly较为繁琐的扩容过程也不再成为掣肘。第三,dragonfly在时延上相较于叶脊,在物理层面更具优势,当下如Groq等对于时延更为敏感的AI芯片已经开始采用该架构来构建集群。
第二种解决方法的代表之一,是Meta与MIT提出的Rail-only架构,Rail-Only架构通过将GPU分组,组成一个高带宽互联域(HB域),然后再将这些HB域内的特定的GPU跨接到特定的Rail交换机,虽然增加了跨域通信的路由调度复杂度,但是通过合理的HB域和Rail交换机设计,整体架构可以大量减少交换机的使用,最多可以降低75%的网络通信耗费。这一架构也暗合上文提到的通过片间通信的创新,通过扩大后的HB-DOMIN域,给予训练切分和软件优化更多的实现空间,从而减少HB-DOMIN之间的交换机需求量,为超大集群的网络降本提供空间。
4.4 数据中心集群的创新:未来算力网络的终极形式?
随着AI集群规模继续膨胀,单个数据中心的容量终将达到上限,这里的上限指的并非是资本开支亦或是通信网络能够承载的节点上限,而是数据中心所在地的电力资源或是有性价比的电力资源承载能力将达到上限。
2024年初,微软与OPENAI开始探讨在2028年构建一台超级超算“星际之门”,根据The information报道,星际之门最终整体计划可能涉及超过1000美元的投资,并需要使用多达5千兆瓦的电力,这也将成为项目在芯片,资金之外,最急需解决的问题之一。
因此,在当下的行业前沿,如何通过智算中心之间的长距离互联,使得算力能够均匀分布在有性价比电力的地区,避免因单一地区价格过高从而产生的算力成本上升或算力容量上限。而数据中心之间的互联,相比集群内部互联体系,所使用的协议,硬件等等都有很大的不同。
当下数据中心通常通过对上层交换机或核心交换机与外部网络相连接,而数据中心互联网DCI则往往由运营商搭建,其采用长距离的相干光模块,虽然传输速率较长,但其速率和稳定性相较数据中心用的光模块有较大差异,同时其价格居高不下,因此降本,重新搭建架构都是在正式建设前需要考虑的问题。
但如若我们将视线拉到更加宏观的角度来看,单个的算力中心本质上与前文的一个HB-DOMIN域类似且功能更加强大,因此我们认为该类连接未来的发展路径,一方面是加速对于相干光模块产业的投资,使其能够承担起AI中心互联的承载和容量要求,一方面是加强数据中心内部的互联密度,将数据中心打造的更加类似于单个HB域,最后则是对分布式软件和训练软件的创新,使其能够进行跨IDC的数据、模型切分以及并行。
5. 投资建议:创新永不停,核心环节与新变量两手抓
和芯片一样,在AI需求的推动之下,通信系统也在不断的加速创新,但与芯片行业往往依靠一到两位“天才”来创新架构与思路不同,通信软硬件是一项需要众多工程师在不同环节共同创新和努力的的系统工程,从最基础的交换芯片、光芯片,再到上层系统集成的交换机,光模块,再到通信架构、通信协议的设计,再到组成系统后的运维,每一个环节都对应着不同的科技巨头与无数的工程师们。
我们认为,比起更加偏向于创业投资的芯片行业,通信行业的投资更加有迹可循,行业的更迭往往由巨头们发起并实施,同时由于通信系统工程的稳定性要求,大型AI集群的供应商选择往往非常严苛,首先在硬件环节,无论网络架构与协议如何变化,交换机与光模块始终会是构成系统的最基础积木,只要Scaling-Law一直有效,人类追求参数的过程依然存在,对于积木的需求就会一直持续。诚然,如LPO、蜻蜓架构、rail-only架构的确会削减相关器件的比例或是价值,但是降本一直是AI的头号要务,降本之后带来的需求扩张,将给行业带来更加广阔的空间。这是AI通信投资最先需要把握的核心理念与环节。
同时,对于创新环节,我们也要积极跟踪新技术动态,找出由新技术更迭所带来的核心环节的元器件变化,往未来来看,首先是由高性价比HB-DOMIN域构建带来的铜缆需求会率先放量,其次是CPO,远距离数据中心带来的如保偏光纤、掺饵光纤等特种光纤需求,最后是全光交换机、超以太网联盟等等带来的国产交换机加速进化的产业机会。
6.风险提示
1. AI需求不及预期。
当前AI依旧停留在模型研发阶段,具体C端产品开发仍在进行中,如果后续C端需求不及预期,全球AI需求有下滑风险。
2. Scaling law失效。
当前全球算力放量的主要依据在于,通过算力不断堆叠参数规模从而使得模型更优秀的定律依然发挥作用,假如参数堆叠到达上限,将对算力需求产生影响。
3. 行业竞争加剧。
全球算力行业以及网络行业在AI下迅速发展,如果吸引过多新进入者参与竞争,将摊薄现有龙头公司利润。