金色午报 | 4月30日午间重
黄仁勋“人肉快递”,掀起900亿美元算力争夺战
文章来源:腾讯科技
全球首台,黄仁勋亲自送货上门,OpenAI首发,DGX p00算是把流量拉满了。
DGX p00在发布大概半年后出货交付客户,按级别算属于现役“AI算力核弹”,更先进的GB200系列毕竟还没有量产服役。
作为山姆·奥特曼的亲密战友,在去年的“宫斗事件”中一同被赶出公司的格雷格·布罗克曼兴奋的在推特上官宣了这一消息。格雷格·布罗克曼炫耀式的推文中,还特意引用了黄仁勋在这台设备上的寄语签名——“为了推动AI、计算与人类的发展。”
山姆·奥特曼、黄仁勋与格雷格·布罗克曼与DGX-Gp00服务器合影2016年,彼时黄仁勋在马斯克等人的见证下,也曾为OpenAI捐赠了全球首台DGX-1服务器。请注意,当时是赠送的。黄仁勋写道,“致埃隆和OpenAI团队,为了计算和人类的未来,我向你们赠送世界上第一台DGX-1。”
两次题词,都强调“为了计算和人类的未来”,或多或少能说明:硅谷大佬们眼中“规模法则”是带领人类通往AGI时代的大门;黄仁勋和英伟达,掌握着打开这扇大门的钥匙。
一直以来,OpenAI信奉的就是这种“大力出奇迹”的逻辑,山姆·奥特曼频繁对外吹风“我们需要更多的GPU”、“世界需要更多的人工智能计算”,甚至被传出“7万亿美元投资AI芯片制造”的消息。
我们的问题是,硅谷巨头们的算力储备情况如何,英伟达能否缓解AI布道者们的算力焦虑症,而谁又会成为英伟达供应算力子弹的掣肘,回答这些问题,可以从p00的“战斗力”开始。
p00迎战MI300X、Gaudi3
p00实际上去年下半年就已经发布,分HGX和DGX两个版本。HGX可以理解为计算模组,包含4 GPU、8 GPU两个版本,而DGX版本可以理解为AI超算服务器,不仅搭载了GPU模块,还配置有操作系统和处理器。
大家都说DGX p00交付,更准确的说法应该是DGX Gp00,这里的“G”,对应的就是英伟达的Grace处理器。
单纯的看硬件,p00和上一代产品p00采用相同的Hooper架构,浮点运算性能基本没有提升(如下表),改进在于p00全球首发了HBM3e内存(去年8月给客户送样,今年3月开始量产),显存达到了141GB,显存带宽达到4.8TB/s。
*BlackWell和Hopper架构基础硬件规格对比,来源:Semianalysis由于浮点运算性能没有提升,整体配置没有大改,p00也被外界解读为半代升级,但价格基本上不变,好歹算是个加量不加价,未来p00即将退役,相关市场则交棒给p00了。
按英伟达官方的说法,p00运行70B参数的Llama 2和175B参数的GPT-3,推理性能分别提升1.9倍和1.6倍。
作为明星产品,p00一直被用来作为行业对标的对象,AMD发布MI300X时对外强调,70B参数的Llama 2推理性能是p00的1.4倍,英特尔在Gaudi3上给出的数据则是1.5倍。
把几款产品放在一起对比,p00、Gaudi 3和MI300X,70B参数的Llama 2模型,推理性能分别是p00的1.9倍、1.5倍和1.4倍。
*Intel和AMD官方提供的Gaudi 3、MI300X 70B参数Llama 2推理性能基于显存、带宽的提升,依旧能让英伟达在特定参数模型的推理上,占据领先地位。更重要的是,黄仁勋手中还有未上市的“核弹级产品”GB200,以及未公布的B100。
基于纸面参数看,英伟达目前还领先竞争对手一个代差,但纸面参数的追赶并不难。
作为挑战者,AMD和英特尔还需要提供让开发者从英伟达的CUDA生态走出去的吸引力,这种生态建设则是长期的追赶过程。芯事重重资深顾问,亚洲视觉科技研发总监陈经在GTC大会解读直播中将CUDA类比成PC互联网时代的Windows,“开发者则需要在Windows给定的框架里使用PC。”
“CUDA不是一个孤立软件,它需要众多配套系统,包括硬件层、驱动、GPU集群、底层库、Pytorch等上层库、编译器,跟着CUDA的套路走会很方便,一旦偏离套路就遇到知识盲区,懂怎么调整的人极为稀缺。”陈经认为如果人们想抛开CUDA,虽然可以选择单卡性能(比p00)更强的MI300X,但“实战”搭环境可能会面临无数个想不到的bug而被弄崩溃,适配的时间耗不起。
除了生态,另一个增加吸引力的杠杆是价格,追赶者需要借助更高的性价比,来覆盖开发者们的迁移成本。