英伟达帝国的一道裂缝

2023.05.18

来源：硅基研习社

作者：何律衡/戴老板

2012年，AI圈发生了两件大事，按时间顺序，第一件是谷歌组团已久的Google Brain发布“出道作”——一个能够识别猫的深度学习网络“谷歌猫”，74.8%的识别准确率，比知名识别图像大赛ImageNet前一年获胜算法的74%还要高出0.8%。

但谷歌的高光时刻只持续了几个月。2012年12月，最新一届ImageNet的获胜者出炉，深度学习大神Hinton及其弟子带着卷积神经网络AlexNet，将识别正确率一举提高到了84%，由此开启了之后十年的AI革命，谷歌猫则被埋进了历史的尘埃之中。

Hinton和两位学生，2012年

让业内震惊的不只是ImageNet模型本身。这个需要1400万张图片、总计262千万亿次浮点运算训练的神经网络，一个星期的训练过程中仅用了四颗英伟达Geforce GTX 580。作为参考，谷歌猫用了1000万张图片、16000颗CPU、1000台计算机[1]。

传言Google在这一年也秘密参加了比赛，其受到的震撼直接体现在接下来的行动上：Google一边豪掷了4400万美元收购了Hinton团队，一边马上向英伟达下单大量GPU用来人工智能训练，而且同时“扫货”的还有微软、Facebook等一众巨头。

英伟达成为最大的赢家，股价在接下10年里最高涨了121倍。一个帝国诞生了。

但帝国的上空，逐渐聚拢了两朵乌云。当年向英伟达扫货的Google，在三年后携AlphaGo惊艳亮相，并在2017年击败了人类冠军柯洁。敏锐的人发现，驱动AlphaGo的芯片不再是英伟达的GPU，而是Google自研的TPU芯片。

再过三年，相似剧情重演。曾经被黄仁勋一度视为标杆客户的特斯拉也告别英伟达GPU，先是推出了以NPU为核心的FSD车载芯片，然后又拿出了用来搭建AI训练集群的D1芯片——这意味着英伟达接连里失去了AI时代里两个最重要的客户。

到了2022年，全球IT周期进入下行阶段，云计算大厂纷纷削减数据中心的GPU采购预算，区块链挖矿大潮也逐渐冷却，加上美国对华芯片禁令导致无法向国内出售A100/p00等高端显卡，英伟达库存暴增，股价从最高点一度跌去了2/3。

2022年底ChatGPT横空出世，GPU作为大模型“炼丹”的燃料再次遭到哄抢，英伟达获得喘息，但第三朵乌云随之而来：2023年4月18号，著名科技媒体The Information爆料：本轮AI浪潮的发起者微软，正在秘密研发自己的AI芯片[2]。

这款名叫Athena的芯片由台积电代工，采用5nm先进制程，微软研发团队人数已经接近300人。很明显，这款芯片目标就是替代昂贵的A100/p00，给OpenAI提供算力引擎，并最终一定会通过微软的Azure云服务来抢夺英伟达的蛋糕。

微软目前是英伟达p00最大的采购方，甚至一度传出要“包圆”p00全年的产能。来自微软的分手信号无疑是一道晴天霹雳，要知道，即使在Intel最灰暗的时候，其客户也没有一家“敢于”自造CPU芯片（除了苹果，但苹果并不对外销售）。

尽管英伟达目前凭借GPU+NVlink+CUDA垄断了AI算力90%的市场，但帝国已经出现了第一道裂缝。

01、本不为AI而生的GPU

打从一开始，GPU就不是为AI所生。

1999年10月英伟达发布了GeForce 256，这是一款基于台积电220纳米工艺、集成了2300万个晶体管的图形处理芯片。英伟达把Graphics Processing Unit的首字母「GPU」提炼出来，把GeForce 256冠以“世界上第一块GPU”称号，巧妙地定义了GPU这个新品类，并占据这个词的用户心智直到今天。

而此时人工智能已经沉寂多年，尤其是深度神经网络领域，Geoffery Hinton和Yann LeCun等未来的图灵奖获得者们还在学术的冷板凳上坐着，他们万万不会想到自己的职业生涯，会被一块本来为游戏玩家开发的GPU所彻底改变。

GPU为谁所生？图像。更准确地说，是为CPU从图像显示的苦力活中解放出来而生。图像显示的基本原理是将每一帧的图像分割成一颗颗像素，再对其进行顶点处理，图元处理，栅格化、片段处理、像素操作等多个渲染处理，最终得以显示在屏幕上。

从像素到图像的处理过程图源：graphics compendium

为什么说这是苦力活呢？做一个简单的算术题：

假定屏幕上有30万颗像素，以60fps帧率计算，每秒需要完成1800万次渲染，每次包含上述五个步骤，对应五条指令，也就是说，CPU每秒要完成9000万条指令才能实现一秒的画面呈现，作为参考，当时英特尔性能最高的CPU每秒算力才6000万次。

不怪CPU弱，而是其本就以线程调度见长，为此将更多的空间让渡给了控制单元和存储单元，用于计算的计算单元只占据20%的空间。GPU则相反，80%以上空间是计算单元，带来了超强并行计算能力，更适合图片显示这种步骤固定、重复枯燥的工作。

CPU和GPU内部结构，绿色部分为运算单元

英伟达帝国的一道裂缝

加⼊OKEx全球社群

相关推荐