复制成功

分享至

主页 > 比特币 >

英伟达帝国的一道裂缝

2023.05.18

来源:硅基研习社

作者:何律衡/戴老板

2012年,AI圈发生了两件大事,按时间顺序,第一件是谷歌组团已久的Google Brain发布“出道作”——一个能够识别猫的深度学习网络“谷歌猫”,74.8%的识别准确率,比知名识别图像大赛ImageNet前一年获胜算法的74%还要高出0.8%。

但谷歌的高光时刻只持续了几个月。2012年12月,最新一届ImageNet的获胜者出炉,深度学习大神Hinton及其弟子带着卷积神经网络AlexNet,将识别正确率一举提高到了84%,由此开启了之后十年的AI革命,谷歌猫则被埋进了历史的尘埃之中。

英伟达帝国的一道裂缝

Hinton和两位学生,2012年

让业内震惊的不只是ImageNet模型本身。这个需要1400万张图片、总计262千万亿次浮点运算训练的神经网络,一个星期的训练过程中仅用了四颗英伟达Geforce GTX 580。作为参考,谷歌猫用了1000万张图片、16000颗CPU、1000台计算机[1]。

传言Google在这一年也秘密参加了比赛,其受到的震撼直接体现在接下来的行动上:Google一边豪掷了4400万美元收购了Hinton团队,一边马上向英伟达下单大量GPU用来人工智能训练,而且同时“扫货”的还有微软、Facebook等一众巨头。

英伟达成为最大的赢家,股价在接下10年里最高涨了121倍。一个帝国诞生了。

但帝国的上空,逐渐聚拢了两朵乌云。当年向英伟达扫货的Google,在三年后携AlphaGo惊艳亮相,并在2017年击败了人类冠军柯洁。敏锐的人发现,驱动AlphaGo的芯片不再是英伟达的GPU,而是Google自研的TPU芯片。

再过三年,相似剧情重演。曾经被黄仁勋一度视为标杆客户的特斯拉也告别英伟达GPU,先是推出了以NPU为核心的FSD车载芯片,然后又拿出了用来搭建AI训练集群的D1芯片——这意味着英伟达接连里失去了AI时代里两个最重要的客户。

到了2022年,全球IT周期进入下行阶段,云计算大厂纷纷削减数据中心的GPU采购预算,区块链挖矿大潮也逐渐冷却,加上美国对华芯片禁令导致无法向国内出售A100/p00等高端显卡,英伟达库存暴增,股价从最高点一度跌去了2/3。

2022年底ChatGPT横空出世,GPU作为大模型“炼丹”的燃料再次遭到哄抢,英伟达获得喘息,但第三朵乌云随之而来:2023年4月18号,著名科技媒体The Information爆料:本轮AI浪潮的发起者微软,正在秘密研发自己的AI芯片[2]。

这款名叫Athena的芯片由台积电代工,采用5nm先进制程,微软研发团队人数已经接近300人。很明显,这款芯片目标就是替代昂贵的A100/p00,给OpenAI提供算力引擎,并最终一定会通过微软的Azure云服务来抢夺英伟达的蛋糕。

微软目前是英伟达p00最大的采购方,甚至一度传出要“包圆”p00全年的产能。来自微软的分手信号无疑是一道晴天霹雳,要知道,即使在Intel最灰暗的时候,其客户也没有一家“敢于”自造CPU芯片(除了苹果,但苹果并不对外销售)。

尽管英伟达目前凭借GPU+NVlink+CUDA垄断了AI算力90%的市场,但帝国已经出现了第一道裂缝。


01、本不为AI而生的GPU


打从一开始,GPU就不是为AI所生。

1999年10月英伟达发布了GeForce 256,这是一款基于台积电220纳米工艺、集成了2300万个晶体管的图形处理芯片。英伟达把Graphics Processing Unit的首字母「GPU」提炼出来,把GeForce 256冠以“世界上第一块GPU”称号,巧妙地定义了GPU这个新品类,并占据这个词的用户心智直到今天。

而此时人工智能已经沉寂多年,尤其是深度神经网络领域,Geoffery Hinton和Yann LeCun等未来的图灵奖获得者们还在学术的冷板凳上坐着,他们万万不会想到自己的职业生涯,会被一块本来为游戏玩家开发的GPU所彻底改变。

GPU为谁所生?图像。更准确地说,是为CPU从图像显示的苦力活中解放出来而生。图像显示的基本原理是将每一帧的图像分割成一颗颗像素,再对其进行顶点处理,图元处理,栅格化、片段处理、像素操作等多个渲染处理,最终得以显示在屏幕上。

英伟达帝国的一道裂缝

从像素到图像的处理过程  图源:graphics compendium

为什么说这是苦力活呢?做一个简单的算术题:

假定屏幕上有30万颗像素,以60fps帧率计算,每秒需要完成1800万次渲染,每次包含上述五个步骤,对应五条指令,也就是说,CPU每秒要完成9000万条指令才能实现一秒的画面呈现,作为参考,当时英特尔性能最高的CPU每秒算力才6000万次。

不怪CPU弱,而是其本就以线程调度见长,为此将更多的空间让渡给了控制单元和存储单元,用于计算的计算单元只占据20%的空间。GPU则相反,80%以上空间是计算单元,带来了超强并行计算能力,更适合图片显示这种步骤固定、重复枯燥的工作。

英伟达帝国的一道裂缝

CPU和GPU内部结构,绿色部分为运算单元

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier