复制成功

分享至

主页 > 比特币 >

用差异化打破英伟达“垄断”,d-Matrix将AI推理算力成本降低30倍

2023.10.12

原文来源:阿尔法公社

用差异化打破英伟达“垄断”,d-Matrix将AI推理算力成本降低30倍

图片来源:由无界 AI‌生成

在AIGC大爆发的背后,是海量AI训练和AI推理的算力需求。英伟达是目前最大的AI算力提供商,它第二季度的盈利水平(同比增长854%)传递了一个信号—行业对于AI算力的需求还远未被满足。

英伟达在AI算力的垄断之势(市场份额超80%),让很多使用AI算力的公司担忧,微软、亚马逊和OpenAI都在积极造芯,OpenAI还和Cerebras ,Atomic Semi等AI芯片创业公司传出了收购绯闻。

运行AI应用的AI推理算力需求在未来将会大大超过训练大模型的算力需求,而且推理算力的要求与训练并不相同,现有的GPU去做推理,在成本上没有优势,这就需要专有的AI推理芯片。

近日,一家专注做AI推理芯片的创业公司d-Matrix获得了1.1亿美元B轮融资,由淡马锡领投,包含此前融资轮次的投资者有Playground Global、M12(微软风险投资基金)、Industry Ventures、Ericsson Ventures、Samsung Ventures、SK Hynix等,产业投资占了相当重要的部分。d-Matrix的首席执行官Sid Sheth表示:“他们是懂得如何建立半导体业务的资本,是可以与我们长期合作的资本。”

d-Matrix的新融资将用来打造其数字内存计算 (DIMC) Chiplet推理计算卡Corsair。这种卡据称推理速度是英伟达p00 GPU的9倍,如果是计算卡集群,与英伟达的类似解决方案相比,功率效率提高20倍,延迟降低20倍,成本降低高达30倍。


两位芯片资深人士瞄准AIGC时代的AI推理算力需求


AI系统在训练AI模型与使用它进行预测和推理时使用不同类型的计算。AI推理需要的算力更少,但是当运行一个大型AI服务时,长期看需要比训练更多的算力。

使用现有的AI硬件很难低成本地部署一个专门用于AI推理的数据中心。有消息称,微软的GitHub Copilot服务,平均每个月在每个用户身上要倒贴20美元,据SemiAnalysis首席分析师Dylan Patel统计,OpenAI运行ChatGPT的单日投入成本可能高达70万美元。这些成本,都是运行AI服务时无法缩减的AI推理成本。

AI行业要更健康的发展,更低推理成本,更低能耗成本的AI推理芯片是刚需。

两位芯片行业的资深人士Sid Sheth和Sudeep Bhoja于2019年创立了d-Matrix,他们此前曾在Marvell和Broadcom(博通)共事。2019年,Transformer架构的AI模型刚刚兴起,他们看到了这个模型架构的巨大潜力和机会,决定专门为这些大语言模型设计其AI硬件。

用差异化打破英伟达“垄断”,d-Matrix将AI推理算力成本降低30倍

d-Matrix的首席执行官兼联合创始人Sid Sheth表示:“我们在2019年做了一个赌注,决定专注做Transformer模型的加速平台,并且专注于推理,到2022年底,生成式AI爆发时,d-Matrix成为少数几家拥有生成式AI推理计算平台的公司之一。我们在三年的时间里逐渐成长并抓住了这个机会。我们所有的硬件和软件都是为了加速Transformer模型和生成式AI构建的。”

Sid Sheth继续介绍了d-Matrix在市场定位上的独特性:“生成式AI将永远改变人们和公司创造、工作和与技术互动的范式。

但是当前运行AI推理的总体拥有成本 (TCO) 正在迅速上升,d-Matrix团队正在通过为大语言模型专门打造的计算解决方案,改变部署AI推理的成本经济学,而这轮融资进一步证实了我们在该行业中的地位。”

微软M12的投资人Michael Stewart认为:“当大语言模型推理的TCO成为企业在其服务和应用中使用先进AI的关键限制因素时,我们正式进入生产阶段。d-Matrix一直在遵循一个计划,该计划将为使用基于内存为中心方法的灵活、弹性的Chiplet架构的各种潜在模型服务场景提供行业领先的 TCO。”


将AI推理的成本降低30倍


使用CPU和GPU进行AI的训练和推理,并不是效率最高的方式。对于AI推理运算,数据移动是最大的瓶颈。具体来说,将数据来回传输到随机存取存储器会导致显著的延迟,这又会导致更高的能耗和成本,并拖慢整个AI系统的速度。

解决这个问题,可以有三种方式。

第一种是通过采样和流水线减少处理的数据量来加速深度学习,但它也限制了准确性和精确性。

第二种是在传统的处理器附近设置专用AI引擎的处理器,Apple、英伟达、Intel和AMD都采用这种方式,但这些解决方案仍然使用传统的冯·诺依曼处理器架构、要集成SRAM和外部DRAM存储器,他们都需要将数据移入和移出存储器,仍然造成高能耗和低效率。

第三种是将计算移动到RAM(内存)附近,也就是d-Matrix采用的方法。这种叫数字内存计算(DIMC)的引擎架构降低了延迟,减少了能源消耗。它也非常适合AI推理,因为推理会涉及一个相对静态(但大型)的权重数据集,这个数据集被反复访问,DIMC消除了大部分能量转移费用和数据移动的延迟。

d-Matrix使用多个Chiplet来构建更大、模块化且可扩展的集成电路。这使它能够构建可扩展的平台,用于企业级AI推理任务,帮助AI企业提高性能和效率。

Jayhawk II Chiplet

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier