用差异化打破英伟达“垄断”，d-Matrix将AI推理算力成本降低30倍

2023.10.12

原文来源：阿尔法公社

图片来源：由无界 AI‌生成

在AIGC大爆发的背后，是海量AI训练和AI推理的算力需求。英伟达是目前最大的AI算力提供商，它第二季度的盈利水平（同比增长854%）传递了一个信号—行业对于AI算力的需求还远未被满足。

英伟达在AI算力的垄断之势（市场份额超80%），让很多使用AI算力的公司担忧，微软、亚马逊和OpenAI都在积极造芯，OpenAI还和Cerebras ，Atomic Semi等AI芯片创业公司传出了收购绯闻。

运行AI应用的AI推理算力需求在未来将会大大超过训练大模型的算力需求，而且推理算力的要求与训练并不相同，现有的GPU去做推理，在成本上没有优势，这就需要专有的AI推理芯片。

近日，一家专注做AI推理芯片的创业公司d-Matrix获得了1.1亿美元B轮融资，由淡马锡领投，包含此前融资轮次的投资者有Playground Global、M12（微软风险投资基金）、Industry Ventures、Ericsson Ventures、Samsung Ventures、SK Hynix等，产业投资占了相当重要的部分。d-Matrix的首席执行官Sid Sheth表示：“他们是懂得如何建立半导体业务的资本，是可以与我们长期合作的资本。”

d-Matrix的新融资将用来打造其数字内存计算 (DIMC) Chiplet推理计算卡Corsair。这种卡据称推理速度是英伟达p00 GPU的9倍，如果是计算卡集群，与英伟达的类似解决方案相比，功率效率提高20倍，延迟降低20倍，成本降低高达30倍。

两位芯片资深人士瞄准AIGC时代的AI推理算力需求

AI系统在训练AI模型与使用它进行预测和推理时使用不同类型的计算。AI推理需要的算力更少，但是当运行一个大型AI服务时，长期看需要比训练更多的算力。

使用现有的AI硬件很难低成本地部署一个专门用于AI推理的数据中心。有消息称，微软的GitHub Copilot服务，平均每个月在每个用户身上要倒贴20美元，据SemiAnalysis首席分析师Dylan Patel统计，OpenAI运行ChatGPT的单日投入成本可能高达70万美元。这些成本，都是运行AI服务时无法缩减的AI推理成本。

AI行业要更健康的发展，更低推理成本，更低能耗成本的AI推理芯片是刚需。

两位芯片行业的资深人士Sid Sheth和Sudeep Bhoja于2019年创立了d-Matrix，他们此前曾在Marvell和Broadcom（博通）共事。2019年，Transformer架构的AI模型刚刚兴起，他们看到了这个模型架构的巨大潜力和机会，决定专门为这些大语言模型设计其AI硬件。

d-Matrix的首席执行官兼联合创始人Sid Sheth表示：“我们在2019年做了一个赌注，决定专注做Transformer模型的加速平台，并且专注于推理，到2022年底，生成式AI爆发时，d-Matrix成为少数几家拥有生成式AI推理计算平台的公司之一。我们在三年的时间里逐渐成长并抓住了这个机会。我们所有的硬件和软件都是为了加速Transformer模型和生成式AI构建的。”

Sid Sheth继续介绍了d-Matrix在市场定位上的独特性：“生成式AI将永远改变人们和公司创造、工作和与技术互动的范式。

但是当前运行AI推理的总体拥有成本 (TCO) 正在迅速上升，d-Matrix团队正在通过为大语言模型专门打造的计算解决方案，改变部署AI推理的成本经济学，而这轮融资进一步证实了我们在该行业中的地位。”

微软M12的投资人Michael Stewart认为：“当大语言模型推理的TCO成为企业在其服务和应用中使用先进AI的关键限制因素时，我们正式进入生产阶段。d-Matrix一直在遵循一个计划，该计划将为使用基于内存为中心方法的灵活、弹性的Chiplet架构的各种潜在模型服务场景提供行业领先的 TCO。”

将AI推理的成本降低30倍

使用CPU和GPU进行AI的训练和推理，并不是效率最高的方式。对于AI推理运算，数据移动是最大的瓶颈。具体来说，将数据来回传输到随机存取存储器会导致显著的延迟，这又会导致更高的能耗和成本，并拖慢整个AI系统的速度。

解决这个问题，可以有三种方式。

第一种是通过采样和流水线减少处理的数据量来加速深度学习，但它也限制了准确性和精确性。

第二种是在传统的处理器附近设置专用AI引擎的处理器，Apple、英伟达、Intel和AMD都采用这种方式，但这些解决方案仍然使用传统的冯·诺依曼处理器架构、要集成SRAM和外部DRAM存储器，他们都需要将数据移入和移出存储器，仍然造成高能耗和低效率。

第三种是将计算移动到RAM（内存）附近，也就是d-Matrix采用的方法。这种叫数字内存计算（DIMC）的引擎架构降低了延迟，减少了能源消耗。它也非常适合AI推理，因为推理会涉及一个相对静态（但大型）的权重数据集，这个数据集被反复访问，DIMC消除了大部分能量转移费用和数据移动的延迟。

d-Matrix使用多个Chiplet来构建更大、模块化且可扩展的集成电路。这使它能够构建可扩展的平台，用于企业级AI推理任务，帮助AI企业提高性能和效率。

Jayhawk II Chiplet

用差异化打破英伟达“垄断”，d-Matrix将AI推理算力成本降低30倍

加⼊OKEx全球社群

相关推荐