复制成功

分享至

主页 > 数字货币 >

AI算力需求规模空前 Web3有何用武之地?

2023.06.02

重点内容:

  • 目前AI + Crypto结合的点主要有2个比较大的方向:分布式算力和ZKML。本文将围绕去中心化的分布式算力网络做出分析和反思。

  • 在AI大模型的发展趋势下,算力资源会是下一个十年的大战场,也是未来人类社会最重要的东西,并且不只是停留在商业竞争,也会成为大国博弈的战略资源。未来对于高性能计算基础设施、算力储备的投资将会指数级上升。

  • 去中心化的分布式算力网络在AI大模型训练上的需求是最大的,但是也面临最大的挑战和技术瓶颈。包括需要复杂的数据同步和网络优化问题等。此外,数据隐私和安全也是重要的制约因素。虽然有一些现有的技术能提供初步解决方案,但在大规模分布式训练任务中,由于计算和通信开销巨大,这些技术仍无法应用。

  • 去中心化的分布式算力网络在模型推理上更有机会落地,可以预测未来的增量空间也足够大。但也面临通信延迟、数据隐私、模型安全等挑战。和模型训练相比,推理时的计算复杂度和数据交互性较低,更适合在分布式环境中进行。

  • 通过Together和Gensyn.ai两个初创公司的案例,分别从技术优化和激励层设计的角度说明了去中心化的分布式算力网络整体的研究方向和具体思路。

  • 一、分布式算力—大模型训练

    我们在讨论分布式算力在训练时的应用,一般聚焦在大语言模型的训练,主要原因是小模型的训练对算力的需求并不大,为了做分布式去搞数据隐私和一堆工程问题不划算,不如直接中心化解决。而大语言模型对算力的需求巨大,并且现在在爆发的最初阶段,2012-2018,AI的计算需求大约每4个月就翻一倍,现在更是对算力需求的集中点,可以预判未来5-8年仍然会是巨大的增量需求。

    在巨大机遇的同时,也需要清晰的看到问题。大家都知道场景很大,但是具体的挑战在哪里?谁能target这些问题而不是盲目入局,才是判断这个赛道优秀项目的核心。

    AI算力需求规模空前,Web3有何用武之地?

    (NVIDIA NeMo Megatron Framework)

    1.整体训练流程

    以训练一个具有1750亿参数的大模型为例。由于模型规模巨大,需要在很多个GPU设备上进行并行训练。假设有一个中心化的机房,有100个GPU,每个设备具有32GB的内存。

  • 数据准备:首先需要一个巨大的数据集,这个数据集包含例如互联网信息、新闻、书籍等各种数据。在训练前需要对这些数据进行预处理,包括文本清洗、标记化(tokenization)、词表构建等。

  • 数据分割:处理完的数据会被分割成多个batch,以在多个GPU上并行处理。假设选择的batch大小是512,也就是每个批次包含512个文本序列。然后,我们将整个数据集分割成多个批次,形成一个批次队列。

  • 设备间数据传输:在每个训练步骤开始时,CPU从批次队列中取出一个批次,然后将这个批次的数据通过PCIe总线发送到GPU。假设每个文本序列的平均长度是1024个标记,那么每个批次的数据大小约为512 * 1024 * 4B = 2MB(假设每个标记使用4字节的单精度浮点数表示)。这个数据传输过程通常只需要几毫秒。

  • 并行训练:每个GPU设备接收到数据后,开始进行前向传播(forward pass)和反向传播(backward pass)计算,计算每个参数的梯度。由于模型的规模非常大,单个GPU的内存无法存放所有的参数,因此我们使用模型并行技术,将模型参数分布在多个GPU上。

  • 梯度聚合和参数更新:在反向传播计算完成后,每个GPU都得到了一部分参数的梯度。然后,这些梯度需要在所有的GPU设备之间进行聚合,以便计算全局梯度。这需要通过网络进行数据传输,假设用的是25Gbps的网络,那么传输700GB的数据(假设每个参数使用单精度浮点数,那么1750亿参数约为700GB)需要约224秒。然后,每个GPU根据全局梯度更新其存储的参数。

  • 同步:在参数更新后,所有的GPU设备需要进行同步,以确保它们都使用一致的模型参数进行下一步的训练。这也需要通过网络进行数据传输。

  • 重复训练步骤:重复上述步骤,直到完成所有批次的训练,或者达到预定的训练轮数(epoch)。

  • 这个过程涉及到大量的数据传输和同步,这可能会成为训练效率的瓶颈。因此,优化网络带宽和延迟,以及使用高效的并行和同步策略,对于大规模模型训练非常重要。

    2.通信开销的瓶颈:

    需要注意的是,通信的瓶颈也是导致现在分布式算力网络做不了大语言模型训练的原因。

    免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

    加⼊OKEx全球社群

    和全球数字资产投资者交流讨论

    扫码加入OKEx社群

    相关推荐

    industry-frontier