复制成功

分享至

主页 > 数字货币 >

Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了

2024.03.27

文章来源: 夕小瑶科技说

 作者 | Zicy


图片来源:由无界AI生成 图片来源:由无界AI生成

Sora一经发布,世界再次被AI的力量所震撼。要知道Runway、Pika等明星模型都还在突破几秒内的连贯性的时候,Sora已经可以直接生成长达60s的一镜到底视频。

Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了


大家对Sora的更进一步信息和细节都非常好奇,但遗憾的是,OpenAI并未公布它的技术细节,而只有一份简单的技术报告。

今天我们就来扒一扒网上对Sora训练和推理的估算,看看Sora惊艳效果背后的算力究竟是如何的惊人。


Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了

▲Sora生成的视频效果


从DiT到Sora

在Sora的技术报告中,作者提到Sora的设计很大程度上受到了《Scalable Diffusion Models with Transformers》论文的影响,这篇论文中提到的模型DiT是用于图像生成的,Sora将这项工作扩展到了视频生成。

我们先来看看DiT模型,最大的DiT模型DiT-XL具有675M参数,需要次浮点运算进行训练。为了使这个数字更容易理解,这相当于大约一台p00运行12天。


Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了


下面是对Sora所需的计算量做一个估算:

1、DiT只对图像进行建模,但Sora是视频模型,我们假设Sora在把图片变成视频的过程中没有额外计算。

Sora可以生成1分钟的视频,如果我们假设视频以24fps编码,则一个视频有1440帧(24fps * 60s)。Sora的像素到潜在映射似乎在空间和时间上都进行了压缩。如果我们假设与DiT论文(8x)的压缩率相同,我们最终在潜在空间中得到180帧(1440/8)。

2、Sora明显大于675M参数,之前有传言GPT3.5的模型大小是20B

所以我们估计Sora为20B是可行的,这需要DiT的30倍计算量。

3、Sora应该是接受了图像和视频的混合训练,OpenAI没有过多谈论他们的数据集,但他们暗示它非常大:“我们从大型语言模型中汲取灵感,这些模型通过对互联网规模数据进行训练来获得通才能力。

假设Sora数据集比DiT使用的数据集大10倍到100倍,但DiT在相同数据上重复训练,若有更大数据集,则此方法并非最佳。因此将计算量增加4-10倍是合理的,取中值7倍作为估算。

所以,把上面的估算结果相乘,训练Sora的总浮点数计算量约为:


这相当于14739张p00运行一个月!


Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了


以当前p00市场价约3万美元算,14739张p00约需要4.4亿美元,老黄直接狂喜。


Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了


在能耗方面,p00 GPU的最大功耗约为700W,这需要大概kWh的电力,这相当于一架波音757飞机飞行七百万公里的碳排放,可以绕地球赤道转173圈,环保人士已经要坐不住了。


Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了


我们需要更多的显卡

Sora的训练已经消耗这么多了,我们再来估计一下推理所需的资源。

我们再次使用DiT来推断Sora,DiT-XL每步使用FLOPS,250个扩散步骤总共FLOPS,同样的方法,乘上30再乘180,我们可以估计:

一个Nvidia p00 GPU大约每小时能生成5分钟的视频。

如果视频作者要依靠Sora来创作,那么他至少需要十张以上的p00,才能十分钟内生成合理时长的视频。这个成本将非常高,肯定不适合普通人来使用。

盈亏平衡

盈亏平衡,即模型达到一个推理的使用量,使得推理和训练期间的花费相同。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier