比特币价格分析:BTC重启
Sora 究竟有多烧钱?Sora的推理与训练的计算成本被扒出来了
文章来源: 夕小瑶科技说
作者 | Zicy
Sora一经发布,世界再次被AI的力量所震撼。要知道Runway、Pika等明星模型都还在突破几秒内的连贯性的时候,Sora已经可以直接生成长达60s的一镜到底视频。
大家对Sora的更进一步信息和细节都非常好奇,但遗憾的是,OpenAI并未公布它的技术细节,而只有一份简单的技术报告。
今天我们就来扒一扒网上对Sora训练和推理的估算,看看Sora惊艳效果背后的算力究竟是如何的惊人。
▲Sora生成的视频效果
从DiT到Sora
在Sora的技术报告中,作者提到Sora的设计很大程度上受到了《Scalable Diffusion Models with Transformers》论文的影响,这篇论文中提到的模型DiT是用于图像生成的,Sora将这项工作扩展到了视频生成。
我们先来看看DiT模型,最大的DiT模型DiT-XL具有675M参数,需要次浮点运算进行训练。为了使这个数字更容易理解,这相当于大约一台p00运行12天。
下面是对Sora所需的计算量做一个估算:
1、DiT只对图像进行建模,但Sora是视频模型,我们假设Sora在把图片变成视频的过程中没有额外计算。
Sora可以生成1分钟的视频,如果我们假设视频以24fps编码,则一个视频有1440帧(24fps * 60s)。Sora的像素到潜在映射似乎在空间和时间上都进行了压缩。如果我们假设与DiT论文(8x)的压缩率相同,我们最终在潜在空间中得到180帧(1440/8)。
2、Sora明显大于675M参数,之前有传言GPT3.5的模型大小是20B
所以我们估计Sora为20B是可行的,这需要DiT的30倍计算量。
3、Sora应该是接受了图像和视频的混合训练,OpenAI没有过多谈论他们的数据集,但他们暗示它非常大:“我们从大型语言模型中汲取灵感,这些模型通过对互联网规模数据进行训练来获得通才能力。
假设Sora数据集比DiT使用的数据集大10倍到100倍,但DiT在相同数据上重复训练,若有更大数据集,则此方法并非最佳。因此将计算量增加4-10倍是合理的,取中值7倍作为估算。
所以,把上面的估算结果相乘,训练Sora的总浮点数计算量约为:
这相当于14739张p00运行一个月!
以当前p00市场价约3万美元算,14739张p00约需要4.4亿美元,老黄直接狂喜。
在能耗方面,p00 GPU的最大功耗约为700W,这需要大概kWh的电力,这相当于一架波音757飞机飞行七百万公里的碳排放,可以绕地球赤道转173圈,环保人士已经要坐不住了。
我们需要更多的显卡
Sora的训练已经消耗这么多了,我们再来估计一下推理所需的资源。
我们再次使用DiT来推断Sora,DiT-XL每步使用FLOPS,250个扩散步骤总共FLOPS,同样的方法,乘上30再乘180,我们可以估计:
一个Nvidia p00 GPU大约每小时能生成5分钟的视频。
如果视频作者要依靠Sora来创作,那么他至少需要十张以上的p00,才能十分钟内生成合理时长的视频。这个成本将非常高,肯定不适合普通人来使用。
盈亏平衡
盈亏平衡,即模型达到一个推理的使用量,使得推理和训练期间的花费相同。