复制成功

分享至

主页 > 数字货币 >

Sora带来的四点启发

2024.02.19

文章来源:硅基立场

作者:王兆洋

图片来源:由无界AI生成 图片来源:由无界AI生成


Sora的发布是一件大事,大到开始出现人传人的“出来见上帝”现象,而到底为何大却无人关心。观察各种讨论后还是觉得有些重要的东西没有说透,把很多信息和思考串起来总结成了四条“启发”,提前剧透,以下这里没有见上帝部分。

1. 视觉数据能训练出更强的泛化能力?

ChatGPT标志着语言模型完成了“涌现”拥有了泛化能力。之后我一直很好奇不同模态的训练数据混合的效果,以及谁才是泛化能力诞生过程里决定性的那一个。

在去年前半年我遇到每个做图像或视频生成模型的人都会问他一个问题:语言模型模块在图像或视频模型里到底有多关键?后来Dalle3似乎回答了这个问题,它的能力突破被广泛认为来自GPT提供的语言模型板块的强大能力。

去年底我的这个保留问题变成了:如果用了正确的方法,只用图像或者视频数据训练出来的模型,泛化能力会是怎样?

这个好奇来自两个判断,一个是视频数据是“全互联网的文字数据都被用完了”之后的下一个增量;另一个,是视频数据被广泛认为信息密度不如文字因此它与智慧的关系也不如文字,但我认为它包含的是另一种抽象维度的信息,比如时空关系和物理规律等,这些都因为数据“非格式化”而未被“开发”,但它潜力巨大。在我有限的翻阅论文的经验里,有一篇关于多模态领域重要的模型VLMO的论文里,曾提到一个有意思的实验结论:当你完全拿一个在视觉数据上训练好的模型,可以直接对文本数据建模,甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成,则差很多。后来去年MJ6V的一个重要功能提升也是文字生成,它用扩散模型的思路带来了语言能力,这都让我更加好奇。

而这一次Sora某种程度就是在回答这个问题:它把视频数据统一了,然后用大语言模型的方法理解视频,最后产生了对物理世界的“涌现”也就是泛化能力。这种能力是语言模型无法得到的。

这是很重要的一个信息。这可能不只是对理解AI有帮助,对理解我们作为人的一些智能也有帮助。

另外再提一个很有意思的细节,Sora这个模型的名字取自一个日语单词,Sora在日语是天空的意思。而这个词在日语里有时候会用作动词,意思是“用心记,而不用看任何写下来的材料”,变化出来的词比如“Soranjiru”, そらんじる 的意思就是“remember by heart”。

这不就是Sora的能力。

2. 现在OpenAI只剩下一条路线:Scaling Law。

从Sora可以确定的信息来看,它的成功靠的是在所有人认为已经证明不可能的情况下,用数据精确处理后的大规模预训练硬生生带来了涌现——熟悉么,对,就是ChatGPT的又一次重演。

而这也是OpenAI的Scaling law的又一次成功。而过去很长一段时间很多人开始质疑scaling law。比如在过去几个月跟业界一线从业者交流中,大家几乎默认GPT4就是一个MOE(专家模型,由一群不同模型组成的大模型),而这被解读为单一模型能力撞墙,暗含着OpenAI坚持的scaling law的破产。但现在看,可能并非如此。在Sora的技术报告里有一句很有意思的话:Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

“最大模型”。这句话有些故意含糊,是OpenAI最大的模型?比GPT5还大?还是这个系列最大的模型?最大的大又指的是什么大?

总之,大力出奇迹仍在继续。

OpenAI 的Scaling law原本是它的研究中得出的一个学术结论,它来自Ilya 和Karpathy等OpenAI的顶尖科学家们,但它正在快速变成一种路线,充满Altman意志的路线,变成这家公司的核心战略。Altman和科学家们的关系也呈现一种智术师与统治者的关系,思想体系诞生于前者,但最终为被后者按照个人意志改造。

不知所踪的Ilya和刚刚离职的Karpathy,作为OpenAI曾经最有代表的科学家都强调过scale的重要,但前者很快开始警惕无限扩张过程里的失控危险,于是开始超级对齐项目,而这个项目在OpenAI拿不到足够算力资源也被认为是宫斗爆发的导火索之一。Karpathy 则是从科研角度想弄清楚scale和算法的关系,提出“Algorithmic progress was necessity, now bonus”。而这句话带来的一统天下的前景,显然在“野心家”眼里会超过一切。

所以,今天如果把Scaling law视作这家公司的唯一路线,Altman最近的很多动作也就更好理解:

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier