AI文生视频，会在明年迎来“GPT时刻”

2023.12.06

原文来源：AI新智能

图片来源：由无界 AI生成

在当下的AI赛道上，AI生文、生图的应用，早已层出不穷，相关的技术，也在不断日新月异。

而与之相比，AI文生视频，却是一个迟迟未被“攻下”的阵地。

抖动、闪现、时长太短，这一系列缺陷，让AI生成的视频只能停留在“图一乐”的层面，很难拿来使用，更不要说提供商业上的赋能。

直到最近，某个爆火的应用，再次燃起了人们对这一赛道的关注。

关于这个叫做Pika的文生视频AI，这些天想必大家已经了解了很多。

因此，这里不再赘述Pika的各种功能、特点，而是单刀直入地探讨一个问题，那就是：

Pika的出现，是否意味着AI文生视频距离人们期望中的理想效果，还有多远？

1 难题与瓶颈

实事求是地说，目前的AI文生视频赛道，难度和价值都很大。

而其中最大的难点，莫过于让画面变得“抽风”的抖动问题。

关于这一点，任何使用过Gen-2 Runway 等文生视频AI的人，都会深有体会。

抖动、闪现，以及不时出现的画面突变，让人们很难获得一个稳定的生成效果。

而这种“鬼畜”现象的背后，其实是帧与帧之间联系不紧密导致的。

具体来说，目前AI生成视频技术，与早期的手绘动画很相似，都是先绘制很多帧静止的图像，之后将这些图像连接起来，并通过一帧帧图像的渐变，实现画面的运动。

但无论是手绘动画还是AI生成的视频，首先都需要确定关键帧。因为关键帧定义了角色或物体在特定时刻的位置和状态。

之后，为了让画面看起来更流畅，人们需要在这些关键帧之间添加一些过渡画面（也称为“过渡帧”或“内插帧”）。

可问题就在于，在生成这些“过渡帧”时，AI生成的几十帧图像，看起来虽然风格差不多，但连起来细节差异却非常大，视频也就容易出现闪烁现象。

这样的缺陷，也成了AI生成视频最大的瓶颈之一。

而背后的根本原因，仍旧是所谓的“泛化”问题导致的。

用大白话说，AI的对视频的学习，依赖于大量的训练数据。如果训练数据中没有涵盖某种特定的过渡效果或动作，AI就很难学会如何在生成视频时应用这些效果。

这种情况，在处理某些复杂场景和动作时，就显得尤为突出。

除了关键帧的问题外，AI生成视频还面临着诸多挑战，而这些挑战，与AI生图这种静态的任务相比，难度根本不在一个层面。

例如：

动作的连贯性：为了让视频看起来自然，AI需要理解动作的内在规律，预测物体和角色在时间线上的运动轨迹。

长期依赖和短期依赖：在生成视频时，一些变化可能在较长的时间范围内发生（如角色的长期动作），而另一些变化可能在较短的时间范围内发生（如物体的瞬时运动）。

为了解决这些难点，研究人员采用了各种方法，如使用循环神经网络（RNN）、长短时记忆网络（LSTM）和门控循环单元（GRU）来捕捉时间上的依赖关系等等。

但关键在于，目前的AI文生视频，并没有形成像LLM那样统一的，明确的技术范式，关于怎样生成稳定的视频，业界其实都还处于探索阶段。

AI文生视频赛道，难度和价值都很大。

其价值，就在于其能真切地解决很多行业的痛点和需求，而不是像现在的很多“套壳”应用那样，要么锦上添花，要么圈地自萌。

关于这点，可以从“时间”和“空间”两个维度上，对AI文生视频的将来的价值空间做一番审视。

从时间维度上来说，判断一种技术是不是“假风口”、假繁荣，一个最重要的标准，就是看人们对这类技术的未来使用频率。

免责声明:数字资产交易涉及重大风险，本资料不应作为投资决策依据，亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考，不构成任何投资建议，用户一切投资行为与本站无关。

和全球数字资产投资者交流讨论

扫码加入OKEx社群