异军突起的视频AI，揭示了什么？

2023.10.11

原文来源：AI新智能

图片来源：由无界 AI生成

在当下的AI赛道上，AI聊天、绘画一类的应用，早已枝繁叶茂。

然而，在此类同质化应用扎堆的情况下，一类颇有技术难度，也较少被人提及的方向，正在悄然崛起。

这就是最能调动人感官的视频AI领域。

根据twitter上的作者Will 郎瀚威统计的图表，今年8—9月，各大文生图类AI网站的访问量均开始呈现下降趋势。

然而，就在这种情况下，国外知名视频AI网站HeyGen的访问量上升了92%，流量跃居各大独立AI网站之首。

那么，为何此前一直默默无闻的视频AI，最近突然异军突起，盖过了风头正盛的文生图类AI应用？

而在GPT-4V发布，多模态技术不断取得突破的情况下，这一微妙的变化，又预示着什么？

1 多模态的前奏

从AI发展的大格局上来说，HeyGen的这波流量上升，或许只是多模态高歌猛进背景下的一个插曲。

从谷歌宣布Gemini具有多模态功能的消息，到OpenAI发布GPT-4V，各个AI巨头，似乎都将下一阶段竞争的焦点放在了多模态上。

那为何多模态成了巨头眼中关键的“突破点”？

原因或许就在于，其具有打破“专业壁垒”的意义。

在多模态尚未取得突破之前，不同模态、领域之间，存在着巨大的鸿沟。

写文案，做编辑的人，即使再妙笔生花，如果缺乏相应的美术知识，以及各种专业的提示词，也难以用AI画出出色的作品。

而一个画师如果没有受过专业的写作训练，缺乏谋篇布局的思路，也难以凭借AI写出上乘的文章。

类似的“壁垒”，在视频剪辑方面，也同样存在着。

根据知乎上一位视频剪辑方面的从业者介绍，一个完整的视频剪辑流程，包括了调色、整理素材、配字幕等一系列工作，要想熟练地进行剪辑，必须掌握PR、Edius、剪映等多种剪辑软件，同时还需熟悉各种转场、调色、粒子特效等插件的使用。

如果想让视频呈现更丰富的效果，还要掌握b-roll转场、字幕遮罩、坡度变速等复杂的操作。

此外，素材的搜集和整理，也是剪辑工作中的一大“苦活”，倘若题材较为冷门，素材就会很不好找。有时尽管遇到了好的素材，也可能由于版权问题难以使用。

正是由于上述原因，视频剪辑，注定不是一个简单的、易于掌握的技能。

以国内知名网站B站为例，据一位B站上百万粉丝的UP主团队透露，为了保证视频更新的效率、质量，这些账号往往会配备数名较为熟练的剪辑人员，轮番进行剪辑。

那么，倘若有一种智能化的AI剪辑应用，能根据创作者想表达的思路，自动、高效地完成整个视频的制作，视频制作领域，又会发生怎样的颠覆呢？

实际上，这样的技术早已出现。

下面这两张图片，分别来自两段不同的视频片段。

你能分辨出哪个是真人，哪个是AI生成的吗？

答案是：这两个视频都是100%由AI生成的人像视频。

而它们均出自此前提到的HeyGen之手。

在HeyGen上，用户只需要用上传一段2分钟的小视频，就能达到和真人一样的效果，即使是像手势、面容和口型这种“细微肢体语言”也能调整。

而这类效果的实现，正是当下多模态技术发力的开端。

2 视频AI之力

上面所有这些视频都出自HeyGen的Joshua Avatar 2.0，一款AI人像视频的工具，主打的就是一个超逼真。

而实现这样真实的视频效果，步骤也非常简单，只需完成选形象—写文本—输出三个步骤即可。

如果要论HeyGen与其他同类视频AI应用最大的区别，就是它可以利用现有数据来创造全新和从未有过的内容。

以往的类似应用，例如D-ID，虽然也能让用户从照片或者AI形象中生成视频，但是这样的技术，更多是基于复制或处理已有的内容的AI技术。

相关推荐