太炸裂了！阿里开发出 AI 图生视频模型EMO，“高启强”普法、蒙拉丽莎唱歌，B站鬼畜即将被AI取代

2024.02.29

文章来源：钛媒体AGI

作者：林志佳

图片来源：由无界AI生成

继美国OpenAI公司推出Sora引爆网络之后，中国互联网科技巨头阿里巴巴（Alibaba Group）如今已加紧追赶。

钛媒体AGI 获悉，2月28日，阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片-音频-视频模型技术EMO，官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。

太炸裂了！阿里开发出 AI 图生视频模型EMO，“高启强”普法、蒙拉丽莎唱歌，B站鬼畜即将被AI取代

据悉，你只需要提供一张照片和一段任意音频文件，EMO即可生成会说话唱歌的 AI 视频，以及实现无缝对接的动态小视频，最长时间可达1分30秒左右。表情非常到位，任意语音、任意语速、任意图像都可以一一对应。

比如，《狂飙》电视剧中“高启强”畅谈罗翔普法；蔡徐坤的一张图片，就能通过其他音频配合“唱出”一首rapper饶舌，连口型都几乎一模一样；甚至前不久OpenAI发布的Sora案例视频里面，一位 AI 生成的带墨镜的日本街头女主角，现在不仅能让她开口说话，而且还能唱出好听的歌曲。

B站鬼畜视频即将会被 AI 所取代。

阿里研究团队表示，EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频，同时，其可以根据输入视频的长度生成任意持续时间的视频。

同时，EMO还拥有音频驱动的人像视频生成，表情丰富的动态渲染，多种头部转向姿势支持、增加视频的动态性和真实感，支持多种语言和肖像风格，快速节奏同步，跨演员表现转换等多个特点与功能。

技术层面，阿里研究人员分享称，EMO框架使用 Audio2Video 扩散模型，生成富有表现力的人像视频。

该技术主要包括三个阶段：一是帧编码的初始阶段，ReferenceNet 用于从参考图像和运动帧中提取特征；二是在扩散过程阶段，预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成；三是使用主干网络来促进去噪操作。在主干网络中，应用了两种形式——参考注意力和音频注意力机制，这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外，EMO的时间模块用于操纵时间维度，并调整运动速度。

目前，EMO框架上线到GitHub中，相关论文也在arxiv上公开。

GitHub：https://github.com/HumanAIGC/EMO

论文：https://arxiv.org/abs/2402.17485

事实上，过去一年，阿里巴巴在 AI 方面持续发力，包括阿里云推出通义千问、通义万相等多款对标 OpenAI 的 AI 大模型产品，以及基于双流条件扩散模型的真人百变换装技术Outfit Anyone、角色动画模型Animate Anyone等技术，实现多个场景应用。

今年1月26日，阿里推出的Qwen-VL模型实现多次迭代升级，并宣布 Plus 和 Max 两大版本升级，支持以图像、文本作为输入，并以文本、图像、检测框作为输出，让大模型真正具备了“看”世界的能力。

阿里方面称，相比于开源版本的 Qwen-VL，Plus 和 Max 版本模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准，并大幅超越此前开源模型的最佳水平。

钛媒体AGI了解到，目前阿里内部还在助力研发基于生成式 AI 技术的机器人、数字人以及Agent相关的技术应用。

另外，阿里是目前中国开源模型领域的大科技公司之一，创建并运营着中国 AI 模型开源社区“魔搭”。“魔搭”社区上线一年以来，模型下载量已突破1亿。早前阿里还发布了一站式大模型服务平台——阿里云“百炼”。

除了自研 AI 模型技术产品之外，阿里还推动投资一些 AI 大模型公司。

太炸裂了！阿里开发出 AI 图生视频模型EMO，“高启强”普法、蒙拉丽莎唱歌，B站鬼畜即将被AI取代

加⼊OKEx全球社群

相关推荐