复制成功

分享至

主页 > 数字货币 >

太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代

2024.02.29

文章来源:钛媒体AGI

作者:林志佳


图片来源:由无界AI生成 图片来源:由无界AI生成


继美国OpenAI公司推出Sora引爆网络之后,中国互联网科技巨头阿里巴巴(Alibaba Group)如今已加紧追赶。

钛媒体AGI 获悉,2月28日,阿里巴巴集团智能计算研究院日前上线了一款新的 AI 图片-音频-视频模型技术EMO,官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。
太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代

据悉,你只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的 AI 视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。

比如,《狂飙》电视剧中“高启强”畅谈罗翔普法;蔡徐坤的一张图片,就能通过其他音频配合“唱出”一首rapper饶舌,连口型都几乎一模一样;甚至前不久OpenAI发布的Sora案例视频里面,一位 AI 生成的带墨镜的日本街头女主角,现在不仅能让她开口说话,而且还能唱出好听的歌曲。


太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代

B站鬼畜视频即将会被 AI 所取代。

阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。

同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。


太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代


技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。

该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,EMO的时间模块用于操纵时间维度,并调整运动速度。

目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。

GitHub:https://github.com/HumanAIGC/EMO

论文:https://arxiv.org/abs/2402.17485

事实上,过去一年,阿里巴巴在 AI 方面持续发力,包括阿里云推出通义千问、通义万相等多款对标 OpenAI 的 AI 大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfit Anyone、角色动画模型Animate Anyone等技术,实现多个场景应用。

今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布 Plus 和 Max 两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。

阿里方面称,相比于开源版本的 Qwen-VL,Plus 和 Max 版本模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。


太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代


钛媒体AGI了解到,目前阿里内部还在助力研发基于生成式 AI 技术的机器人、数字人以及Agent相关的技术应用。

另外,阿里是目前中国开源模型领域的大科技公司之一,创建并运营着中国 AI 模型开源社区“魔搭”。“魔搭”社区上线一年以来,模型下载量已突破1亿。早前阿里还发布了一站式大模型服务平台——阿里云“百炼”。

除了自研 AI 模型技术产品之外,阿里还推动投资一些 AI 大模型公司。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier