复制成功

分享至

主页 > 数字货币 >

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

2023.12.30

来源:新智元

首个视觉、语言、音频和动作多模态模型Unified-IO 2来了!它能够完成多种多模态的任务,在超过30个基准测试中展现出了卓越性能。

首个具备理解和创造图像、文本、音频以及动作能力的自回归多模态模型来了!

来自艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、华盛顿大学的学者提出了Unified-IO 2。

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

论文地址:https://arxiv.org/abs/2312.17172

为了整合不同类型的数据,研究人员将图像、文本、音频、动作等各种输入和输出转换成统一的语义表征,再通过一个统一的编解码器Transformer模型进行处理。

训练这样多样化的数据类型是极其复杂的,因此研究人员设计了多种架构优化方案,来提高模型的稳定性。

研究人员使用来自各种来源的大型多模态预训练语料库,通过具有去噪器目标的多模态混合,从头开始训练模型。

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

为了掌握如遵循多模态指令等广泛的技能,研究人员还特意构建并微调了一个包含120 个现有数据集的集合,并对其进行了扩展和优化。

Unified-IO 2作为一个统一的多功能模型,在GRIT基准测试中取得了SOTA,在超过30个基准测试中展现出了卓越的性能,包括图像生成与理解、文本理解、视频和音频理解以及机器人操作等领域。

研究人员会将这些模型开放给研究社区,共同推动科学研究的进展。


效果展示


Unified-IO 2能够完成多种多模态的任务:为图片添加标注,执行各种自由格式的指令,编辑图片,检测图中物体,进行图片的语义分割(semantic segmentation)、表面法线(surface normal)分析,以及根据图片生成音频等。

比如,输入一幅湖景,它就会给出眼前景象的描述。

你可以要求它给出更细节的描述,分享自己对此的个人印象,还能让它告诉你来这里游玩有哪些注意事项。

你可以让它根据眼前的景象生成一段音乐,让画风变得像闹鬼一样、把桥变成红色、把场景变成午夜或者日出、把画面变成达芬奇的画风,甚至把桥移除。

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

自然语言

在自然语言上,Unified-IO 2的性能也很强大。

它可以写一个python函数,来查找列表中最短的字符串:

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

写一个Python函数,找到小于n的所有偶数自然数的和:

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

给一份炒鸡蛋的食谱:

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

还能成功做出逻辑题。

前提: 「有人站在一栋建筑的外面。」
假设: 「站在建筑附近的人正在外面等他的朋友。」
请问这个假设能从前提中推断出来吗?请给出你的解释。
真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

常识问题,都回答得很好,比如最后加入美国的州是哪个?

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

彩虹是怎么产生的?

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

甚至能读懂语句中很细微的暗示。比如「图片很漂亮,但缺乏实质性的东西」,这个产品评论是偏正面还是偏负面?

真·大一统!AI2南邮校友等打造Unified-IO 2:首个视觉/语言/音频/动作多模态模型

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier