真·大一统！AI2南邮校友等打造Unified-IO 2：首个视觉/语言/音频/动作多模态模型

2023.12.30

来源：新智元

首个视觉、语言、音频和动作多模态模型Unified-IO 2来了！它能够完成多种多模态的任务，在超过30个基准测试中展现出了卓越性能。

首个具备理解和创造图像、文本、音频以及动作能力的自回归多模态模型来了！

来自艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、华盛顿大学的学者提出了Unified-IO 2。

论文地址：https://arxiv.org/abs/2312.17172

为了整合不同类型的数据，研究人员将图像、文本、音频、动作等各种输入和输出转换成统一的语义表征，再通过一个统一的编解码器Transformer模型进行处理。

训练这样多样化的数据类型是极其复杂的，因此研究人员设计了多种架构优化方案，来提高模型的稳定性。

研究人员使用来自各种来源的大型多模态预训练语料库，通过具有去噪器目标的多模态混合，从头开始训练模型。

为了掌握如遵循多模态指令等广泛的技能，研究人员还特意构建并微调了一个包含120 个现有数据集的集合，并对其进行了扩展和优化。

Unified-IO 2作为一个统一的多功能模型，在GRIT基准测试中取得了SOTA，在超过30个基准测试中展现出了卓越的性能，包括图像生成与理解、文本理解、视频和音频理解以及机器人操作等领域。

研究人员会将这些模型开放给研究社区，共同推动科学研究的进展。

效果展示

Unified-IO 2能够完成多种多模态的任务：为图片添加标注，执行各种自由格式的指令，编辑图片，检测图中物体，进行图片的语义分割（semantic segmentation）、表面法线（surface normal）分析，以及根据图片生成音频等。

比如，输入一幅湖景，它就会给出眼前景象的描述。

你可以要求它给出更细节的描述，分享自己对此的个人印象，还能让它告诉你来这里游玩有哪些注意事项。

你可以让它根据眼前的景象生成一段音乐，让画风变得像闹鬼一样、把桥变成红色、把场景变成午夜或者日出、把画面变成达芬奇的画风，甚至把桥移除。

自然语言

在自然语言上，Unified-IO 2的性能也很强大。

它可以写一个python函数，来查找列表中最短的字符串：

写一个Python函数，找到小于n的所有偶数自然数的和：

给一份炒鸡蛋的食谱：

还能成功做出逻辑题。

前提: 「有人站在一栋建筑的外面。」
假设: 「站在建筑附近的人正在外面等他的朋友。」
请问这个假设能从前提中推断出来吗？请给出你的解释。

常识问题，都回答得很好，比如最后加入美国的州是哪个？

彩虹是怎么产生的？

甚至能读懂语句中很细微的暗示。比如「图片很漂亮，但缺乏实质性的东西」，这个产品评论是偏正面还是偏负面？

相关推荐