BTC ETF截止日到来:SEC已收
GPT-5前瞻!艾伦人工智能研究所发布最强多模态模型,预测GPT-5新能力
文章来源:新智元
图片来源:由无界 AI生成
GPT-5何时到来,会有什么能力?
来自艾伦人工智能研究所(Allen Institute for AI)的新模型告诉你答案。
艾伦人工智能研究所推出的Unified-IO 2是第一个可以处理和生成文本、图像、音频、视频和动作序列的模型。
这个新的高级人工智能模型使用几十亿个数据点进行训练,虽然模型大小只有7B,却展现出迄今为止最广泛的多模态能力。
论文地址:https://arxiv.org/pdf/2312.17172.pdf
那么,Unified-IO 2和GPT-5有什么关系呢?
早在2022年6月,艾伦人工智能研究所就推出了第一代Unified-IO,它是首批能够处理图像和语言的多模态模型之一。
大约在同一时间,OpenAI正在内部测试GPT-4,并在2023年3月正式发布。
所以,Unified-IO可以看作是对于未来大规模AI模型的前瞻。
也就是说,OpenAI可能正在内部测试GPT-5,并将在几个月后发布。
而本次Unified-IO 2向我们展现的能力,也将是我们在新的一年可以期待的内容:
GPT-5等新的AI模型可以处理更多模态,通过广泛的学习以本地方式执行许多任务,并且对与物体和机器人的交互有基本的了解。
Unified-IO 2的训练数据包括:10亿个图像-文本对、1 万亿个文本标记、1.8亿个视频剪辑、1.3亿张带文本的图像、300万个3D资产和100万个机器人代理运动序列。
研究团队将总共120多个数据集组合成一个600 TB的包,涵盖220个视觉、语言、听觉和动作任务。
Unified-IO 2采用编码器-解码器架构,并进行了一些更改,以稳定训练并有效利用多模态信号。
模型可以回答问题、根据指令撰写文本、以及分析文本内容。
模型还可以识别图像内容,提供图像描述,执行图像处理任务,并根据文本描述创建新图像。
它还可以根据描述或说明生成音乐或声音,以及分析视频并回答有关视频的问题。
通过使用机器人数据进行训练,Unified-IO 2还可以为机器人系统生成动作,例如将指令转换为机器人的动作序列。
由于多模态训练,它还可以处理不同的模态,例如,在图像上标记某个音轨使用的乐器。
Unified-IO 2在超过35个基准测试中表现良好,包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操作。
在大多数任务中,它能够比肩专用模型,甚至更胜一筹。
在图像任务的GRIT基准测试中,Unified-IO 2获得了目前的最高分(GRIT用于测试模型如何处理图像噪声和其他问题)。
研究人员现在计划进一步扩展Unified-IO 2,提高数据质量,并将编码器-解码器模型,转换为行业标准的解码器模型架构。
Unified-IO 2
Unified-IO 2是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。
为了统一不同的模态,研究人员将输入和输出(图像、文本、音频、动作、边界框等)标记到一个共享的语义空间中,然后使用单个编码器-解码器转换器模型对其进行处理。
由于训练模型所采用的数据量庞大,而且来自各种不同的模态,研究人员采取了一系列技术来改进整个训练过程。
为了有效地促进跨多种模态的自监督学习信号,研究人员开发了一种新型的去噪器目标的多模态混合,结合了跨模态的去噪和生成。
还开发了动态打包,可将训练吞吐量提高4倍,以处理高度可变的序列。
为了克服训练中的稳定性和可扩展性问题,研究人员在感知器重采样器上做了架构更改,包括2D旋转嵌入、QK归一化和缩放余弦注意力机制。