复制成功

分享至

主页 > 数字货币 >

智源的压轴模型:370亿参数“开源版Gemini”,能理解乱序图文输入,还能生成视频

2023.12.29

原文来源:GenAI新世界

作者|油醋

智源的压轴模型:370亿参数“开源版Gemini”,能理解乱序图文输入,还能生成视频

图片来源:由无界 AI‌生成

从OpenAI的GPT-4V到谷歌的Gemini,逼着AI写诗的人少了,多模态大模型(MLLM)成了新的香饽饽。一篇关于多模态大模型的综述很好的概括了其相比于LLM的优越:

MLLM更符合人类感知世界的方式。作者人类自然地接受多感官输入,这些输入往往是互补和合作的。因此,多模态信息有望使MLLM更加智能; MLLM提供了一个更用户友好的界面。得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流;
MLLM是一个更全面的任务解决者。虽然LLM通常可以执行NLP任务,但MLLM通常可以支持更大范围的任务。

于是相比于纯粹的Coding能力,人们更期待AI能直接把一个白板上的数学公式变成代码,能拆解一张复杂的电路图并且变成一份组装说明,甚至能自己给一段足球视频配上解说。

近日,智源研究院发布了新一代的多模态基础模型——Emu2。

以智源人工智能研究院的总工程师林咏华的话来说,这个瞩目的开源项目是智源视觉大模型团队的“年度压轴”。

今年8月,智源研究院提出了一种新的多模态大模型训练范式,发布并开源了首个打通从多模态输入到多模态输出的统一多模态预训练模型Emu。Emu发布4个月,在GitHub上积累了720颗星,而此次Emu2发布不到一周就收获了300颗星,这个项目现在的星标已经过千。

智源的压轴模型:370亿参数“开源版Gemini”,能理解乱序图文输入,还能生成视频

图源:GitHub

相较2023年7月发布(8月开源)的第一代「多模态to多模态」Emu模型,Emu2使用了更简单的建模框架,训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。

值得一提的是,Emu2是目前最大参数的开源生成式多模态模型。

它在大规模多模态序列上延续采用大量图、文、视频的序列,进行了统一的自回归目标训练,将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。从模型表现上来看,Emu2展示了强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,如视觉提示和基于对象的生成。在少样本设置下,Emu2在多个多模态理解任务中创造了新的记录。

智源的压轴模型:370亿参数“开源版Gemini”,能理解乱序图文输入,还能生成视频

图源:智源研究院

智源研究院的测试结果显示,Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

而当根据特定指令进行调整时,Emu2在大型多模态模型的问题回答基准测试和开放式主题驱动生成等具有挑战性的任务上进一步实现了新的最佳状态。

基于Emu2微调的Emu2-Chat和Emu2-Gen模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen可接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。

这些成就表明Emu2可以作为基础模型和通用接口,服务于广泛的多模态任务。代码和模型已公开,以促进未来的研究。目前Emu2的模型、代码均已开源,并提供Demo试用。

强势的理解和生成能力

通过对多模态理解和生成能力的定量评测,Emu2在包括少样本理解、视觉问答、主体驱动图像生成在内的多个任务上取得最优性能。在少样本评测上,Emu2在各个场景下显著超过Flamingo-80B,例如在16-shot TextVQA上较Flamingo-80B 超过12.7个点。

智源的压轴模型:370亿参数“开源版Gemini”,能理解乱序图文输入,还能生成视频

图源:智源研究院

经过指令微调的Emu2可以对图像和视频输入进行自由问答,以统一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余个图像和视频问答评测集上取得最优性能。

智源的压轴模型:370亿参数“开源版Gemini”,能理解乱序图文输入,还能生成视频

图源:智源研究院

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier