紫东太初全模态大模型来了，一个模型打通感知、认知、决策交互屏障

2023.06.18

作者：陈萍

现在，大模型的发展态势已经从单模态迅速转向多模态研究了。

就如 Hugging Face 联合创始人 Thomas Wolf 所说的：过去几年里，好的多模态模型一直是许多大型技术实验室的圣杯。

不仅如此，多模态也一直被学术界奉为达到通用人工智能的必经之路。就在不久前，OpenAI 的 CEO Sam Altman 透漏出一个重要消息，表明 2024 年 GPT-4 的发展方向也是奔着多模态去的。

一时之间，各大科技公司、机构争先入局多模态领域。国外如微软等机构提出可组合扩散模型 CoDi，但这种模型只能同时处理图片、文本、声音、视频 4 种模态，对传感信号、3D 点云等模态还无法处理。

在国内，作为早早布局多模态大模型的科研机构，中国科学院自动化研究所自 2019 年开始在语音、文本、图像等单模态大模型研究和应用的基础上，向多模态大模型攻关，并于 2021 年 7 月正式发布了全球首个千亿参数多模态大模型「紫东太初」。

今天上午，在人工智能框架生态峰会 2023 上，中国科学院自动化研究所和武汉人工智能研究院推出新一代大模型：全模态大模型「紫东太初 2.0」版本，依托华为全栈国产化软硬件平台昇腾 AI 与开源 AI 框架昇思 MindSpore，「紫东太初 2.0」在文本、图像、语音三模态的基础上，融入 3D 点云、视频、信号等更多模态数据，现已支持多轮问答、文本创作、图像生成、3D 理解、信号分析等全面问答任务，拥有更强的认知、理解、创作能力，带来全新互动体验。实现了真正意义上的任意输入，任意输出。可以说大模型的发展已经从单模态、多模态，进化到全模态赛道上了。

中国科学院自动化研究所所长徐波表示：「紫东太初 2.0 全模态大模型是自动化所持续探索可自主进化的通用人工智能道路上的里程碑。」