AI虚拟人冷思考:是代替人
紫东太初全模态大模型来了,一个模型打通感知、认知、决策交互屏障
作者:陈萍
现在,大模型的发展态势已经从单模态迅速转向多模态研究了。
就如 Hugging Face 联合创始人 Thomas Wolf 所说的:过去几年里,好的多模态模型一直是许多大型技术实验室的圣杯。
不仅如此,多模态也一直被学术界奉为达到通用人工智能的必经之路。就在不久前,OpenAI 的 CEO Sam Altman 透漏出一个重要消息,表明 2024 年 GPT-4 的发展方向也是奔着多模态去的。
一时之间,各大科技公司、机构争先入局多模态领域。国外如微软等机构提出可组合扩散模型 CoDi,但这种模型只能同时处理图片、文本、声音、视频 4 种模态,对传感信号、3D 点云等模态还无法处理。
在国内,作为早早布局多模态大模型的科研机构,中国科学院自动化研究所自 2019 年开始在语音、文本、图像等单模态大模型研究和应用的基础上,向多模态大模型攻关,并于 2021 年 7 月正式发布了全球首个千亿参数多模态大模型「紫东太初」。
今天上午,在人工智能框架生态峰会 2023 上,中国科学院自动化研究所和武汉人工智能研究院推出新一代大模型:全模态大模型「紫东太初 2.0」版本,依托华为全栈国产化软硬件平台昇腾 AI 与开源 AI 框架昇思 MindSpore,「紫东太初 2.0」在文本、图像、语音三模态的基础上,融入 3D 点云、视频、信号等更多模态数据,现已支持多轮问答、文本创作、图像生成、3D 理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。实现了真正意义上的任意输入,任意输出。可以说大模型的发展已经从单模态、多模态,进化到全模态赛道上了。
中国科学院自动化研究所所长徐波表示:「紫东太初 2.0 全模态大模型是自动化所持续探索可自主进化的通用人工智能道路上的里程碑。」
大会上,中国科学院自动化研究所(以下简称自动化所)还进行了现场演示,演示效果得到大家的一致好评,现场环节,观众还提出了自己问题,紫东太初都对答如流。例如,现场观众要求「生成竹林图片,中国国画风格」。从现场来看,紫东太初生成的竹林图片还不错。
除了现场演示外,机器之心也上手测试了紫东太初 2.0,下面我们看看这个全模态大模型到底有哪些能力。
紫东太初 2.0:一个模型打通全部模态
打开紫东太初 2.0,对话界面是这样的:
首先让紫东太初 2.0 做一段简短的自我介绍,并获知了它的数据日期:
接下来,机器之心从文本创作、知识问答、图文音理解、3D 理解、信号分析等多个方面对紫东太初 2.0 进行了全方位的测评。
文本创作
首先考察紫东太初 2.0 的文学创作能力。毋庸置疑,创作能力是每个对话大模型都要具备的重要能力之一,无论是生成诗歌、散文、剧本等。首先要求紫东太初「创作一篇关于夏天的散文,200 字」。从结果来看,紫东太初 2.0 的文笔还是不错的,字数也符合要求。
紫东太初 2.0 帮助招聘人员写招聘材料也不在话下,它能把公司的大体情况,职位要求都写的很清楚,以后写招聘文案的活可以放心的交给它了:
知识问答
文本创作能力对大模型来说是件很容易的事,接下来考察紫东太初 2.0 的知识问答能力,看它能否准确理解用户输入的问题语境,并实时地做出对应的知识性问答。
如今的大模型不仅要具备通用能力,还要有多样化的垂直专业能力,回答专业范畴内的问题(比如医学、天文地理、影视、哲学等等)。紫东太初 2.0 在这方面也做得很好:
此外,紫东太初 2.0 具备多语言能力,可以处理多语言任务,包括中文、英文、法文等。那么是否具备译者的基本能力呢?我们先让紫东太初 2.0 翻译了《再别康桥》节选片段,结果来看还不错。
接下来,我们在将问题难度提高,看看紫东太初 2.0 逻辑推理能力。测试下来,结果显而易见,它的头脑还是相当清醒的。对于蓝牙耳机坏了等问题,紫东太初没有陷入圈套,给出了正确的结果: