大模型内卷升级，国产大模型力争多模态高地

2024.01.26

文章来源：大模型之家

随着1月23日，多模态AI概念股午后拉升,昆仑万维涨超10%,三六零、拓尔思、云从科技、汤姆猫等跟涨。到了24日，多模态AI概念股整体上涨0.81%，主力资金流出7.98亿元。

图源：网络

根据2024年的表现来看，在多模态大模型领域，风险远高于机会。多数投资者更愿意在股票价格上涨时卖出，以锁定利润，同时也有可能会因担忧未来的不确定性而选择离场。

但严寒注定退去，春天也必然带来温暖和新的开始，股价的浮动并不能阻止人工智能技术高速进步的脚步，多模态大模型的应用场景和价值正在不断扩展和提升。从语音识别、图像生成、自然语言理解、视频分析，到机器翻译、知识图谱、对话系统、内容创作，多模态大模型都能够提供更丰富、更智能、更人性化的服务和体验。

大模型之家发布的《工智能大模型产业创新价值研究报告》曾指出，随着传感器技术的发展和物联网的兴起，大量的多模态数据（如图像、视频、声音等）被广泛采集和应用。大模型将引发人工智能多模态、多场景的革命。大模型可以利用这些多模态数据进行跨模态学习，从而提升其在多个感知任务上的性能和表现。通过充分利用大模型的泛化能力、构建多模态数据集、解决融合和对齐问题，以及提供强大的计算资源支持。

图源：大模型之家

海外大厂齐发力，多模态大模型已成趋势

在近期比尔·盖茨与山姆·奥特曼的对话栏目中山姆·奥特曼就曾多次提及多模态大模型对于OpenAI的未来发展和商业化进场带来了很多期待。

图源：网络

当二人谈到对于OpenAI来讲下一阶段最重要的发展方向时，山姆·奥特曼表示语音输入和输出、图像输出以及最终的视频输出将成为公司重点发力的方向。据了解，在图像生成领域OpenAI的DALL-E 3已经可以依靠语音形式生成用户需求的内容，并且DALL-E现在可以控制生成的内容满足正确的价值观念、尊重知识产权以及保护用户隐私安全。

除DALL-E以外，OpenAI在针对GPT plus会员用户提供了众多基于GPT-4开发的插件产品，依靠ChatGPT得天独厚的数据优势，GPT plus会员可以使用的插件产品多达上百种，其中针对视频、图像、翻译等领域的应用都获得使用者广泛的好评。

不过，2024年的人工智能市场格局是否由OpenAI一家独大现在仍是未知数，山姆·奥特曼就曾明确的表示了ChatGPT在推理能力上的不足，并强调了提升模型可靠性的必要性。

事实上，山姆·奥特曼的担忧在23年底就以已现苗头。2023年年底Google DeepMind推出Gemini大模型，一时间在人工智能行业内引起了不小的震动。

并且，Gemini最出彩的地方则是多模态领域的表现。在官方介绍视频中，Gemini能够分析和理解正在变化的视频，并生成相应的描述。不仅如此，当提供文字介绍时，Gemini还通过音频形式对文字内容进行生动的复述，其中包含了一些拟人化的语气、停顿，以及富有趣味性的对话。这使得Gemini与用户的交流更加自然流畅。

图源：网络

谷歌计划将Gemini用于各种应用程序，如改进网络搜索、自然图像理解、OCR、医疗和护理教育、科学研究等。值得一提的是，在大模型之家体验集成了Gemini Pro的大模型Bard时也发现。Bard在图片处理方面也有着显著的提升。详情请参考《谷歌Gemini：挑战GPT只是序幕，颠覆英伟达才是最终目标》。

在国外大型科技企业纷纷加强在多模态领域布局的风头下，国内的大模型企业也并没有落下这一趋势。三六零董事长周鸿祎在关于2024大模型发展的十大趋势判断中明确表示：“多模态将成为大模型标配。以Gemini和GPT-4V版本为代表，多模态会成为大模型的标配，不仅能听会说，还能看懂图片和视频，能识别更能理解。”

齐头并进，国产大模型发力产业融合

中国大模型企业正在积极响应全球多模态大模型的发展趋势，加强在语音、图像和视频处理等方面的技术布局。这一趋势不仅推动了企业在创新领域的竞争力，也为用户提供了更加丰富和智能化的服务体验。

图源：网络

大模型内卷升级，国产大模型力争多模态高地

加⼊OKEx全球社群

相关推荐