复制成功

分享至

主页 > 数字货币 >

大模型内卷升级,国产大模型力争多模态高地

2024.01.26

文章来源:大模型之家

随着1月23日,多模态AI概念股午后拉升,昆仑万维涨超10%,三六零、拓尔思、云从科技、汤姆猫等跟涨。到了24日,多模态AI概念股整体上涨0.81%,主力资金流出7.98亿元。

大模型内卷升级,国产大模型力争多模态高地

图源:网络

根据2024年的表现来看,在多模态大模型领域,风险远高于机会。多数投资者更愿意在股票价格上涨时卖出,以锁定利润,同时也有可能会因担忧未来的不确定性而选择离场。

但严寒注定退去,春天也必然带来温暖和新的开始,股价的浮动并不能阻止人工智能技术高速进步的脚步,多模态大模型的应用场景和价值正在不断扩展和提升。从语音识别、图像生成、自然语言理解、视频分析,到机器翻译、知识图谱、对话系统、内容创作,多模态大模型都能够提供更丰富、更智能、更人性化的服务和体验。

大模型之家发布的《工智能大模型产业创新价值研究报告》曾指出,随着传感器技术的发展和物联网的兴起,大量的多模态数据(如图像、视频、声音等)被广泛采集和应用。大模型将引发人工智能多模态、多场景的革命。大模型可以利用这些多模态数据进行跨模态学习,从而提升其在多个感知任务上的性能和表现。通过充分利用大模型的泛化能力、构建多模态数据集、解决融合和对齐问题,以及提供强大的计算资源支持。

大模型内卷升级,国产大模型力争多模态高地

图源:大模型之家

海外大厂齐发力,多模态大模型已成趋势

在近期比尔·盖茨与山姆·奥特曼的对话栏目中山姆·奥特曼就曾多次提及多模态大模型对于OpenAI的未来发展和商业化进场带来了很多期待。

大模型内卷升级,国产大模型力争多模态高地

图源:网络

当二人谈到对于OpenAI来讲下一阶段最重要的发展方向时,山姆·奥特曼表示语音输入和输出、图像输出以及最终的视频输出将成为公司重点发力的方向。据了解,在图像生成领域OpenAI的DALL-E 3已经可以依靠语音形式生成用户需求的内容,并且DALL-E现在可以控制生成的内容满足正确的价值观念、尊重知识产权以及保护用户隐私安全。

除DALL-E以外,OpenAI在针对GPT plus会员用户提供了众多基于GPT-4开发的插件产品,依靠ChatGPT得天独厚的数据优势,GPT plus会员可以使用的插件产品多达上百种,其中针对视频、图像、翻译等领域的应用都获得使用者广泛的好评。

不过,2024年的人工智能市场格局是否由OpenAI一家独大现在仍是未知数,山姆·奥特曼就曾明确的表示了ChatGPT在推理能力上的不足,并强调了提升模型可靠性的必要性。

事实上,山姆·奥特曼的担忧在23年底就以已现苗头。2023年年底Google DeepMind推出Gemini大模型,一时间在人工智能行业内引起了不小的震动。

并且,Gemini最出彩的地方则是多模态领域的表现。在官方介绍视频中,Gemini能够分析和理解正在变化的视频,并生成相应的描述。不仅如此,当提供文字介绍时,Gemini还通过音频形式对文字内容进行生动的复述,其中包含了一些拟人化的语气、停顿,以及富有趣味性的对话。这使得Gemini与用户的交流更加自然流畅。

大模型内卷升级,国产大模型力争多模态高地

图源:网络

谷歌计划将Gemini用于各种应用程序,如改进网络搜索、自然图像理解、OCR、医疗和护理教育、科学研究等。值得一提的是,在大模型之家体验集成了Gemini Pro的大模型Bard时也发现。Bard在图片处理方面也有着显著的提升。详情请参考《谷歌Gemini:挑战GPT只是序幕,颠覆英伟达才是最终目标》。

在国外大型科技企业纷纷加强在多模态领域布局的风头下,国内的大模型企业也并没有落下这一趋势。三六零董事长周鸿祎在关于2024大模型发展的十大趋势判断中明确表示:“多模态将成为大模型标配。以Gemini和GPT-4V版本为代表,多模态会成为大模型的标配,不仅能听会说,还能看懂图片和视频,能识别更能理解。”

齐头并进,国产大模型发力产业融合

中国大模型企业正在积极响应全球多模态大模型的发展趋势,加强在语音、图像和视频处理等方面的技术布局。这一趋势不仅推动了企业在创新领域的竞争力,也为用户提供了更加丰富和智能化的服务体验。

大模型内卷升级,国产大模型力争多模态高地

图源:网络

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier