币安撤回阿布扎比牌照申
谷歌 VS OpenAI:当搜索霸主和屠龙少年迈入同一条河流
原文来源:硅基研究室
作者丨山核桃
图片来源:由无界 AI生成
鸽了太久的谷歌大模型 Gemini 终于来了。
北京时间12月6日,谷歌在深夜发布了此前备受科技圈关注的Gemini 1.0,不仅一口气推出了Ultra、 Pro 和 Nano 三个版本,同时也在应用层,Gemini 也与谷歌的生态相融合,例如类 ChatGPT 应用 Bard也已升级到了 Gemini Pro 版本,针对移动端的 Gemini Nano 版本也已接入谷歌旗下的智能手机Pixel 8。
在Gemini对外展现的各项能力测试中,也暗戳戳地剑指 OpenAI。谷歌提供的技术报告显示,在MMLU 90%(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分高达 90.0%,超过GPT-4的86.4%。同时,Gemini Ultra 在推理、数学、代码等方面的表现也都高过GPT-4。
而作为首个「原生多模态」模型,在一系列多模态基准测试中,对标GPT-4V,Gemini Ultra 也展现出了先进的性能。
图源:谷歌新闻稿
在chatGPT发布一周年之际,谷歌通过 Gemini 赶了个晚集,想要再度证明自己在AI时代「霸主候选人」的实力。而OpenAI 和谷歌,一个是经历了「宫斗」后的屠龙少年,另一个则是领先的搜索霸主,在关于谁究竟能成为大模型时代的最终赢家这一问题上,也存在两极分化的观点。
有人认为,在经历了风波之后的 OpenAI,解决了过往管理层的风险,凭借着与微软间的联盟,会持续扩大身位优势。而有的人则认为,AI时代未来仍将属于谷歌,尽管被质疑「行动缓慢」,但在应对巨大的外力挑战面前,谷歌总是能够出招给对手致命一击。
为了 Gemini ,谷歌有多拼?
正如英伟达资深科学家 Jim Fan 在社交媒体上所期待的:“我想要看到一群使用GPT-4的人和Gemini Ultra的人玩一局《太空狼人杀》,这将会是一场史诗级的对抗。”
图源:X 截图
为什么姗姗来迟的 Gemini 会被视为是 GPT-4 的有力劲敌,谷歌又为什么有底气在官方新闻稿直接写:“Gemini :我们规模最大、能力最强的 AI 模型”。原因其实有三点:
一是,Gemini 是原生多模态的,这也是与 GPT-4 形成差异的关键。GPT-4 尽管一种多模态模型,但 GPT-3.5 是一种自然语言处理模型。而 Gemini 从一开始就使用多模态数据(包括文字、音频、图片、视频、PDF文件等)进行了预训练和微调。
二是,多平台部署的灵活性,Ultra、 Pro 和 Nano,实现从数据中心到移动设备的高效运用。比如,谷歌已在升级Pixel 8 Pro使用了Gemini Nano,可提供总结与归纳手机语音等功能。
三是,基础设施的创新。Gemini是由谷歌 TPU V5e 和 TPU V4 训练,其中 TPU v5e 专为提供大中型训练与推理所需的成本效益和性能而设计。根据此前 Google Cloud Next 2023大会上的信息,TPU v5e 的成本不到 TPU v4 的一半,但可以让更多企业训练和部署更大、更复杂的AI模型。
Google 数据中心内一排 Cloud TPU v5p AI 加速器超级计算机。
除此以外,在训练过程中也展现出工程化创新。根据民生证券的分析,如将4096个 TPU V4 每个芯片连接到一个专用的光学交换机,可以在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点,对 Gemini Ultra 还有热维护等功能的针对性部署。
而 Gemini 所呈现出的能力跃升,得益于过去一段时间内谷歌的行动。我们来看看谷歌究竟做了什么:
一是,搭建超级团队。在今年4月,Google的CEO Sundar Pichai 就宣布合并DeepMind和Google Brain,成立Google DeepMind,集合Google在AI领域的人才、算力等资源,开启对标GPT-4的研究。当时,Google DeepMind CEO Demis Hassabis 在接受采访时就表示,当时他们所面临的问题是两个团队之中如何协调,形成一个「超级团队」。
Hassabis 曾在播客中表示:“我们作为一个领导小组讨论了大量需要考虑的因素,然后从中得出结论,并采取行动:包括合并、未来几年的计划是什么以及合并后的重点是什么?”。在这之中,灵魂人物的回归也起到了关键作用,比如谷歌联合创始人 Sergey Brin 就重返谷歌工作。根据外媒的报道,他通常每周到谷歌山景城的办公室工作三到四天,和研究人员密切合作,还研究AI程序「损失曲线」之类的问题。