BTC期权未平仓合约达到约
当Google的Gemini性能超越GPT-4,对创业者意味着什么?|投资人说
原文来源:阿尔法公社
图片来源:由无界 AI生成
真正能与GPT-4正面比拼性能的AI基础模型终于出现了。
北京时间12月7日凌晨,Google DeepMind发布了Gemini系列AI基础模型,它分为Gemini Ultra,Gemini Pro,Gemini Nano三个版本,其中Gemini Ultra在32个测试中的30个超越了之前的SOTA模型,Gemini Pro会成为Bard背后的模型,Gemini Nano则将搭载于Pixel 8 Pro,是一个定位在端侧的模型。
Gemini是一个原生多模态的模型,直接和GPT-4和GPT-4V对标,而且Google在安全性上经过了加强,它经过最全面安全评估,包括偏见和有害内容方面,还能防护包括网络攻击、“越狱”在内的潜在风险。
Google为开发者和企业客户推出了Google AI Studio和Vertex AI,Google AI Studio是一个免费的基于网络的开发者工具,开发者们可以利用API快速搭建AI应用,Vertex AI则允许企业用户定制Gemini,并完全控制数据。
Gemini是原生多模态大模型,大部分性能超越GPT-4
今年3月中旬,OpenAI的GPT-4发布,其性能对其他AI基础大模型呈现碾压之势,这让Google感到深刻的威胁。4月21日,Google将Google Brain和DeepMind两个最强大的AI实验室合并,集中精锐的研究力量,并让DeepMind的创始人Demis Hassabis来领导公司。
与OpenAI一样,Hassabis一直以来的愿景也是打造AGI,他在发布会中表示:“我始终相信,如果我们能够构建更智能的机器,就能利用它们以难以置信的方式造福人类。长期以来,我们一直希望构建新一代的人工智能模型,这些模型的灵感来自于人类理解和与世界互动的方式。这样的人工智能,感觉上不像是一款智能软件,更像是一种有用且直观的东西——一个专家助手或助理。”
高性能的原生多模态模型系列
Gemini系列AI基础模型分为Gemini Ultra,Gemini Pro,Gemini Nano三个版本。
其中Gemini Ultra适用于高度复杂的任务;Gemini Pro是性能和尺寸最平衡的版本,适用于多种任务的扩展;Gemini Nano则适用于端侧,可以直接搭载于移动设备。
不过Gemini Ultra还需要完成更严格的信任和安全检测,以及红队测试和RLHF,才能推向市场,它的上线时间会是2024年初,主要面对开发者和企业客户。
在性能方面,从自然图像、音频和视频理解到数学推理,GeminiUltra在32个广泛使用的学术基准测试中的30个上超越了当前的最先进结果。
其中Gemini Ultra以90.0%的成绩成为首个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该测试结合了数学、物理、历史、法律、医学和伦理等57个科目,用于测试世界知识和解决问题的能力。
此外,值得注意的是,在与推理、数学和编码等几个评判大模型真正能力的测试中,Gemini Ultra几乎是全面领先GPT-4的。
以下是Gemini的技术资料里更详细的对比,能够了解到Gemini Ultra和Gemini Pro与主流模型的性能差异。
在多模态能力的对比中,无论是图片,视频还是音频,Gemini Ultra也在大多数测试中超越了GPT-4V,这些测试凸显了Gemini的原生多模态特性,并表明了Gemini更复杂推理能力的早期迹象。
另外,在更复杂的MMMU基准测试中Gemini Ultra取得了领先的59.4%的得分,该基准测试包含了跨不同领域、需要深思熟虑的推理的多模态任务。
此前,创建多模态模型的标准方法涉及分别训练不同模态的组件,然后将它们拼接在一起以大致模仿这些功能。这些模型有时在执行某些任务(如描述图像)方面表现良好,但在更概念性和复杂的推理上则有所挣扎。
Gemini则是原生的多模态模型,它一开始就在不同的模态上进行预训练,然后Google再用额外的多模态数据对其进行了微调,以进一步提高其效果。这有助于Gemini从根本上无缝理解和推理各种输入。
这也使Gemini能够很好的理解文本、图像、音频等内容,能够适应更多的复杂应用需求。