当Google的Gemini性能超越GPT-4，对创业者意味着什么？

当Google的Gemini性能超越GPT-4，对创业者意味着什么？｜投资人说

2023.12.08

原文来源：阿尔法公社

图片来源：由无界 AI生成

真正能与GPT-4正面比拼性能的AI基础模型终于出现了。

北京时间12月7日凌晨，Google DeepMind发布了Gemini系列AI基础模型，它分为Gemini Ultra，Gemini Pro，Gemini Nano三个版本，其中Gemini Ultra在32个测试中的30个超越了之前的SOTA模型，Gemini Pro会成为Bard背后的模型，Gemini Nano则将搭载于Pixel 8 Pro，是一个定位在端侧的模型。

Gemini是一个原生多模态的模型，直接和GPT-4和GPT-4V对标，而且Google在安全性上经过了加强，它经过最全面安全评估，包括偏见和有害内容方面，还能防护包括网络攻击、“越狱”在内的潜在风险。

Google为开发者和企业客户推出了Google AI Studio和Vertex AI，Google AI Studio是一个免费的基于网络的开发者工具，开发者们可以利用API快速搭建AI应用，Vertex AI则允许企业用户定制Gemini，并完全控制数据。

Gemini是原生多模态大模型，大部分性能超越GPT-4

今年3月中旬，OpenAI的GPT-4发布，其性能对其他AI基础大模型呈现碾压之势，这让Google感到深刻的威胁。4月21日，Google将Google Brain和DeepMind两个最强大的AI实验室合并，集中精锐的研究力量，并让DeepMind的创始人Demis Hassabis来领导公司。

与OpenAI一样，Hassabis一直以来的愿景也是打造AGI，他在发布会中表示：“我始终相信，如果我们能够构建更智能的机器，就能利用它们以难以置信的方式造福人类。长期以来，我们一直希望构建新一代的人工智能模型，这些模型的灵感来自于人类理解和与世界互动的方式。这样的人工智能，感觉上不像是一款智能软件，更像是一种有用且直观的东西——一个专家助手或助理。”

高性能的原生多模态模型系列

Gemini系列AI基础模型分为Gemini Ultra，Gemini Pro，Gemini Nano三个版本。

其中Gemini Ultra适用于高度复杂的任务；Gemini Pro是性能和尺寸最平衡的版本，适用于多种任务的扩展；Gemini Nano则适用于端侧，可以直接搭载于移动设备。

不过Gemini Ultra还需要完成更严格的信任和安全检测，以及红队测试和RLHF，才能推向市场，它的上线时间会是2024年初，主要面对开发者和企业客户。

在性能方面，从自然图像、音频和视频理解到数学推理，GeminiUltra在32个广泛使用的学术基准测试中的30个上超越了当前的最先进结果。

其中Gemini Ultra以90.0%的成绩成为首个在MMLU（大规模多任务语言理解）上超越人类专家的模型，该测试结合了数学、物理、历史、法律、医学和伦理等57个科目，用于测试世界知识和解决问题的能力。

此外，值得注意的是，在与推理、数学和编码等几个评判大模型真正能力的测试中，Gemini Ultra几乎是全面领先GPT-4的。

以下是Gemini的技术资料里更详细的对比，能够了解到Gemini Ultra和Gemini Pro与主流模型的性能差异。

在多模态能力的对比中，无论是图片，视频还是音频，Gemini Ultra也在大多数测试中超越了GPT-4V，这些测试凸显了Gemini的原生多模态特性，并表明了Gemini更复杂推理能力的早期迹象。

另外，在更复杂的MMMU基准测试中Gemini Ultra取得了领先的59.4%的得分，该基准测试包含了跨不同领域、需要深思熟虑的推理的多模态任务。

此前，创建多模态模型的标准方法涉及分别训练不同模态的组件，然后将它们拼接在一起以大致模仿这些功能。这些模型有时在执行某些任务（如描述图像）方面表现良好，但在更概念性和复杂的推理上则有所挣扎。

Gemini则是原生的多模态模型，它一开始就在不同的模态上进行预训练，然后Google再用额外的多模态数据对其进行了微调，以进一步提高其效果。这有助于Gemini从根本上无缝理解和推理各种输入。

这也使Gemini能够很好的理解文本、图像、音频等内容，能够适应更多的复杂应用需求。

当Google的Gemini性能超越GPT-4，对创业者意味着什么？｜投资人说

加⼊OKEx全球社群

相关推荐