复制成功

分享至

主页 > 数字货币 >

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

2023.12.09
大模型巅峰对决开启,Gemini和GPT-4展开大pk!代码和数学Gemini惨遭GPT-4碾压,但要论讲笑话和写作,它的答案却意外的好笑。

原文来源:新智元

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

图片来源:由无界 AI生成

被谷歌寄予厚望的复仇杀器Gemini,是否能够如愿单挑ChatGPT?

最近几天,外媒记者和网友们纷纷放出实测,比较了Gemini Pro加持的新Bard与GPT-3.5和GPT-4的各项性能。

先说结果——ChatGPT略胜一筹,但Gemini进步巨大。

虽然宣传手段有一些夸大的成分,但谷歌确实靠Gemini在LLM大战中挽回了一些颓势。

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

而且,现在双方都还捂着杀手锏没有放出来,真正的巅峰对决,恐怕要等Gemini Ultra或者集成了OpenAI神秘Q*技术的新模型出场后了。

超大杯还没来,大杯临时顶上

需要强调的是,此次出战的选手Gemini Pro只是「二弟」,因为号称「在32个广泛使用的学术基准测试中击败GPT-4」的老大哥Gemini Ultra还未放出。

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

而且,由于目前只有纯文本提示用上了Gemini Pro。

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

所以,Bard暂时还没有得到加持的图像理解能力,依然很拉跨……

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压 谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

来源:马里兰大学博士生Fuxiao Liu

顶级模型的内卷

早在4月,就有许多人做过PaLM支持的Bard和GPT-4的pk,当时的结果是GPT-4七局五胜,略胜Bard一筹。

这次对决中,也考虑进了Bard在四月的结果,因此可以用来衡量几个月来谷歌的进步速度。

这些测试虽不够全面,但也提供了一个很好的基准,可以用来判断这些AI聊天助手在普通用户日常任务中的表现。

话不多说,现在开始!

代码编程

既然谷歌这次大吹特吹了全新的AlphaCode 2,那我们首先就来看看它们的编程水平如何。

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

题目:Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.

编写一个Python脚本,在其中输入「Hello World」,然后不停地随机创建一个重复字符串。

PaLM Bard的答案:

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

首先,初代的Bard非常简陋,并不能生成代码。

不过,谷歌后来在6月的时候,给它加上了这个功能。(但并没有针对这个题目进行过测试)

Gemini Pro Bard的答案:

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

可以看到,新版Bard生成的代码没什么大问题,但需要在前面添加一个import string才能运行。

好在,这个bug很容易解决。

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

然而,不知道是因为好奇网友太多导致负荷超载,还是系统本身就不稳定。

针对这道题,Bard在大部分时候都会先「沉默」30秒,然后返回错误提示:「抱歉,出了点岔子,Bard目前还处在试验阶段」。

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

GPT-3.5的答案:

谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier