币安新任CEO首次中文AMA:
全英文测试Gemini Pro,玩梗、猜电影、看图说话都能搞定,可是数学犯迷糊
文章来源:AI先锋官
作者:杨文
编辑:六耳
图片来源:由无界 AI生成
上周谷歌祭出大杀器Gemini的宣传片,惊艳了众人。不过随之而来的就是质疑声:演示视频有特意制作和剪辑的成分,测试里使用了些“春秋手法”等。(详细内容请查看:爆火的Gemini演示视频遭质疑“造假”,谷歌DeepMind高管发文释疑)
为了满足不同场景和需求,Gemini推出了三种不同规模的版本——Ultra、Pro和Nano。谷歌Bard聊天机器人已集成Gemini Pro,最强版本Ultra将于明年上线。
我们也在第一时间,将引入Gemini Pro版本的Bard与GPT-4进行对比评测。
不过有网友提出,Gemini Pro对标的是GPT-3.5,而且更新后的Bard只支持英文。
为了测评的严谨性,我们这次将全程用英文来评测Gemini Pro,并让其与ChatGPT进行PK。
01 多模态实力如何?
多模态能力是谷歌Gemini的一大亮点,由于能力最强的Gemini Ultra明年才能上线,今天我们今天就拿Gemini Pro来尝试一波。
1.以子之矛攻子之盾
首先,我们从谷歌Gemini的宣传片截了几张图,让Gemini Pro来描述图像。以下是Gemini Pro的回答:
图1:这幅图画的是什么?
图2:图上的鸭子是什么颜色?
图1小编上传了鸭子的简笔画,并询问“这幅图画的是什么?”Gemini Pro不仅描述了图中鸭子的形态,还补充了绘画风格、角度、构图等细节。
图2小编问“图上的鸭子是什么颜色?”Gemini Pro识别出蓝色后,还对此做了一番评论,猜测“艺术家选择了一种非传统的颜色描绘鸭子”或许是“为了创造一个更独特和引人瞩目的形象”。
2.猜电影剧照
接下来,小编又让Gemini Pro猜电影剧照。
小编上传了电影《赎罪》中的剧照,让Gemini Pro猜这是哪部电影。
可惜的是,Gemini Pro自动屏蔽了这张剧照,并称“我不能帮你处理人物图像”。
小编询问其中原因,Gemini Pro回答“这与我目前的能力和伦理考虑有关”。据Gemini Pro解释,它的训练书库主要由文本和代码组成,很少接触图像,尤其是人的图像,这限制了理解和解释视觉信息的能力;此外,还有隐私、偏见与公平以及谷歌的道德准则等因素。
谷歌的Slogan是“Do not be evil”(不作恶),在人工智能领域,谷歌也强调“安全”。
小编上传了一张龙猫的图片,这次Gemini Pro没有“罢工”,猜出图片出自宫崎骏动漫电影《龙猫》,还介绍了这部动漫的故事大纲。
小编又喂了一张《布达佩斯大饭店》的剧照,Gemini Pro依然智商在线,不仅回答正确,而且还给出了这部电影的海报以及相关链接。
3.玩梗
表情包将各种元素杂糅在一起,往往具有幽默性、夸张性、娱乐性等特点,理解这类表情包更有难度。
小编丢给Gemini Pro一张满眼美刀的熊猫梗图,Gemini Pro不仅能准确描述画面,还能察觉到背后隐藏的含义。
4.拍照做题