全英文测试Gemini Pro，玩梗、猜电影、看图说话都能搞定，可是数学犯迷糊

2023.12.13

文章来源：AI先锋官

作者：杨文

编辑：六耳

图片来源：由无界 AI生成

上周谷歌祭出大杀器Gemini的宣传片，惊艳了众人。不过随之而来的就是质疑声：演示视频有特意制作和剪辑的成分，测试里使用了些“春秋手法”等。（详细内容请查看：爆火的Gemini演示视频遭质疑“造假”，谷歌DeepMind高管发文释疑）

为了满足不同场景和需求，Gemini推出了三种不同规模的版本——Ultra、Pro和Nano。谷歌Bard聊天机器人已集成Gemini Pro，最强版本Ultra将于明年上线。

我们也在第一时间，将引入Gemini Pro版本的Bard与GPT-4进行对比评测。

不过有网友提出，Gemini Pro对标的是GPT-3.5，而且更新后的Bard只支持英文。

为了测评的严谨性，我们这次将全程用英文来评测Gemini Pro，并让其与ChatGPT进行PK。

01 多模态实力如何？

多模态能力是谷歌Gemini的一大亮点，由于能力最强的Gemini Ultra明年才能上线，今天我们今天就拿Gemini Pro来尝试一波。

1.以子之矛攻子之盾

首先，我们从谷歌Gemini的宣传片截了几张图，让Gemini Pro来描述图像。以下是Gemini Pro的回答：

图1:这幅图画的是什么？

图2:图上的鸭子是什么颜色？

图1小编上传了鸭子的简笔画，并询问“这幅图画的是什么？”Gemini Pro不仅描述了图中鸭子的形态，还补充了绘画风格、角度、构图等细节。

图2小编问“图上的鸭子是什么颜色？”Gemini Pro识别出蓝色后，还对此做了一番评论，猜测“艺术家选择了一种非传统的颜色描绘鸭子”或许是“为了创造一个更独特和引人瞩目的形象”。

2.猜电影剧照

接下来，小编又让Gemini Pro猜电影剧照。

小编上传了电影《赎罪》中的剧照，让Gemini Pro猜这是哪部电影。

可惜的是，Gemini Pro自动屏蔽了这张剧照，并称“我不能帮你处理人物图像”。

小编询问其中原因，Gemini Pro回答“这与我目前的能力和伦理考虑有关”。据Gemini Pro解释，它的训练书库主要由文本和代码组成，很少接触图像，尤其是人的图像，这限制了理解和解释视觉信息的能力；此外，还有隐私、偏见与公平以及谷歌的道德准则等因素。

谷歌的Slogan是“Do not be evil”（不作恶），在人工智能领域，谷歌也强调“安全”。

小编上传了一张龙猫的图片，这次Gemini Pro没有“罢工”，猜出图片出自宫崎骏动漫电影《龙猫》，还介绍了这部动漫的故事大纲。

小编又喂了一张《布达佩斯大饭店》的剧照，Gemini Pro依然智商在线，不仅回答正确，而且还给出了这部电影的海报以及相关链接。

3.玩梗

表情包将各种元素杂糅在一起，往往具有幽默性、夸张性、娱乐性等特点，理解这类表情包更有难度。

小编丢给Gemini Pro一张满眼美刀的熊猫梗图，Gemini Pro不仅能准确描述画面，还能察觉到背后隐藏的含义。

4.拍照做题

相关推荐