GPT-4变笨引爆舆论！文本代码质量都下降，OpenAI刚刚回应了降本减料质疑

2023.06.02

来源：“量子位”（ID：QbitAI）

大模型天花板GPT-4，它是不是……变笨了？

先是少数用户提出质疑，随后大量网友表示自己也注意到了，还贴出不少证据。

有人反馈，把GPT-4的3小时25条对话额度一口气用完了，都没解决自己的代码问题。

无奈切换到GPT-3.5，反倒解决了。

总结下大家的反馈，最主要的几种表现有：

以前GPT-4能写对的代码，现在满是Bug

回答问题的深度和分析变少了

响应速度比以前快了

这就引起不少人怀疑，OpenAI是不是为了节省成本，开始偷工减料？

两个月前GPT-4是世界上最伟大的写作助手，几周前它开始变得平庸。我怀疑他们削减了算力或者把它变得没那么智能。

这就不免让人想起微软新必应“出道即巅峰”，后来惨遭“前额叶切除手术”能力变差的事情……‍‍‍‍‍‍‍‍‍

网友们相互交流自己的遭遇后，“几周之前开始变差”，成了大家的共识。

一场舆论风暴同时在Hacker News、Reddit和Twitter等技术社区形成。

这下官方也坐不住了。

OpenAI开发者推广大使Logan Kilpatrick，出面回复了一位网友的质疑：

API 不会在没有我们通知您的情况下更改。那里的模型处于静止状态。

不放心的网友继续追问确认“就是说GPT-4自从3月14日发布以来都是静态的对吧？”，也得到了Logan的肯定回答。

“我注意到对于某些提示词表现不一致，只是由于大模型本身的不稳定性吗？”，也得到了“Yes”的回复。

但是截至目前，针对网页版GPT-4是否被降级过的两条追问都没有得到回答，并且Logan在这段时间有发布别的内容。

那么事情究竟如何，不如自己上手测试一波。

对于网友普遍提到GPT-4写代码水平变差，我们做了个简单实验。

01 实测GPT-4“炼丹”本领下降了吗？

3月底，我们曾实验过让GPT-4“炼丹”，用Python写一个多层感知机来实现异或门。

△

让GPT-4改用numpy不用框架后，第一次给出的结果不对。

在修改两次代码后，运行得到了正确结果。第一次修改隐藏神经元数量，第二次把激活函数从sigmoid修改成tanh。

6月2日，我们再次尝试让GPT-4完成这个任务，但换成了中文提示词。

这回GPT-4第一次就没有使用框架，但给的代码仍然不对。

后续只修改一次就得到正确结果，而且换成了力大砖飞的思路，直接增加训练epoch数和学习率。

回答的文字部分质量也未观察到明显下降，但响应速度感觉确实有变快。

由于时间有限，我们只进行了这一个实验，且由于AI本身的随机性，也并不能否定网友的观察。

02 最早4月19日就有人反馈

我们在OpenAI官方Discord频道中搜索，发现从4月下旬开始，就不时有零星用户反馈GPT-4变差了。

但这些反馈并未引发大范围讨论，也没有得到官方正式回应。

5月31日，Hacker News和Twitter同天开始大量有网友讨论这个问题，成为整个事件的关键节点。

HackerNews一位网友指出，在GPT-4的头像还是黑色的时候更强，现在紫色头像版在修改代码时会丢掉几行。

在Twitter上较早提出这个问题的，是HyperWrite（一款基于GPT API开发的写作工具）的CEO，Matt Shumer。

但这条推文却引发了许多网友的共鸣，OpenAI员工回复的推文也正是针对这条。

不过这些回应并没让大家满意，反而讨论的范围越来越大。

比如Reddit上一篇帖子提到，原来能回答代码问题的GPT-4，现在连哪些是代码哪些是问题都分不出来了。

相关推荐