大模型无法替代码农！普林斯顿芝大惊人发现：GPT-4解决GitHub编程问题成功率为0

2023.10.17

文章来源：新智元

ChatGPT之类的AI编码工具来势汹汹，Stack Overflow又裁员了！不过，普林斯顿和芝大竟发现，面对真实世界GitHub问题，GPT-4的解决率竟是0%。

Stack Overflow，已经被ChatGPT创飞了！

因为码农大量涌向ChatGPT、Github Copilot，Stack Overflow今天不得已宣布裁员100多人，几乎占员工人数的1/3。

所以，ChatGPT这类AI编码工具，真的要颠覆整个行业了？

不过最近，普林斯顿和芝大的一项研究发现，LLM想要替代码农，其实没那么容易。

论文地址：https://arxiv.org/abs/2310.06770

在2294个GitHub真实问题面前，GPT-4解决随机GitHub问题的通过率，竟然是0%！

而即使是最佳模型Claude 2，也只能解决其中的1.96%而已。

码农会因为ChatGPT而失业吗？答案是——目前绝对不会。

要么适应，要么灭亡

作为全世界每个开发者最爱的代码辅助网站，Stack Overflow在此前的形势还一片大好，在去年掀起了一场招聘狂潮，整个公司的员工人数都翻了一番，达到了540人。

然而，自从去年11月OpenAI发布了ChatGPT后，一切都变了。

AI聊天机器人提供的帮助，比5年前的论坛帖子更加具体。通过LLM，开发者可以即时更正确切的代码、优化建议，以及每行代码正在执行操作的说明。

虽说LLM提供的答案也并不是100%可靠，但代码具有独特的能力，只需在IDE集成开发环境中进行测试，即可立即验证代码了，这一切都使写代码成为了ChatGPT的理想用例。

因此，Stack Overflow的流量大大减少，ChatGPT、GPT-4驱动的Github Copilot等AI编程工具，都成为了码农的新去处。

今天，CEO Prashanth Chandrasekar宣布，Stack Overflow裁员一百多人，占员工总数的28%。

CEO对于裁员的解释是，宏观经济压力下，Stack Overflow在努力走上盈利之路，不断推出产品创新。

过河拆桥？

ChatGPT给Stack Overflow造成冲击这件事，最大讽刺之处在于，大语言模型的强大能力，很大程度上就是来自像Stack Overflow这样的抓取网站。

大语言模型吸空了这些数据，却不回馈任何东西，如果所有数据源都被迫赶出了这一业务，那时会发生什么？

现在，不少科技公司面前已经存在着迫在眉睫的问题：如果程序员减少，人造数据就会减少。

如果没有最新的数据，怎么训练新的AI模型呢？

想用我们的数据？拿钱来

Stack Overflow当然不能坐以待毙，它选择了两种方式自救——

一是开发自己的AI编码工具OverflowAI，二是直接和OpenAI这样的科技公司寻求合作，因为这些公司会使用Stack Overflow的数据构建AI模型。

据悉，OpenAI正在为ChatGPT开发网络爬虫控制，这样Stack Overflow这样的网站的数据就不会被爬取。

CEO表示，Stack Overflow已经表明了立场：谁想用我们的数据来训练LLM，谁就来付费。

CEO认为，像Stack Overflow这样的网站对于大语言模型的发展至关重要，为了进步，它们需要在新知识上进行训练。

Stack Overflow首席执行官Prashanth Chandrasekar

LLM想取代码农，还早着呢

所以，大语言模型真能取代码农吗？

普林斯顿和芝大团队发现，没那么容易！

在最新论文中，研究人员提出了一种全新框架SWE-bench，以评估大模型在解决2294个GitHub真实问题中的能力。

结果发现，像GPT-4、Claude 2这样领先的大模型，解决实际问题的能力，都不过5%。

再具体点，GPT-4可以解决随机GitHub问题的通过率竟是0%，而最佳模型Claude 2，也只能解决其中的1.96%。

更值得一提的是，在使用BM-25检索每个问题的相关代码文件时，Claude 2编写的补丁中只有23%是有效的（可以用于repo），只有~1%真正解决了问题。

此外，不同的模型，在解决12个流行的Python库问题的性能，也有所差异。

GPT-4大模型取得这样的结果，真是让人大跌眼镜，毕竟许多人都早已将其视为「编程利器」。

但要看清，AI真正的实力，不要被刷榜评分而陷入担忧。

有网友表示，这是对「码农是否因编程而失业」问题的最好的解答。

相关推荐