开源自主 AI 代理项目 Au
大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0
文章来源:新智元
ChatGPT之类的AI编码工具来势汹汹,Stack Overflow又裁员了!不过,普林斯顿和芝大竟发现,面对真实世界GitHub问题,GPT-4的解决率竟是0%。
Stack Overflow,已经被ChatGPT创飞了!
因为码农大量涌向ChatGPT、Github Copilot,Stack Overflow今天不得已宣布裁员100多人,几乎占员工人数的1/3。
所以,ChatGPT这类AI编码工具,真的要颠覆整个行业了?
不过最近,普林斯顿和芝大的一项研究发现,LLM想要替代码农,其实没那么容易。
论文地址:https://arxiv.org/abs/2310.06770
在2294个GitHub真实问题面前,GPT-4解决随机GitHub问题的通过率,竟然是0%!
而即使是最佳模型Claude 2,也只能解决其中的1.96%而已。
码农会因为ChatGPT而失业吗?答案是——目前绝对不会。
要么适应,要么灭亡
作为全世界每个开发者最爱的代码辅助网站,Stack Overflow在此前的形势还一片大好,在去年掀起了一场招聘狂潮,整个公司的员工人数都翻了一番,达到了540人。
然而,自从去年11月OpenAI发布了ChatGPT后,一切都变了。
AI聊天机器人提供的帮助,比5年前的论坛帖子更加具体。通过LLM,开发者可以即时更正确切的代码、优化建议,以及每行代码正在执行操作的说明。
虽说LLM提供的答案也并不是100%可靠,但代码具有独特的能力,只需在IDE集成开发环境中进行测试,即可立即验证代码了,这一切都使写代码成为了ChatGPT的理想用例。
因此,Stack Overflow的流量大大减少,ChatGPT、GPT-4驱动的Github Copilot等AI编程工具,都成为了码农的新去处。
今天,CEO Prashanth Chandrasekar宣布,Stack Overflow裁员一百多人,占员工总数的28%。
CEO对于裁员的解释是,宏观经济压力下,Stack Overflow在努力走上盈利之路,不断推出产品创新。
过河拆桥?
ChatGPT给Stack Overflow造成冲击这件事,最大讽刺之处在于,大语言模型的强大能力,很大程度上就是来自像Stack Overflow这样的抓取网站。
大语言模型吸空了这些数据,却不回馈任何东西,如果所有数据源都被迫赶出了这一业务,那时会发生什么?
现在,不少科技公司面前已经存在着迫在眉睫的问题:如果程序员减少,人造数据就会减少。
如果没有最新的数据,怎么训练新的AI模型呢?
想用我们的数据?拿钱来
Stack Overflow当然不能坐以待毙,它选择了两种方式自救——
一是开发自己的AI编码工具OverflowAI,二是直接和OpenAI这样的科技公司寻求合作,因为这些公司会使用Stack Overflow的数据构建AI模型。
据悉,OpenAI正在为ChatGPT开发网络爬虫控制,这样Stack Overflow这样的网站的数据就不会被爬取。
CEO表示,Stack Overflow已经表明了立场:谁想用我们的数据来训练LLM,谁就来付费。
CEO认为,像Stack Overflow这样的网站对于大语言模型的发展至关重要,为了进步,它们需要在新知识上进行训练。
Stack Overflow首席执行官Prashanth Chandrasekar
LLM想取代码农,还早着呢
所以,大语言模型真能取代码农吗?
普林斯顿和芝大团队发现,没那么容易!
在最新论文中,研究人员提出了一种全新框架SWE-bench,以评估大模型在解决2294个GitHub真实问题中的能力。
结果发现,像GPT-4、Claude 2这样领先的大模型,解决实际问题的能力,都不过5%。
再具体点,GPT-4可以解决随机GitHub问题的通过率竟是0%,而最佳模型Claude 2,也只能解决其中的1.96%。
更值得一提的是,在使用BM-25检索每个问题的相关代码文件时,Claude 2编写的补丁中只有23%是有效的(可以用于repo),只有~1%真正解决了问题。
此外,不同的模型,在解决12个流行的Python库问题的性能,也有所差异。
GPT-4大模型取得这样的结果,真是让人大跌眼镜,毕竟许多人都早已将其视为「编程利器」。
但要看清,AI真正的实力,不要被刷榜评分而陷入担忧。
有网友表示,这是对「码农是否因编程而失业」问题的最好的解答。