复制成功

分享至

主页 > 数字货币 >

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

2023.06.19

原文标题:《爆火的「GPT-4 MIT本科数学满分」论文作弊,数据集本身有问题》

这两天,一篇关于 GPT-4 满分通过麻省理工 MIT EECS 和数学本科考试的论文在推特上疯传。

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

论文地址:https://arxiv.org/pdf/2306.08997.pdf‌

简单概括,一个来自 MIT 的研究团队从自己学校的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中,整理出了一个包含 4550 个问题和解决方案的综合数据集。

然后,研究团队让各种大语言模型去完成这个数据集的题目,结果太吓人:GPT-3.5 能做对 1/3,GPT-4 几乎满分通过。

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

论文作者表示,提升模型表现主要靠「四件套」:Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示,加持 GPT-4 的手法越多,模型的答题正确率就越高。原始的 GPT-4 本来就能拿到 90% 的正确率得分,一番运作之后,甚至直接拿到满分。

但大部分讨论得很激烈的网友可能没注意到,这个分数本身就是用 GPT-4 打的……

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

三位同样来自 MIT 的学生第一时间发现了这篇论文,作为险些被 GPT-4 赶超的群体,他们想立即领会一下爆款论文的方法论。

研究了一小时后,他们对该论文的方法产生了怀疑。

两小时后,他们意识到:数据集本身有问题。

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题 GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

尽管原论文的作者宣称已手动审查了发布的数据集质量,但三人发现,有明显的迹象表明,测试数据集的很大一部分被污染了。

也就是说,模型就像一个学生在考试前被告知了答案,这是赤裸裸的「作弊」。

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

产生质疑后,他们立即着手在数据集上完成了零样本 GPT-4 的运行,并对数据的前 30% 进行了手动评分,结果与原论文相差甚远,应该说是一个天上、一个地下。

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

「作为麻省理工学院的本科生,至少根据我们的经验,这个测试集并不能准确地代表在麻省理工学院获得 EECS 学位所需的理解广度和深度。」三人在博客中这么写道。

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

最新进展:零样本 GPT-4 的准确率能达到 62.5% 了,但还是和论文里宣称的 90% 差很多。

三人还质疑了「过度宣传」的风潮:「这些论文通常在任何合法的同行评审之前就被上传到 Arxiv,并在 Twitter 上广泛分享。在这种情况下,可能会传播不良信息,并为未来的工作树立一个糟糕的先例。」

「深度学习」斗士 Gary Marcus 也不出意料地声援了这波质疑:

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

同时,三人也在博客中指出一点:《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》论文上列出的几个作者都是本科生研究人员,让这些人对工作中出现的任何失误负责是不合适的。相反,责任应该在指导作者身上 —— 他们才是被期望确保工作符合其领域内公共学术标准的人。

接下来让我们看下,这篇「爆火」论文都有哪些问题。


数据集到底有什么问题?


首先,从原论文中得知,研究者收集的数据集包含获得 MIT 学位考试所需的 30 门数学和 EECS 课程的 4550 个问题和相应的解决方案,涵盖核心课程和选修课程。

GPT-4 满分通过 MIT本科数学?恐怕是假的,数据集本身有问题

论文中写道:「在没有图像和有解决方案的问题中随机选择了 288 个问题的测试集。」

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier