GPT-4 满分通过 MIT本科数学？恐怕是假的，数据集本身有问题

2023.06.19

原文标题：《爆火的「GPT-4 MIT本科数学满分」论文作弊，数据集本身有问题》

这两天，一篇关于 GPT-4 满分通过麻省理工 MIT EECS 和数学本科考试的论文在推特上疯传。

论文地址：https://arxiv.org/pdf/2306.08997.pdf‌

简单概括，一个来自 MIT 的研究团队从自己学校的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中，整理出了一个包含 4550 个问题和解决方案的综合数据集。

然后，研究团队让各种大语言模型去完成这个数据集的题目，结果太吓人：GPT-3.5 能做对 1/3，GPT-4 几乎满分通过。

论文作者表示，提升模型表现主要靠「四件套」：Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示，加持 GPT-4 的手法越多，模型的答题正确率就越高。原始的 GPT-4 本来就能拿到 90% 的正确率得分，一番运作之后，甚至直接拿到满分。

但大部分讨论得很激烈的网友可能没注意到，这个分数本身就是用 GPT-4 打的……

三位同样来自 MIT 的学生第一时间发现了这篇论文，作为险些被 GPT-4 赶超的群体，他们想立即领会一下爆款论文的方法论。

研究了一小时后，他们对该论文的方法产生了怀疑。

两小时后，他们意识到：数据集本身有问题。

尽管原论文的作者宣称已手动审查了发布的数据集质量，但三人发现，有明显的迹象表明，测试数据集的很大一部分被污染了。

也就是说，模型就像一个学生在考试前被告知了答案，这是赤裸裸的「作弊」。

产生质疑后，他们立即着手在数据集上完成了零样本 GPT-4 的运行，并对数据的前 30% 进行了手动评分，结果与原论文相差甚远，应该说是一个天上、一个地下。

「作为麻省理工学院的本科生，至少根据我们的经验，这个测试集并不能准确地代表在麻省理工学院获得 EECS 学位所需的理解广度和深度。」三人在博客中这么写道。

最新进展：零样本 GPT-4 的准确率能达到 62.5% 了，但还是和论文里宣称的 90% 差很多。

三人还质疑了「过度宣传」的风潮：「这些论文通常在任何合法的同行评审之前就被上传到 Arxiv，并在 Twitter 上广泛分享。在这种情况下，可能会传播不良信息，并为未来的工作树立一个糟糕的先例。」

「深度学习」斗士 Gary Marcus 也不出意料地声援了这波质疑：

同时，三人也在博客中指出一点：《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》论文上列出的几个作者都是本科生研究人员，让这些人对工作中出现的任何失误负责是不合适的。相反，责任应该在指导作者身上 —— 他们才是被期望确保工作符合其领域内公共学术标准的人。

接下来让我们看下，这篇「爆火」论文都有哪些问题。

数据集到底有什么问题？

首先，从原论文中得知，研究者收集的数据集包含获得 MIT 学位考试所需的 30 门数学和 EECS 课程的 4550 个问题和相应的解决方案，涵盖核心课程和选修课程。

论文中写道：「在没有图像和有解决方案的问题中随机选择了 288 个问题的测试集。」

GPT-4 满分通过 MIT本科数学？恐怕是假的，数据集本身有问题

数据集到底有什么问题？

加⼊OKEx全球社群

相关推荐