给大模型评分的基准靠谱吗？Anthropic来了次大评估

2023.11.05

文章来源：机器之心

在大模型（LLM）盛行的当下，评估 AI 系统成为了重要的一环，在评估过程中都会遇到哪些困难，Anthropic 的一篇文章为我们揭开了答案。

图片来源：由无界 AI生成

现阶段，大多数围绕人工智能（AI）对社会影响的讨论可归结为 AI 系统的某些属性，例如真实性、公平性、滥用的可能性等。但现在面临的问题是，许多研究人员并没有完全意识到建立稳健可靠的模型评估是多么困难。当今许多现有的评估套件在各个方面的表现都很有限。

AI 初创公司 Anthropic 近日在其官方网站上贴出了一篇文章《评估 AI 系统所面临的挑战》。文中写道，他们花了很长的时间来构建对 AI 系统的评估，从而更好地理解 AI 系统。

文章地址：https://www.anthropic.com/index/evaluating-ai-systems

本文主要从以下几个方面展开讨论：

多项选择评估（Multiple choice evaluations）；

利用第三方评估框架，如 BIG-bench 和 HELM；

让工作人员来衡量模型是有益的还是有害的；

让领域专家对相关威胁进行红队分析（red team）；

使用生成式 AI 来开发评估方法；

与非营利组织合作，审核模型是否具有危害。

多项选择评估面临的挑战

多项选择评估看似简单，其实不然。本文讨论了模型在 MMLU（Measuring Multitask Language Understanding）和 BBQ（Bias Benchmark for QA）基准上的挑战。

MMLU 数据集

MMLU 是一个包含 57 个多选问答任务的英文评测数据集，涵盖数学、历史、法律等，是目前主流的 LLM 评测数据集。准确率越高，意味着模型的能力越强。但本文发现使用 MMLU 存在四个挑战：

1. 由于 MMLU 被广泛使用，因而就不可避免的遇到这种情况，模型在训练过程中更容易将 MMLU 数据纳入进来。这和学生在考试前看到题目是一样的 —— 这是作弊。

2. 对简单的格式变化敏感，例如将选项从 (A) 更改为 (1)，或者在选项和答案之间添加额外的空格，这些做法都可能导致评估准确率约有 5% 的浮动。

3. 一些开发人员有针对性的来提高 MMLU 分数，例如少样本学习或思维链推理。因此，在比较各个实验室的 MMLU 分数时必须非常小心。

4.MMLU 可能没有经过仔细的校对 —— 有研究者在 MMLU 中发现了标签错误或无法回答的例子。

由于上述问题，因而在进行这种简单且标准化的评估时，有必要事先做出判断和思考。本文表明，在使用 MMLU 中遇到的挑战通常也适用于其他类似的多项选择评估。

BBQ

多项选择评估还可以衡量一些 AI 危害。具体而言，Anthropic 的研究者为了在自家模型 Claude 中衡量这些危害，他们使用了 BBQ 基准（用于评估模型对人群偏见的常用基准）。在将此基准与几个类似的评估进行比较后，本文才确信 BBQ 提供了一个很好的衡量社会偏见的方法。这项工作花了他们几个月的时间。

本文表示，实施 BBQ 比预期要困难得多。首先是找不到一个可用的 BBQ 开源实现，Anthropic 最好的工程师花了一个星期的时间来执行和测试评估。与 MMLU 中按照准确率评估不同，BBQ 中的 bias 得分需要细微差别和经验来定义、计算和解释。

BBQ bias 得分范围从 - 1 到 1，其中 1 表示有明显的刻板偏见，0 表示没有偏见，-1 表示有明显的反刻板偏见。在实现 BBQ 之后，本文发现一些模型 bias 得分为 0，这一结果也让研究者感到乐观，表明他们在减少有偏见的模型输出方面取得了进展。

第三方评估框架

最近，第三方一直在积极开发评估套件。到目前为止，Anthropic 已经参与了其中的两个项目：BIG-bench 和斯坦福大学的 HELM（Holistic Evaluation of Language Models）。尽管第三方评估看起来很有用，但这两个项目都面临新的挑战。

BIG-bench

BIG-bench 包含 204 项评估，由 450 多名研究者合作完成，涵盖从科学到社会推理的一系列主题。Anthropic 表示他们在使用这个基准时遇到了一些挑战：为了安装 BIG-bench，他们耗费了大量的时间。BIG-bench 不像 MMLU 那样即插即用 —— 它甚至比使用 BBQ 更多的努力来实施。

BIG-bench 无法有效的扩展，想要全部完成 204 项评估具有很大的挑战性。因而需要重新编写，以便与使用的基础设施很好地配合，工作量巨大。

此外，在实施过程中，本文发现评估中存在一些 bug，使用起来非常不便利，因此 Anthropic 的研究人员在这次实验后放弃了它。

HELM：自上而下地策划一组评估

给大模型评分的基准靠谱吗？Anthropic来了次大评估

加⼊OKEx全球社群

相关推荐