复制成功

分享至

主页 > 数字货币 >

13B模型全方位碾压GPT-4?这背后有什么猫腻

2023.11.18
你的测试集信息在训练集中泄漏了吗?

原文来源:机器之心

13B模型全方位碾压GPT-4?这背后有什么猫腻

图片来源:由无界 AI生成

一个参数量为 13B 的模型竟然打败了顶流 GPT-4?就像下图所展示的,并且为了确保结果的有效性,这项测试还遵循了 OpenAI 的数据去污方法,更关键的是没有发现数据污染的证据。

13B模型全方位碾压GPT-4?这背后有什么猫腻

如果你细细查看图中的模型,发现只要带有「rephraser」这个单词,模型性能都比较高。

这背后到底有何猫腻?原来是数据污染了,即测试集信息在训练集中遭到泄漏,而且这种污染还不易被检测到。尽管这一问题非常关键,但理解和检测污染仍然是一个开放且具有挑战性的难题。

现阶段,去污最常用的方法是 n-gram 重叠和嵌入相似性搜索:N-gram 重叠依赖于字符串匹配来检测污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用预训练模型(例如 BERT)的嵌入来查找相似且可能受到污染的示例。

然而,来自 UC 伯克利、上海交通大学的研究表明测试数据的简单变化(例如,改写、翻译)就可以轻松绕过现有的检测方法。他们并将测试用例的此类变体称为「改写样本(Rephrased Samples)」。

下面演示了 MMLU 基准测试中的改写样本。结果证明,如果训练集中包含此类样本,13B 模型可以达到极高的性能 (MMLU 85.9)。不幸的是,现有的检测方法(例如,n-gram 重叠、嵌入相似性)无法检测到这种污染。比如嵌入相似性方法很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。

13B模型全方位碾压GPT-4?这背后有什么猫腻

通过类似的改写技术,本文在广泛使用的编码和数学基准测试中观察到一致的结果,例如 HumanEval 和 GSM-8K(如文章开头图中所示)。因此,能够检测此类改写样本变得至关重要。

接下来,我们看看这项研究是如何进行的。

13B模型全方位碾压GPT-4?这背后有什么猫腻 论文地址:https://arxiv.org/pdf/2311.04850.pdf 项目地址:https://github.com/lm-sys/llm-decontaminator#detect

论文介绍

文中表示,大模型(LLM)在快速发展的同时,关于测试集污染的问题被越来越多的重视起来,很多人对公共基准的可信度表示担忧。

为了解决这一问题,有些人采用传统的去污方法如字符串匹配(例如,n-gram 重叠)来删除基准数据,但这些操作还远远不够,因为对测试数据进行一些简单的更改(例如,改写、翻译)就可以轻松绕过这些净化措施。 

更重要的是,如果不消除测试数据的这种更改,13B 模型很容易过度拟合测试基准并实现与 GPT-4 相当的性能。他们在 MMLU、GSK8k 和 HumanEval 等基准测试中验证了这些观察结果。

同时为了解决这些日益增长的风险,本文还提出了一种更为强大的基于 LLM 的去污方法 LLM decontaminator,并将其应用于流行的预训练和微调数据集,结果表明,本文提出的 LLM 方法在删除改写样本方面明显优于现有方法。

这一做法也揭露了一些先前未知的测试重叠(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等预训练集中,本文发现 HumanEval 基准有 8-18% 重叠。此外,本文还在 GPT-3.5/4 生成的合成数据集中发现了这种污染,这也说明了在 AI 领域存在潜在的意外污染风险。

本文希望,社区在使用公共基准时采取更强有力的净化方法,并呼吁社区积极开发新的一次性测试(one-time exams)案例来准确评估模型。

改写样本

本文的目标是调查训练集中包含测试集的简单变化是否会影响最终的基准性能,并将测试用例的这种变化称为「改写样本」。实验中考虑了基准的各个领域,包括数学、知识和编码。示例 1 是来自 GSM-8k 的改写样本,其中有 10-gram 重叠无法检测到,修改后和原始文本保持相同的语义。

13B模型全方位碾压GPT-4?这背后有什么猫腻

基准污染具有不同的形式,因此改写技术存在一些细微的差异。对于基于文本的基准,本文在不改变语义的情况下改写测试用例,例如通过重新排列词序或用同义术语替换;对于基于代码的基准测试,本文改变编码风格、命名方式等。

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier