复制成功

分享至

主页 > 数字货币 >

文字序顺不响影GPT-4阅读理解,别的大模型都不行

2023.12.04

文章来源:量子位

文字序顺不响影GPT-4阅读理解,别的大模型都不行

图片来源:由无界 AI生成

研表究明,汉字序顺并不一定影响阅读(对于英文来说,则是每一个单词中的字母顺序)。

现在,日本东京大学的一项实验发现,这个“定理”居然也适合GPT-4。

比如面对这样一段“鬼画符”,几乎里面每一个单词的每一个字母都被打乱:

oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但GPT-4居然完美地恢复出了原始句子(红框部分):

文字序顺不响影GPT-4阅读理解,别的大模型都不行

原来是一个叫做Jon Rahm的人赢得了2023年美国大师赛(高尔夫)的故事。

并且,如果你直接就这段乱码对GPT-4进行提问,它也能先理解再给出正确答案,一点儿也不影响阅读:

文字序顺不响影GPT-4阅读理解,别的大模型都不行

对此,研究人员感到非常吃惊:

按理说乱码单词会对模型的tokenization处理造成严重干扰,GPT-4居然和人类一样不受影响,这有点违反直觉啊。

文字序顺不响影GPT-4阅读理解,别的大模型都不行

值得一提的是,这项实验也测试了其他大模型,但它们全都挑战失败——有且仅有GPT-4成功。

具体怎么说?


文字顺序不影响GPT-4阅读


为了测试大模型抗文字错乱干扰的能力,作者构建了一个专门的测试基准:Scrambled Bench。

它共包含两类任务:

一是加扰句子恢复(ScrRec),即测试大模型恢复乱序句子的能力。

它的量化指标包括一个叫做恢复率(RR)的东西,可以简单理解为大模型恢复单词的比例。

二是加扰问答(ScrQA),测量大模型在上下文材料中的单词被打乱时正确理解并回答问题的能力。

由于每个模型本身的能力并不相同,我们不好直接用准确性来评估这一项任务,因此作者在此采用了一个叫做相对性能增益(RPG)的量化指标。

具体测试素材则选自三个数据库:

一个是RealtimeQA,它每周公布当前LLM不太可能知道的最新消息;

第二个是DREAM(Sun et al.,2019),一个基于对话的多项选择阅读综合数据集;

最后是AQuARAT,一个需要多步推理才能解决的数学问题数据集。

对于每个数据集,作者从中挑出题目,并进行不同程度和类型的干扰,包括:
1、随机加扰(RS),即对每一个句子,随机选择一定比例(20%、50%、100%)的单词,对这些单词中的所有字母进行打乱(数字不变)。

2、保持每个单词的第一个字母不变,剩下的随意排列(KF)。

3、保持每个单词的首字母和最后一个字母不变,剩下的随机打乱(KFL)。

参与测试的模型有很多,文章正文主要报告了以下几个:

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。

首先来看不同干扰类型的影响。

如下图所示:

在KFL设置中(即首尾字母不变),不管是加扰句子恢复还是加扰问答任务,模型之间的性能差距都不大。

然而,随着干扰难度越来越高(变为KF和RS后),模型的性能都迎来显著下降——除了GPT-4。

具体而言,在加扰句子恢复(ScrRec)任务中,GPT-4的恢复率始终高于95%,在加扰问答(ScrQA)任务中,GPT-4的相对准确性也都始终维在85%-90%左右。

相比之下,其他模型有的都掉到了不足20%。

文字序顺不响影GPT-4阅读理解,别的大模型都不行

其次是不同加扰率的影响。

如下图所示,可以看到,在加扰句子恢复(ScrRec)任务中,随着一个句子中被干扰的单词数量越来越多,直至100%之后,只有GPT-3.5-turbo和GPT-4的性能没有显著变化,当然,GPT-4还是比GPT-3.5优先了很大一截。

文字序顺不响影GPT-4阅读理解,别的大模型都不行

而在加扰问答(ScrQA)任务中,随着句子中被打乱的单词数量越来越多,所有模型性能都出现了都显著下降,且差距越来越大。

但在其中,GPT-4还能以87.8%的成绩保持遥遥领先,并且下降幅度也是最轻微的。

所以简单总结来说就是:

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier