维基百科+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%

2024.01.03

来源：新智元

图片来源：由无界 AI生成

大模型固有的幻觉问题严重影响了LLM的表现。斯坦福最新研究利用维基百科数据训练大模型，得到的WikiChat成为首个几乎不产生幻觉的聊天机器人。

大语言模型的幻觉问题被解决了！

近日，来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的聊天机器人！

论文发表在EMNLP 2023，并且在Github上开源了代码：

论文地址：https://aclanthology.org/2023.findings-emnlp.157.pdf

项目代码：https://github.com/stanford-oval/WikiChat

作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性，而相比之下，GPT-4的得分仅为66.1%。

在「recent」和「tail」两个知识子集中，这个差距甚至更大。

另外，作者还发现了检索增强生成（RAG）的几个缺点，并添加了几个重要步骤，以进一步减轻幻觉，并改进「对话性」指标。

通过这些优化，WikiChat在事实性方面比微调后的SOTA RAG模型Atlas高出8.5%，

在相关性、信息性、自然性、非重复性和时间正确性方面也大大领先。

最后，作者将基于GPT-4的WikiChat提炼成7B参数的LLaMA，这个模型在事实准确性方面仍然能拿到91.1%的高分，

并且运行速度提高了6.5倍，能效更好，可以本地部署。

大模型+维基百科，一起击败幻觉

众所周知，LLM的幻觉问题由来已久、根深蒂固，

而且曾给各家的大语言模型都造成过不同程度的影响。

基于LLM使用概率来推断输出的原理，幻觉这个问题很难彻底解决，

研究人员们为此投入大量的心血，小编也是很期待这个WikiChat的表现！

WikiChat，顾名思义，就是基于维基百科的知识进行训练，听起来还挺靠谱的。

除了论文和代码，研究团队还部署了可以直接对话的demo供大家测试，好文明！

Demo地址：https://wikichat.genie.stanford.edu/

于是小编迫不及待地要试一试WikiChat的实力。

WikiChat首先进行了自我介绍，表示自己会记录对话用于研究，

另外，WikiChat有以下三种模式：

默认状态是平衡输出速度和准确性，我们可以在右边的设置中调节。

WikiChat还额外添加了TTS功能，输出是个温柔的女声。

好了，让我们赶紧「Ask her about anything on Wikipedia」！

——开个玩笑，既然你不会中文，那小编这点英文水平，只能献丑了......

（注意上面的这句中文不要点击语音输出，有可能导致整个聊天卡住无法恢复）

下面，我们首先问一个常识性问题：Sam Altman是OpenAI的CEO吗？

其实小编想测试她知不知道Altman被开除，然后又王者归来这件事，

不过这一句「在2020年离开YC，全职加入OpenAI」，貌似就有事实性的错误。

小编接下来使用游戏信息进行测试：介绍一下「原神」中的「宵宫」。

这个回答确实没什么问题，卡池时间和配音演员也正确，

既然提到了配音演员，那顺便问一下中文CV是谁：

相关推荐