复制成功

分享至

主页 > 比特币 >

如何评估大语言模型是否可信?这里总结了七大维度

2023.10.11
本文提出 7 个主要关键维度来全面评估 LLM 可信度。

实际部署中,如何 “对齐”(alignment)大型语言模型(LLM,Large Language Model),即让模型行为与人类意图相一致 [2,3] 已成为关键任务。例如,OpenAI 在 GPT-4 发布之前,花了六个月时间进行对齐 [1]。然而,从业者面临的挑战是缺乏明确指导去评估 LLM 的输出是否符合社会规范、价值观和法规;这阻碍了 LLM 的迭代和部署。

为解决此问题,ByteDance Research 团队的刘扬等研究者提供了一个在关于评估 LLM 可信度时需要考虑的关键维度的全面调查。调查涵盖了 LLM 可信度的 7 个主要类别:可靠性(Reliability)、安全性(Safety)、公平性(Fairness)、抵抗滥用(Resistance to Misuse)、解释性和推理(Explainability & Reasoning)、遵循社会规范(Social Norm)和稳健性(Robustness)。

每个主要类别进一步细分为多个子类别,共 29 个子类别。此外,研究者选择了 8 个子类别进行相应的评测研究。评测结果表明,总体上,对齐度更高的模型在整体可信度方面表现得更好。然而,对齐的有效性在不同维度中表现不同。这说明需要对 LLM 对齐进行更细致的分析、测试和改进。本文旨在通过归纳可信任 LLM 的关键维度,为该领域的实践者提供有价值的见解和指导,这对了解如何在各应用中可靠合理地部署 LLM 至关重要。

如何评估大语言模型是否可信?这里总结了七大维度

论文地址:https://arxiv.org/abs/2308.05374


大语言模型对齐分类法


图一展示了本文提出的大语言模型可信度对齐分类法:共有 7 个主要类别,每个类别都被进一步细分为更详细的讨论,共 29 个子类别。文章继续对每个类别进行概述:

如何评估大语言模型是否可信?这里总结了七大维度

图一:文本提出的大语言模型可信度对齐分类法。

1.可靠性 => {虚假信息、语言模型幻觉、不一致、校准失误、谄媚} 

  • a.生成正确、真实且一致的输出,并具有适当的不确定性。
  • 2.安全性 => {暴力、违法、未成年人伤害、成人内容、心理健康问题、隐私侵犯} 

  • a.避免产生不安全和非法的输出,并避免泄露私人信息。
  • 3.公平性 => {不公正、刻板偏见、偏好偏见、性能差异} 

  • a.避免偏见并确保不同人群上性能差异不大。
  • 4.抵制滥用 => {宣传、网络攻击、社交工程、版权泄漏} 

  • a.禁止恶意攻击者滥用。
  • 5.可解释性和推理  => {解释能力不足、逻辑能力不足、 因果能力不足} 

  • a.向用户解释输出并正确推理的能力。
  • 6.社会规范 => {恶毒语言、情感迟钝、文化迟钝} 

  • a.反映普遍共享的人类价值观。
  • 7.稳健性 => {提示攻击、范式和分布变化、干预效果、投毒攻击} 

  • a.对抗性攻击和分布变化的抗性。
  • 本文的分析基于在大模型时代出现的安全和可信任部署挑战,也考虑了已有文献里对可信任人工智能的讨论。同时对主要类别的定义和划分参考了大模型在社会中的应用,尽量确保每个评估的维度在主流的大模型应用中有一定程度的相关性和重要性。具体每个类别及其子类别中的文献和讨论见文章。

    对于每个子类别,文章进行相关的调研和讨论,同时也提供了案例分析去阐述相关模型在相关可信任维度上的问题。比如,下面的例子给出了 ChatGPT 在事实类问题上的一些错误:

    如何评估大语言模型是否可信?这里总结了七大维度

    利用下面这个例子,本文讨论了大模型输出中可能存在的非法信息:

    如何评估大语言模型是否可信?这里总结了七大维度


    评测研究


    本文选择 8 个子类别并设计相应的评测研究。目标子类别包括:

  • 可靠性:语言模型幻觉
  • 安全性与社会规范:安全相关话题(例如暴力、歧视、仇恨言论等)
  • 公平性:(性别) 刻板印象 
  • 可靠性:校准失误
  • 抵制滥用:宣传和网络攻击的滥用
  • 抵制滥用:泄露版权
  • 可解释性:因果推理
  • 稳健性:对拼写错误攻击的稳健性
  • 文章以 “安全性与社会规范” 举例,首先从已有的 Anthropic RLHF red team 数据集 [4] 中提取一些安全性相关的关键词(细节见论文原文), 然后利用另外一个 LLM 生成不安全指令的引导词(prompt)作为测试问题。

    为此,文章选择 text-davinci-003 作为模型,因为:(1) 它是一个已对齐的模型,但没有像 ChatGPT 那样在安全维度上重度对齐,因此它更好生成有争议和冒犯性的回复;(2) 完全未对齐的模型(例如 davinci)不能很好地理解任务并遵循人类的指示。

    免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

    加⼊OKEx全球社群

    和全球数字资产投资者交流讨论

    扫码加入OKEx社群

    相关推荐

    industry-frontier