复制成功

分享至

主页 > 数字货币 >

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

2024.01.22

原文来源:机器之心

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

图片来源:由无界 AI生成

昨天,Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天,英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下,在 10 个对话 QA 数据集上的平均得分略胜于 GPT-4。

一年多来,ChatGPT 及后续产品引发了生产和研究社区中构建问答(QA)模型的范式转变。尤其是在实际应用中,QA 模型在以下情况成为首选:

用户能够以对话方式与 QA 模型进行交互,并可以轻松提出后续问题; 通才模型能够以零样本方式生成答案,无需针对数据集进行微调,同时媲美微调专家模型的准确度; QA 模型能够在开放域或长文档设置中集成检索到的证据块,提供的上下文比 LLM 的上下文窗口长得多。

不过对于研究界而言,构建一个能够媲美 GPT-4 等 SOTA 黑箱模型准确度的对话 QA 模型仍是一个巨大挑战。

近日,在英伟达的一篇论文中,研究者提出了一个具有 GPT-4 级别准确度的白箱对话 QA 模型 ChatQA 70B。他们采用了两阶段指令调优方法以及用于对话 QA 的 RAG 增强检索器、严格的数据管理过程。

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大 论文标题:ChatQA: Building GPT-4 Level Conversational QA Models 论文地址:https://huggingface.co/papers/2401.10225 论文标题:ChatQA: Building GPT-4 Level Conversational QA Models

具体来讲,本文主要做出了以下贡献:

提出了两阶段指令调优方法和数据集管理方法,它们大大增强了 LLM 在零样本对话 QA 任务中集成用户提供或检索上下文时的能力。本文方法显著优于常规指令调优或基于 RLHF 的方法(如 Llama-2-Chat)。 对于对话 QA 中的 RAG,展现出了在人类标注多轮 QA 数据集上微调 SOTA 单轮查询检索器的效果与使用基于 LLM 的 SOTA 查询重写模型(如 GPT-3.5-turbo)一样好。 基于 Llama2-7B、Llama2-13B、Llama2-70B 和内部 8B 预训练 GPT 构建了一系列 ChatQA 模型,并在 10 个对话 QA 数据集上进行了全面研究,包括 5 个需要检索的长文档数据集和 3 个带有表格的数据集。从平均得分结果来看,ChatQA-70B 可以在不使用任何来自 ChatGPT 模型的合成数据情况下优于 GPT 3.5-turbo (50.37) 和 GPT-4 (53.90)。 探究了「无法回答」的场景,即所需要的答案不在提供或检索的上下文中,因此 LLM 很容易产生幻觉。本文证明,在指令调优中添加少量「无法回答」的样本可以引导模型在必要时生成「无法回答」的输出,从而大大减少幻觉。ChatQA-70B 在这方面优于 GPT-3.5-turbo,但与 GPT-4 相比仍有轻微差距(约 3.5%)。

对于英伟达的全新对话 QA 模型,有人认为有趣的一点在于,它不依赖任何来自 OpenAI GPT 模型的合成数据。而像马斯克旗下 xAI 的聊天机器人 Grok 使用了大量 OpenAI 的模型数据。

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

推特 @fahirmdz

不过,也有读者对英伟达不提供模型权重和代码的做法「很不感冒」。如果这些都不公开的话,再厉害也对 LLM 社区没啥意义。

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

推特 @AiBeginners


方法细节


ChatQA 两阶段调优

研究者提出了一种用于 ChatQA 的两阶段指令调优方法,请参见图 1。研究者的方法从预训练的 LLM 基础模型开始。在阶段 1,研究者在指令遵循和对话联合数据集上使用了监督微调(SFT)。之后,本文的模型表现出作为对话智能体遵循指令的良好能力。然而情境化或基于 RAG 的 QA 能力仍然有限。 

因此,研究者引入了一个称为上下文增强指令调优的后续阶段,它是专门为增强本文模型在对话 QA 中进行上下文感知或检索增强生成的能力而设计的。

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

多轮问答检索

免责声明:数字资产交易涉及重大风险,本资料不应作为投资决策依据,亦不应被解释为从事投资交易的建议。请确保充分了解所涉及的风险并谨慎投资。OKEx学院仅提供信息参考,不构成任何投资建议,用户一切投资行为与本站无关。

加⼊OKEx全球社群

和全球数字资产投资者交流讨论

扫码加入OKEx社群

相关推荐

industry-frontier