英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大

2024.01.22

原文来源：机器之心

图片来源：由无界 AI生成

昨天，Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，从而在 Llama 2 70B 的迭代微调后超越了 GPT-4。今天，英伟达的全新对话 QA 模型「ChatQA-70B」在不使用任何 GPT 模型数据的情况下，在 10 个对话 QA 数据集上的平均得分略胜于 GPT-4。

一年多来，ChatGPT 及后续产品引发了生产和研究社区中构建问答（QA）模型的范式转变。尤其是在实际应用中，QA 模型在以下情况成为首选：

用户能够以对话方式与 QA 模型进行交互，并可以轻松提出后续问题；通才模型能够以零样本方式生成答案，无需针对数据集进行微调，同时媲美微调专家模型的准确度； QA 模型能够在开放域或长文档设置中集成检索到的证据块，提供的上下文比 LLM 的上下文窗口长得多。

不过对于研究界而言，构建一个能够媲美 GPT-4 等 SOTA 黑箱模型准确度的对话 QA 模型仍是一个巨大挑战。

近日，在英伟达的一篇论文中，研究者提出了一个具有 GPT-4 级别准确度的白箱对话 QA 模型 ChatQA 70B。他们采用了两阶段指令调优方法以及用于对话 QA 的 RAG 增强检索器、严格的数据管理过程。

论文标题：ChatQA: Building GPT-4 Level Conversational QA Models 论文地址：https://huggingface.co/papers/2401.10225 论文标题：ChatQA: Building GPT-4 Level Conversational QA Models

具体来讲，本文主要做出了以下贡献：

提出了两阶段指令调优方法和数据集管理方法，它们大大增强了 LLM 在零样本对话 QA 任务中集成用户提供或检索上下文时的能力。本文方法显著优于常规指令调优或基于 RLHF 的方法（如 Llama-2-Chat）。对于对话 QA 中的 RAG，展现出了在人类标注多轮 QA 数据集上微调 SOTA 单轮查询检索器的效果与使用基于 LLM 的 SOTA 查询重写模型（如 GPT-3.5-turbo）一样好。基于 Llama2-7B、Llama2-13B、Llama2-70B 和内部 8B 预训练 GPT 构建了一系列 ChatQA 模型，并在 10 个对话 QA 数据集上进行了全面研究，包括 5 个需要检索的长文档数据集和 3 个带有表格的数据集。从平均得分结果来看，ChatQA-70B 可以在不使用任何来自 ChatGPT 模型的合成数据情况下优于 GPT 3.5-turbo (50.37) 和 GPT-4 (53.90)。探究了「无法回答」的场景，即所需要的答案不在提供或检索的上下文中，因此 LLM 很容易产生幻觉。本文证明，在指令调优中添加少量「无法回答」的样本可以引导模型在必要时生成「无法回答」的输出，从而大大减少幻觉。ChatQA-70B 在这方面优于 GPT-3.5-turbo，但与 GPT-4 相比仍有轻微差距（约 3.5%）。

对于英伟达的全新对话 QA 模型，有人认为有趣的一点在于，它不依赖任何来自 OpenAI GPT 模型的合成数据。而像马斯克旗下 xAI 的聊天机器人 Grok 使用了大量 OpenAI 的模型数据。

推特 @fahirmdz

不过，也有读者对英伟达不提供模型权重和代码的做法「很不感冒」。如果这些都不公开的话，再厉害也对 LLM 社区没啥意义。

推特 @AiBeginners

方法细节

ChatQA 两阶段调优

研究者提出了一种用于 ChatQA 的两阶段指令调优方法，请参见图 1。研究者的方法从预训练的 LLM 基础模型开始。在阶段 1，研究者在指令遵循和对话联合数据集上使用了监督微调（SFT）。之后，本文的模型表现出作为对话智能体遵循指令的良好能力。然而情境化或基于 RAG 的 QA 能力仍然有限。

因此，研究者引入了一个称为上下文增强指令调优的后续阶段，它是专门为增强本文模型在对话 QA 中进行上下文感知或检索增强生成的能力而设计的。

多轮问答检索

英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大

加⼊OKEx全球社群

相关推荐