从模型、数据和框架三个视角出发，这里有份54页的高效大语言模型综述

2023.12.31

文章来源：机器之心

图片来源：由无界 AI生成

大规模语言模型（LLMs）在很多关键任务中展现出显著的能力，比如自然语言理解、语言生成和复杂推理，并对社会产生深远的影响。然而，这些卓越的能力伴随着对庞大训练资源的需求（如下图左）和较长推理时延（如下图右）。因此，研究者们需要开发出有效的技术手段去解决其效率问题。

同时，我们从图右还可以看出，近来较为火热的高效 LLMs，例如 Mistral-7B，在确保和 LLaMA1-33B 相近的准确度的情况下可以大大减少推理内存和降低推理时延，可见已有部分可行的高效手段被成功应用于 LLMs 的设计和部署中。

在本综述中，来自俄亥俄州立大学、帝国理工学院、密歇根州立大学、密西根大学、亚马逊、谷歌、Boson AI、微软亚研院的研究者提供了对高效 LLMs 研究的系统全面调查。他们将现有优化 LLMs 效率的技术分成了三个类别，包括以模型为中心、以数据为中心和以框架为中心，总结并讨论了当下最前沿的相关技术。

论文：https://arxiv.org/abs/2312.03863

GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

同时，研究者建立了一个 GitHub 仓库，用于整理综述中涉及的论文，并将积极维护这个仓库，随着新的研究涌现而不断更新。研究者希望这篇综述能够帮助研究人员和从业者系统地了解高效 LLMs 研究和发展，并激发他们为这一重要而令人兴奋的领域做出贡献。

仓库网址：https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

以模型为中心

以模型为中心的方法关注算法层面和系统层面的高效技术，其中模型本身是焦点。由于 LLMs 具有数十亿甚至数万亿的参数，与规模较小的模型相比，它们具有诸如涌现等独特的特征，因此需要开发新的技术来优化 LLMs 的效率。本文详细讨论了五类以模型为中心的方法，包括模型压缩、高效预训练、高效微调、高效推理和高效模型架构设计。

1. 模型压缩

模型压缩技术主要分为了四类：量化、参数剪枝、低秩估计和知识蒸馏（参见下图），其中量化会把模型的权重或者激活值从高精度压缩到低精度，参数剪枝会搜索并删除模型权重中较为冗余的部分，低秩估计会将模型的权重矩阵转化为若干低秩小矩阵的乘积，知识蒸馏则是直接用大模型来训练小模型，从而使得小模型在做某些任务的时候具有替代大模型的能力。

2. 高效预训练

预训练 LLMs 的成本非常昂贵。高效预训练旨在提高效率并降低 LLMs 预训练过程的成本。高效预训练又可以分为混合精度加速、模型缩放、初始化技术、优化策略和系统层级的加速。

混合精度加速通过使用低精度权重计算梯度、权重和激活值，然后在将其转换回高精度并应用于更新原始权重，从而提高预训练的效率。模型缩放通过使用小型模型的参数来扩展到大型模型，加速预训练的收敛并降低训练成本。初始化技术通过设计模型的初始化取值来加快模型的收敛速度。优化策略是重在设计轻量的优化器来降低模型训练过程中的内存消耗，系统层级的加速则是通过分布式等技术来从系统层面加速模型的预训练。

3. 高效微调

高效微调旨在提高 LLMs 微调过程的效率。常见的高效微调技术分为了两类，一类是基于参数高效的微调，一类是基于内存高效的微调。

基于参数高效微调（PEFT）的目标是通过冻结整个 LLM 主干，仅更新一小组额外的参数，将 LLM 调整到下游任务。在论文中，我们又将 PEFT 详细分成了基于适配器的微调、低秩适配、前缀微调和提示词微调。

从模型、数据和框架三个视角出发，这里有份54页的高效大语言模型综述

以模型为中心

加⼊OKEx全球社群

相关推荐