评测超Llama2，混合专家模型（MoE）会是大模型新方向吗？

2024.01.01

文章来源：Founder Park

图片来源：由无界 AI生成

混合专家模型（MoE）成为最近关注的热点。

先是 Reddit 上一篇关于 GPT-4 结构的猜测帖，暗示了 GPT-4 可能是由 16 个子模块组成的专家模型（MoE）的混合体。据说，这 16 个子模块中的每一个 MoE 都有 1110 亿个参数（作为参考，GPT-3 有 1750 亿个参数）。尽管不能 100% 确定，但 GPT-4 是一个 MoE 组成的集群这个事很可能是真的。

然后是法国 AI 公司 MistralAI 发布了全球首个基于混合专家技术的大模型 Mistral-8x7B-MoE，是 8 个 70 亿参数规模大模型的混合。

主要特点如下：

它可以非常优雅地处理 32K 上下文数据；除了英语外，在法语、德语、意大利语和西班牙语表现也很好；在代码能力上表现很强；指令微调后 MT-Bench 的得分 8.3 分（GPT-3.5 是 8.32、LLaMA2 70B 是 6.86）；

Mistral-7B×8-MoE 是首个被证明有效的开源的 MoE LLM，相比于早期的 Switch Transformer、GLaM 等研究，Mistral-7B×8-MoE 证明了 MoE 真的可以落地，且效果远好于相同激活值的 Dense 模型。

而在最近的一个评测中，Mistral-8x7B-MoE 经过微调后的表现超过了 Llama2-65B。

到底什么是 MoE，它会是未来大模型训练的新方向吗？

Founder Park 整理了公众号「HsuDan」、「深度人工智能」对于 MOE 的介绍。更详细的技术解读，可以参见 Hugging Face 官方对 MoE 的详细技术解读。

01 MoE 的前世今生

混合专家模型（MixtureofExperts：MoE）的思想可以追溯到集成学习，集成学习是通过训练多个模型（基学习器）来解决同一问题，并且将它们的预测结果简单组合（例如投票或平均）。集成学习的主要目标是通过减少过拟合，提高泛化能力，以提高预测性能。常见的集成学习方法包括 Bagging，Boosting 和 Stacking。

集成学习在训练过程中，利用训练数据集训练基学习器，基学习器的算法可以是决策树、SVM、线性回归、KNN 等，在推理过程中对于输入的 X，在每个基学习器得到相应的答案后将所有结果有机统一起来，例如通过求均值的方法解决数值类问题，通过投票方式解决分类问题。

MoE 和集成学习的思想异曲同工，都是集成了多个模型的方法，但它们的实现方式有很大不同。与 MoE 的最大不同的地方是集成学习不需要将任务分解为子任务，而是将多个基础学习器组合起来。这些基础学习器可以使用相同或不同的算法，并且可以使用相同或不同的训练数据。

MoE 模型本身也并不是一个全新的概念，它的理论基础可以追溯到 1991 年由 MichaelJordan 和 GeoffreyHinton 等人提出的论文，距今已经有 30 多年的历史，但至今依然在被广泛应用的技术。这一理念在被提出来后经常被应用到各类模型的实际场景中，在 2017 年得到了更进一步的发展，当时，一个由 QuocLe,GeoffreyHinton 和 JeffDean 领衔的团队提出了一种新型的 MoE 层，它通过引入稀疏性来大幅提高模型的规模和效率。

大模型结合混合专家模型的方法属于老树发新芽，随着应用场景的复杂化和细分化，大模型越来越大，垂直领域应用更加碎片化，想要一个模型既能回答通识问题，又能解决专业领域问题，似乎 MoE 是一种性价比更高的选择。在多模态大模型的发展浪潮之下，MoE 大有可能成为 2024 年大模型研究的新方向之一，而大模型也会带着 MoE，让其再次伟大。

下面是近些年一部分 MoE 的应用发展事件，可以看出早期 MoE 的应用和 Transformer 的发展时间节点差不多，都是在 2017 年左右。

2017 年，谷歌首次将 MoE 引入自然语言处理领域，通过在 LSTM 层之间增加 MoE 实现了机器翻译方面的性能提升；

2020 年，Gshard 首次将 MoE 技术引入 Transformer 架构中，并提供了高效的分布式并行计算架构，而后谷歌的 Swtich Transformer 和 GLaM 则进一步挖掘 MoE 技术在自然语言处理领域中的应用潜力，实现了优秀的性能表现；

评测超Llama2，混合专家模型（MoE）会是大模型新方向吗？

加⼊OKEx全球社群

相关推荐