百万专家混合 (MoME)：关键概念解释

mostakimvip06 · Post by **mostakimvip06** » Mon Mar 17, 2025 6:38 am

多年来，扩展人工智能模型主要意味着添加更多参数和训练数据。

虽然这种方法可以提高性能，但也显著增加了计算成本。混合专家 (MoE)已成为解决这一挑战的有前途的解决方案，它使用稀疏激活的专家模块代替传统的密集前馈层。

MoE 的工作原理是，根据专家在主题方面的专业知识，将任务委托给他们。每位专家都接受过特定数据集的严格训练，以服务于特定目的，而另一个组件，即门控网络，则负责委派这些任务。

MoE 高级工作流程

虽然 MoE 模型的表现优于具有前馈层的传统台湾博彩数据模型，但由于使用固定数量的训练标记的限制，它们的效率会随着模型规模的增加而趋于稳定。

解决这个问题需要高粒度的架构和大量的专家。然而，目前唯一支持超过一万名专家的架构，即混合词专家 (MoWE)，是特定于语言的，并且依赖于固定的路由方案。

本文介绍的百万专家混合架构 (MoME)通过引入参数高效专家检索 (PEER)架构解决了这一挑战，该架构采用产品密钥检索来高效地路由到大量专家。

成为一名机器学习科学家
提升 Python 技能，成为一名机器学习科学家。
理解 PEER：平行专家的力量
扩展LLM的主要挑战之一在于 Transformer 块内前馈层的计算和内存需求。MoE 通过用稀疏激活的专家模块替换这些层来解决此问题，每个模块专门负责任务的不同方面。这种方法通过仅激活给定输入的相关专家来提高效率，从而减少计算开销。

当前的 MoE 方法存在局限性，例如，固定路由器在添加新专家时需要重新调整。因此，引入了一种新的路由方法，用学习索引取代固定路由器。

参数高效专家检索 (PEER)减少了 MoE 层中的活动参数数量，从而影响预训练和推理期间的计算和激活内存消耗。

PEER 证明，通过应用正确的检索和路由机制，MoE 可以扩展到数百万专家，从而降低训练成本和复杂性并为非常大的语言模型提供服务。

百万专家混合工作流程与产品密钥检索技术

来源

在上图中，输入查询首先经过产品密钥检索，以确定前k名专家。然后，这些选定的专家根据他们的专业知识处理输入，并在推理阶段将他们的输出组合起来以生成最终的模型输出。

百万专家的混合：技术细节
PEER 的核心创新是使用产品密钥检索。其目标与传统 MoE 相同：找到最适合给定任务的前 k 名专家。但是，如果专家数量庞大（可能超过一百万），以前的技术就会变得计算成本高昂或效率低下。

考虑有N 个专家的情况，每个专家都用d维向量表示。直接计算前k 个专家将涉及计算输入查询与所有N 个专家键之间的相似度，导致时间复杂度为 O(Nd)。当N非常大时（例如，N ≥ 10^6 ），这会变得非常昂贵。

PEER 采用了一种巧妙的策略来解决这个问题：它不使用N 个独立的d维专家密钥，而是将每个密钥拆分为两个独立的子集，每个子集的维数为d/2 。同样，查询向量也被分成两个子查询。然后将 top-k 操作应用于这些子查询和子密钥之间的内积。

这种密钥的笛卡尔积结构大大降低了计算复杂度，从O(Nd)降低到了O((N^.5+ k2)d)，这样即使专家数量巨大，也能高效地找出前 k 名专家。