多年来,扩展人工智能模型主要意味着添加更多参数和训练数据。
虽然这种方法可以提高性能,但也显著增加了计算成本。混合专家 (MoE)已成为解决这一挑战的有前途的解决方案,它使用稀疏激活的专家模块代替传统的密集前馈层。
MoE 的工作原理是,根据专家在主题方面的专业知识,将任务委托给他们。每位专家都接受过特定数据集的严格训练,以服务于特定目的,而另一个组件,即门控网络,则负责委派这些任务。
MoE 高级工作流程
虽然 MoE 模型的表现优于具有前馈层的传统 台湾博彩数据 模型,但由于使用固定数量的训练标记的限制,它们的效率会随着模型规模的增加而趋于稳定。
解决这个问题需要高粒度的架构和大量的专家。然而,目前唯一支持超过一万名专家的架构,即混合词专家 (MoWE),是特定于语言的,并且依赖于固定的路由方案。
本文介绍的百万专家混合架构 (MoME)通过引入参数高效专家检索 (PEER)架构解决了这一挑战,该架构采用产品密钥检索来高效地路由到大量专家。
成为一名机器学习科学家
提升 Python 技能,成为一名机器学习科学家。
理解 PEER:平行专家的力量
扩展LLM的主要挑战之一在于 Transformer 块内前馈层的计算和内存需求。MoE 通过用稀疏激活的专家模块替换这些层来解决此问题,每个模块专门负责任务的不同方面。这种方法通过仅激活给定输入的相关专家来提高效率,从而减少计算开销。
当前的 MoE 方法存在局限性,例如,固定路由器在添加新专家时需要重新调整。因此,引入了一种新的路由方法,用学习索引取代固定路由器。
参数高效专家检索 (PEER)减少了 MoE 层中的活动参数数量,从而影响预训练和推理期间的计算和激活内存消耗。
PEER 证明,通过应用正确的检索和路由机制,MoE 可以扩展到数百万专家,从而降低训练成本和复杂性并为非常大的语言模型提供服务。
百万专家混合工作流程与产品密钥检索技术
来源
在上图中,输入查询首先经过产品密钥检索,以确定前k名专家。然后,这些选定的专家根据他们的专业知识处理输入,并在推理阶段将他们的输出组合起来以生成最终的模型输出。
百万专家的混合:技术细节
PEER 的核心创新是使用产品密钥检索。其目标与传统 MoE 相同:找到最适合给定任务的前 k 名专家。但是,如果专家数量庞大(可能超过一百万),以前的技术就会变得计算成本高昂或效率低下。
考虑有N 个专家的情况,每个专家都用d维向量表示。直接计算前k 个专家将涉及计算输入查询与所有N 个专家键之间的相似度,导致时间复杂度为 O(Nd)。当N非常大时(例如,N ≥ 10^6 ),这会变得非常昂贵。
PEER 采用了一种巧妙的策略来解决这个问题:它不使用N 个独立的d维专家密钥,而是将每个密钥拆分为两个独立的子集,每个子集的维数为d/2 。同样,查询向量也被分成两个子查询。然后将 top-k 操作应用于这些子查询和子密钥之间的内积。
这种密钥的笛卡尔积结构大大降低了计算复杂度,从O(Nd)降低到了O((N^.5+ k2)d),这样即使专家数量巨大,也能高效地找出前 k 名专家。
百万专家混合 (MoME):关键概念解释
-
- Posts: 317
- Joined: Mon Dec 23, 2024 5:02 am