Reading Format

less than 1 minute read

Published:

Reading Time: 23/07/31

TitlePaper URLCodePublish Conf
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient SparsitydownloadcodeJMLR’22

Background & Introduction

混合专家模型(MoE)的优势在于训练大模型时,根据输入的数据,仅选择一部分模型参数参与计算,来维持较低的计算开销。但MoE仍然存在复杂性高,通信成本高,训练不稳定等问题。

本文提出的模型Switch Transformer简化了MoE通信算法,设计了直观的改进模型

Methods

传统的MoE模型通过一个门控网络,确定每个专家网络的权重,然后将专家网络加权求和后的值作为输出。本文将transformer中的FFN视为专家,通过并行地设置多个FFN,并用一个路由函数选择最合适的FFN。

Experiments

Analysis

Conclusion & Summary