目 录CONTENT

文章目录

MoE in hugging face 博客

Administrator
2024-12-31 / 0 评论 / 0 点赞 / 4 阅读 / 0 字

  • 稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个),每个专家本身是一个独立的神经网络。在实际应用中,这些专家通常是前馈网络 (FFN),但它们也可以是更复杂的网络结构,甚至可以是 MoE 层本身,从而形成层级式的 MoE 结构。

  • 门控网络或路由: 这个部分用于决定哪些令牌 (token) 被发送到哪个专家。例如,在下图中,“More”这个令牌可能被发送到第二个专家,而“Parameters”这个令牌被发送到第一个专家。有时,一个令牌甚至可以被发送到多个专家。令牌的路由方式是 MoE 使用中的一个关键点,因为路由器由学习的参数组成,并且与网络的其他部分一同进行预训练。


优点

预训练速度更快

推理速度更快

缺点

需要参数加载到内存,需要大量显存:在 MoE 模型中,只有 FFN 层被视为独立的专家,而模型的其他参数是共享的

微调阶段泛化和过拟合

重点

稀疏计算

令牌负载均衡

Switch Transformer

0
MoE
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区