arXiv reaDer
CNNに埋め込まれたエキスパートの混合層でのエキスパート使用率のバランス
Balancing Expert Utilization in Mixture-of-Experts Layers Embedded in CNNs
この作業は、畳み込みニューラルネットワークに直接埋め込まれたまばらにゲートされたMixture of Expert(MoE)レイヤーでの不均衡なエキスパート使用率の問題に対処します。安定したトレーニングプロセスを可能にするために、ソフト制約ベースのアプローチとハード制約ベースのアプローチの両方を提示します。ハード制約を使用すると、特定のエキスパートの重みをゼロにすることができますが、ソフト制約を使用すると、エキスパートの貢献と追加の補助損失のバランスが取れます。その結果、ソフト制約はエキスパートの使用率をより適切に処理し、エキスパートの専門化プロセスをサポートします。ハード制約は、ほとんどの場合、一般化されたエキスパートを維持し、多くのアプリケーションのモデルパフォーマンスを向上させます。私たちの調査結果は、単一のデータセットとエンドツーエンドのトレーニングを使用しても、専門家は入力スペースの個々のサブドメインに暗黙的に焦点を当てることができることを示しています。 MoE埋め込みを使用した提案モデルの専門家は、適切な事前定義されたデータセットがなくても、暗黙的に個別のドメインに焦点を合わせます。一例として、CIFAR-100画像分類のトレーニングを受けた専門家は、以前のデータクラスタリングなしで、海の動物や花などのさまざまなドメインの認識を専門としています。 RetinaNetとCOCOデータセットを使用した実験では、オブジェクト検出の専門家が異なるサイズのオブジェクトの検出に特化できることも示されています。
This work addresses the problem of unbalanced expert utilization in sparsely-gated Mixture of Expert (MoE) layers, embedded directly into convolutional neural networks. To enable a stable training process, we present both soft and hard constraint-based approaches. With hard constraints, the weights of certain experts are allowed to become zero, while soft constraints balance the contribution of experts with an additional auxiliary loss. As a result, soft constraints handle expert utilization better and support the expert specialization process, hard constraints mostly maintain generalized experts and increase the model performance for many applications. Our findings demonstrate that even with a single dataset and end-to-end training, experts can implicitly focus on individual sub-domains of the input space. Experts in the proposed models with MoE embeddings implicitly focus on distinct domains, even without suitable predefined datasets. As an example, experts trained for CIFAR-100 image classification specialize in recognizing different domains such as sea animals or flowers without previous data clustering. Experiments with RetinaNet and the COCO dataset further indicate that object detection experts can also specialize in detecting objects of distinct sizes.
updated: Fri Apr 22 2022 09:40:23 GMT+0000 (UTC)
published: Fri Apr 22 2022 09:40:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト