層の相互作用を強化することでディープ ニューラル ネットワークの表現力が向上し、セルフアテンションはクエリによってアクティブ化された情報を取得して相互依存関係を学習することに優れていることを示す証拠がますます増えています。これに動機付けられて、マルチヘッド再帰層アテンション(MRLA)と呼ばれるクロスレイヤーアテンションメカニズムを考案しました。これは、現在のレイヤーのクエリ表現を以前のすべてのレイヤーに送信して、さまざまなレベルの受容フィールドからクエリ関連の情報を取得します。二次計算コストを削減するために、MRLA の軽量バージョンも提案されています。提案されたレイヤー アテンション メカニズムは、CNN やビジョン トランスフォーマーなど、多くの最先端のビジョン ネットワークの表現力を強化することができます。その有効性は、画像分類、オブジェクト検出、およびインスタンス セグメンテーション タスクで広く評価されており、一貫して改善が見られます。たとえば、当社の MRLA は、ResNet-50 で 1.6% のトップ 1 精度を向上させることができますが、0.16M のパラメーターと 0.07B の FLOP を導入するだけです。驚くべきことに、密な予測タスクで 3 ~ 4% のボックス AP とマスク AP の大幅なマージンでパフォーマンスを向上させることができます。コードは https://github.com/joyfang1106/MRLA で入手できます。
More and more evidence has shown that strengthening layer interactions can enhance the representation power of a deep neural network, while self-attention excels at learning interdependencies by retrieving query-activated information. Motivated by this, we devise a cross-layer attention mechanism, called multi-head recurrent layer attention (MRLA), that sends a query representation of the current layer to all previous layers to retrieve query-related information from different levels of receptive fields. A light-weighted version of MRLA is also proposed to reduce the quadratic computation cost. The proposed layer attention mechanism can enrich the representation power of many state-of-the-art vision networks, including CNNs and vision transformers. Its effectiveness has been extensively evaluated in image classification, object detection and instance segmentation tasks, where improvements can be consistently observed. For example, our MRLA can improve 1.6% Top-1 accuracy on ResNet-50, while only introducing 0.16M parameters and 0.07B FLOPs. Surprisingly, it can boost the performances by a large margin of 3-4% box AP and mask AP in dense prediction tasks. Our code is available at https://github.com/joyfang1106/MRLA.