アテンションネットワークは、さまざまな視覚問題のパフォーマンスを向上させることに成功しています。以前の作品では、新しいアテンションモジュールを設計し、それらを個別にネットワークにプラグインすることに重点が置かれていました。私たちの論文は、レイヤーごとの情報の統合を促進するために異なるネットワークレイヤー全体でアテンションモジュールを共有する斬新でシンプルなフレームワークを提案します。このパラメーター共有モジュールは、Dense-and-Implicit-Attention(DIA)ユニットと呼ばれます。モジュールの多くの選択肢をDIAユニットで使用できます。 Long Short Term Memory(LSTM)には長距離依存性をキャプチャする能力があるため、DIAユニットが変更されたLSTM(DIA-LSTMと呼ばれる)である場合に焦点を当てます。ベンチマークデータセットの実験では、DIA-LSTMユニットがレイヤー単位のフィーチャの相互関係を強調することができ、画像分類の精度が大幅に向上することが示されています。さらに、経験的に、DIA-LSTMには、残差ネットワーク全体でのスキップ接続の削除またはバッチ正規化の実験により、深いネットワークのトレーニングを安定化する強力な正則化能力があることが示されています。コードはhttps://github.com/gbup-group/DIANetで公開されています。
Attention networks have successfully boosted the performance in various vision problems. Previous works lay emphasis on designing a new attention module and individually plug them into the networks. Our paper proposes a novel-and-simple framework that shares an attention module throughout different network layers to encourage the integration of layer-wise information and this parameter-sharing module is referred as Dense-and-Implicit-Attention (DIA) unit. Many choices of modules can be used in the DIA unit. Since Long Short Term Memory (LSTM) has a capacity of capturing long-distance dependency, we focus on the case when the DIA unit is the modified LSTM (refer as DIA-LSTM). Experiments on benchmark datasets show that the DIA-LSTM unit is capable of emphasizing layer-wise feature interrelation and leads to significant improvement of image classification accuracy. We further empirically show that the DIA-LSTM has a strong regularization ability on stabilizing the training of deep networks by the experiments with the removal of skip connections or Batch Normalization in the whole residual network. The code is released at https://github.com/gbup-group/DIANet.