畳み込みニューラルネットワーク(CNN)は、小さなウィンドウサイズで畳み込み演算を深く積み重ねることにより、長距離の依存関係をモデル化します。これにより、最適化が困難になります。このホワイトペーパーでは、地域ベースの非ローカル(RNL)操作を、ローカル操作の深いスタックを使用せずに長距離の依存関係を直接キャプチャできる自己注意メカニズムのファミリーとして紹介します。中間の特徴マップが与えられると、私たちの方法は、すべての位置の隣接する領域からの情報を集約することによって、ある位置で特徴を再較正します。チャネルアテンションモジュールを提案されたRNLと組み合わせることにより、エンドツーエンドトレーニング用の既製のCNNに統合できるアテンションチェーンを設計します。 2つのビデオ分類ベンチマークでメソッドを評価します。私たちの方法の実験結果は、他の注意メカニズムよりも優れており、Something-SomethingV1データセットで最先端のパフォーマンスを実現しています。
Convolutional Neural Networks (CNNs) model long-range dependencies by deeply stacking convolution operations with small window sizes, which makes the optimizations difficult. This paper presents region-based non-local (RNL) operations as a family of self-attention mechanisms, which can directly capture long-range dependencies without using a deep stack of local operations. Given an intermediate feature map, our method recalibrates the feature at a position by aggregating the information from the neighboring regions of all positions. By combining a channel attention module with the proposed RNL, we design an attention chain, which can be integrated into the off-the-shelf CNNs for end-to-end training. We evaluate our method on two video classification benchmarks. The experimental results of our method outperform other attention mechanisms, and we achieve state-of-the-art performance on the Something-Something V1 dataset.