時空間相関の取得に広く使用されている長期依存モデルは、CNNが支配するコンピュータービジョンタスクで効果的であることが示されています。しかし、受容野を拡大するためのたたみ込み演算のスタックも最近の非ローカルモジュールも、計算上効率的ではありません。このホワイトペーパーでは、さまざまな次元(チャネル、フレームなど)にわたる位置間の相互作用をモデリングするための軽量グローバル記述子の一般的なファミリを示します。この記述子を使用すると、後続の畳み込みで、計算の複雑さとパラメーターを無視して、有益なグローバル機能にアクセスできます。ベンチマークの実験は、提案された方法が、余分な計算コストを大幅に削減して、最先端の長距離メカニズムを完成できることを示しています。コードはhttps://github.com/HolmesShuan/Compact-Global-Descriptorで入手できます。
Long-range dependencies modeling, widely used in capturing spatiotemporal correlation, has shown to be effective in CNN dominated computer vision tasks. Yet neither stacks of convolutional operations to enlarge receptive fields nor recent nonlocal modules is computationally efficient. In this paper, we present a generic family of lightweight global descriptors for modeling the interactions between positions across different dimensions (e.g., channels, frames). This descriptor enables subsequent convolutions to access the informative global features with negligible computational complexity and parameters. Benchmark experiments show that the proposed method can complete state-of-the-art long-range mechanisms with a significant reduction in extra computing cost. Code available at https://github.com/HolmesShuan/Compact-Global-Descriptor.