非局所ネットワーク(NLNet)は、クエリ固有のグローバルコンテキストを各クエリ位置に集約することで、長距離依存性を捉える先駆的なアプローチを提示する。しかし、厳密な実証分析を行った結果、非局所ネットワークによってモデル化されたグローバルコンテキストは、画像内の異なるクエリ位置に対してほぼ同じであることがわかった。本論文では、この発見を利用して、クエリに依存しない定式化に基づいた簡略化されたネットワークを作成し、NLNetの精度を維持しつつ、計算量を大幅に削減することに成功した。さらに、この単純化されたネットワークは、Squeeze-Excitation Network (SENet)と似た構造を持っていることがわかる。そこで、我々はこれらをグローバルコンテキストモデリングのための3段階の一般的なフレームワークに統一する。この一般的なフレームワークの中で、我々はグローバルコンテキスト(GC)ブロックと呼ばれるより良いインスタンス化を設計している。この軽量性により、グローバルコンテキストネットワーク(GCNet)を構築するために、バックボーンネットワークの複数の層に適用することができ、様々な認識タスクのための主要なベンチマークにおいて、一般的に単純化されたNLNetとSENetの両方を上回る。コードと設定は https://github.com/xvjiarui/GCNet で公開されている。
The Non-Local Network (NLNet) presents a pioneering approach for capturing long-range dependencies, via aggregating query-specific global context to each query position. However, through a rigorous empirical analysis, we have found that the global contexts modeled by non-local network are almost the same for different query positions within an image. In this paper, we take advantage of this finding to create a simplified network based on a query-independent formulation, which maintains the accuracy of NLNet but with significantly less computation. We further observe that this simplified design shares similar structure with Squeeze-Excitation Network (SENet). Hence we unify them into a three-step general framework for global context modeling. Within the general framework, we design a better instantiation, called the global context (GC) block, which is lightweight and can effectively model the global context. The lightweight property allows us to apply it for multiple layers in a backbone network to construct a global context network (GCNet), which generally outperforms both simplified NLNet and SENet on major benchmarks for various recognition tasks. The code and configurations are released at https://github.com/xvjiarui/GCNet.