機能ピラミッドは、マルチスケール機能を必要とする画像理解タスクで強力であることが証明されています。マルチスケールの特徴学習のための最先端の方法は、固定トポロジーのニューラルネットワークを使用して空間とスケール全体で特徴の相互作用を実行することに焦点を当てています。この論文では、トポロジカル構造をさまざまな固有の画像構造に適応させ、すべてのスケールにわたる同時特徴相互作用をサポートできるグラフ特徴ピラミッドネットワークを提案します。最初に、各入力画像の画像固有のスーパーピクセル階層を定義して、その固有の画像構造を表します。グラフ特徴ピラミッドネットワークは、このスーパーピクセル階層からその構造を継承します。コンテキストレイヤーと階層レイヤーは、同じスケール内および異なるスケール間で機能の相互作用を実現するように設計されています。これらのレイヤーをより強力にするために、畳み込みニューラルネットワークのグローバルチャネル注意を一般化することにより、グラフニューラルネットワークの2種類のローカルチャネル注意を導入します。提案されたグラフ特徴ピラミッドネットワークは、畳み込み特徴ピラミッドネットワークからのマルチスケール特徴を強化することができます。 Faster R-CNNアルゴリズムに統合することにより、オブジェクト検出タスクでグラフ特徴ピラミッドネットワークを評価します。変更されたアルゴリズムは、明確なマージンを備えた以前の最先端の機能ピラミッドベースの方法だけでなく、MS-COCO2017検証とテストデータセットの両方で他の一般的な検出方法よりも優れています。
Feature pyramids have been proven powerful in image understanding tasks that require multi-scale features. State-of-the-art methods for multi-scale feature learning focus on performing feature interactions across space and scales using neural networks with a fixed topology. In this paper, we propose graph feature pyramid networks that are capable of adapting their topological structures to varying intrinsic image structures and supporting simultaneous feature interactions across all scales. We first define an image-specific superpixel hierarchy for each input image to represent its intrinsic image structures. The graph feature pyramid network inherits its structure from this superpixel hierarchy. Contextual and hierarchical layers are designed to achieve feature interactions within the same scale and across different scales. To make these layers more powerful, we introduce two types of local channel attention for graph neural networks by generalizing global channel attention for convolutional neural networks. The proposed graph feature pyramid network can enhance the multiscale features from a convolutional feature pyramid network. We evaluate our graph feature pyramid network in the object detection task by integrating it into the Faster R-CNN algorithm. The modified algorithm outperforms not only previous state-of-the-art feature pyramid-based methods with a clear margin but also other popular detection methods on both MS-COCO 2017 validation and test datasets.