Learning Category Correlations for Multi-label Image Recognition with Graph Networks
  マルチラベル画像認識は、画像内のオブジェクトラベルのセットを予測するタスクです。オブジェクトは物理的な世界で共起するため、ラベルの依存関係をモデル化することが望ましいです。以前の既存の方法は、この目的のために、リカレントネットワークまたは事前定義されたラベル相関グラフのいずれかに頼っています。本論文では、柔軟性がなく、マルチラベル分類に最適ではない事前定義されたグラフを使用する代わりに、A-GCNを提案します。これは、適応ラベル相関グラフを備えた人気のあるグラフ畳み込みネットワークを活用してラベルをモデル化します依存関係。具体的には、プラグアンドプレイラベルグラフ(LG)モジュールを導入して、単語の埋め込みとラベルの相関を学習し、その後、従来のGCNを使用して、このグラフをラベルに依存するオブジェクト分類子にマッピングし、画像特徴にさらに適用します。基本的なLGモジュールは2つの1x1畳み込み層を組み込み、ドット積を使用してラベルグラフを生成します。さらに、LGモジュールを強化し、さまざまなLGアーキテクチャを探索するために、疎相関制約を提案します。 2つの多様なマルチラベルデータセットMS-COCOとFashion550Kでメソッドを検証します。実験結果は、当社のA-GCNがベースラインメソッドを大幅に改善し、最新技術と同等以上のパフォーマンスを達成することを示しています。
Multi-label image recognition is a task that predicts a set of object labels in an image. As the objects co-occur in the physical world, it is desirable to model label dependencies. Previous existing methods resort to either recurrent networks or pre-defined label correlation graphs for this purpose. In this paper, instead of using a pre-defined graph which is inflexible and may be sub-optimal for multi-label classification, we propose the A-GCN, which leverages the popular Graph Convolutional Networks with an Adaptive label correlation graph to model label dependencies. Specifically, we introduce a plug-and-play Label Graph (LG) module to learn label correlations with word embeddings, and then utilize traditional GCN to map this graph into label-dependent object classifiers which are further applied to image features. The basic LG module incorporates two 1x1 convolutional layers and uses the dot product to generate label graphs. In addition, we propose a sparse correlation constraint to enhance the LG module and also explore different LG architectures. We validate our method on two diverse multi-label datasets: MS-COCO and Fashion550K. Experimental results show that our A-GCN significantly improves baseline methods and achieves performance superior or comparable to the state of the art.
updated: Sat Sep 28 2019 02:03:25 GMT+0000 (UTC)
published: Sat Sep 28 2019 02:03:25 GMT+0000 (UTC)
