arXiv reaDer
多様なインスタンスの発見:インスタンスを意識したマルチラベル画像認識のためのVision-Transformer
Diverse Instance Discovery: Vision-Transformer for Instance-Aware Multi-Label Image Recognition
マルチラベル画像認識(MLIR)に関するこれまでの研究では、通常、研究の開始点としてCNNを使用しています。この論文では、純粋なVision Transformer(ViT)を研究ベースとして採用し、トランスフォーマーの利点と長距離依存性モデリングを最大限に活用して、局所受容野に限定されたCNNの欠点を回避します。ただし、異なるカテゴリ、スケール、および空間関係からの複数のオブジェクトを含むマルチラベル画像の場合、グローバル情報のみを使用することは最適ではありません。私たちの目標は、ViTのパッチトークンと自己注意メカニズムを活用して、多様なインスタンス検出(DiD)という名前のマルチラベル画像でリッチインスタンスをマイニングすることです。この目的のために、セマンティックカテゴリ認識モジュールと空間関係認識モジュールをそれぞれ提案し、次に、再制約戦略によって2つを組み合わせて、インスタンス認識注意マップを取得します。最後に、マルチスケールのローカル特徴を抽出してマルチビューパイプラインを形成するための、弱教師ありオブジェクトローカリゼーションベースのアプローチを提案します。私たちの方法では、ラベルレベルで弱く監視された情報のみが必要であり、追加の知識注入やその他の強く監視された情報は必要ありません。 3つのベンチマークデータセットでの実験は、私たちの方法が以前の研究を大幅に上回り、公正な実験比較の下で最先端の結果を達成することを示しています。
Previous works on multi-label image recognition (MLIR) usually use CNNs as a starting point for research. In this paper, we take pure Vision Transformer (ViT) as the research base and make full use of the advantages of Transformer with long-range dependency modeling to circumvent the disadvantages of CNNs limited to local receptive field. However, for multi-label images containing multiple objects from different categories, scales, and spatial relations, it is not optimal to use global information alone. Our goal is to leverage ViT's patch tokens and self-attention mechanism to mine rich instances in multi-label images, named diverse instance discovery (DiD). To this end, we propose a semantic category-aware module and a spatial relationship-aware module, respectively, and then combine the two by a re-constraint strategy to obtain instance-aware attention maps. Finally, we propose a weakly supervised object localization-based approach to extract multi-scale local features, to form a multi-view pipeline. Our method requires only weakly supervised information at the label level, no additional knowledge injection or other strongly supervised information is required. Experiments on three benchmark datasets show that our method significantly outperforms previous works and achieves state-of-the-art results under fair experimental comparisons.
updated: Fri Apr 22 2022 14:38:40 GMT+0000 (UTC)
published: Fri Apr 22 2022 14:38:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト