arXiv reaDer
マルチラベル画像認識のためのSemantic-Aware Graph Matchingメカニズム
Semantic-Aware Graph Matching Mechanism for Multi-Label Image Recognition
マルチラベル画像認識は、画像に存在する一連のラベルを予測することを目的としています。このような問題に対処するための鍵は、画像の内容とラベルの間の関連付けを調べ、さらに画像とそのラベルの間の正しい割り当てを取得することです。この論文では、各画像をインスタンスのバッグとして扱い、マルチラベル画像認識のタスクをインスタンス-ラベル マッチング選択問題として定式化します。このような問題をモデル化するために、マルチラベル画像認識 (ML-SGM) のための革新的なセマンティック アウェア グラフ マッチング フレームワークを提案します。このフレームワークでは、インスタンスとラベルの関係を発掘する優れたパフォーマンスにより、グラフ マッチング メカニズムが導入されます。このフレームワークは、コンテンツ認識 (インスタンス) とセマンティック認識 (ラベル) のカテゴリ表現の間の関係をモデル化することにより、カテゴリの相関関係とインスタンスとラベルの対応を明示的に確立し、マルチラベルの画像の理解を促進し、大量のトレーニング サンプルへの依存を減らします。各カテゴリ。具体的には、最初にインスタンス空間グラフとラベル セマンティック グラフをそれぞれ構築し、次に各インスタンスをすべてのラベルに接続することにより、構築された割り当てグラフにそれらを組み込みます。その後、グラフネットワークブロックを採用して、割り当てグラフ上のすべてのノードとエッジの状態を集約および更新し、各インスタンスとラベルの構造化表現を形成します。私たちのネットワークは、最終的にインスタンスとラベルの対応ごとに予測スコアを導き出し、そのような対応を加重クロスエントロピー損失で最適化します。一般的なマルチラベル画像認識で行われた実験結果は、提案された方法の優位性を示しています。さらに、提案された方法は、部分ラベルを使用したマルチラベル認識とマルチラベルの少数ショット学習でも利点を示し、現在の最先端の方法を明確なマージンで上回っています。
Multi-label image recognition aims to predict a set of labels that present in an image. The key to deal with such problem is to mine the associations between image contents and labels, and further obtain the correct assignments between images and their labels. In this paper, we treat each image as a bag of instances, and formulate the task of multi-label image recognition as an instance-label matching selection problem. To model such problem, we propose an innovative Semantic-aware Graph Matching framework for Multi-Label image recognition (ML-SGM), in which Graph Matching mechanism is introduced owing to its good performance of excavating the instance and label relationship. The framework explicitly establishes category correlations and instance-label correspondences by modeling the relation among content-aware (instance) and semantic-aware (label) category representations, to facilitate multi-label image understanding and reduce the dependency of large amounts of training samples for each category. Specifically, we first construct an instance spatial graph and a label semantic graph respectively and then incorporate them into a constructed assignment graph by connecting each instance to all labels. Subsequently, the graph network block is adopted to aggregate and update all nodes and edges state on the assignment graph to form structured representations for each instance and label. Our network finally derives a prediction score for each instance-label correspondence and optimizes such correspondence with a weighted cross-entropy loss. Empirical results conducted on generic multi-label image recognition demonstrate the superiority of our proposed method. Moreover, the proposed method also shows advantages in multi-label recognition with partial labels and multi-label few-shot learning, as well as outperforms current state-of-the-art methods with a clear margin.
updated: Fri Apr 21 2023 23:48:01 GMT+0000 (UTC)
published: Fri Apr 21 2023 23:48:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト