マルチラベル リモート センシング画像分類 (MLRSIC) に対する研究の関心が高まっています。複数のラベルの共起関係を追加情報として取得すると、このタスクのパフォーマンスが向上します。現在の方法は、畳み込みニューラル ネットワーク (CNN) の最終的な機能出力を制限するために使用することに重点を置いています。一方では、これらの方法はラベル相関を十分に活用して特徴表現を形成しません。一方で、システムのラベル ノイズ感度が高くなり、ロバスト性が低下します。この論文では、セマンティックインターリービンググローバルチャネルアテンション(SIGNA)と呼ばれる新しい方法がMLRSICのために提案されています。まず、データセットの統計情報に基づいてラベル共起グラフを取得します。ラベル共起グラフは、グラフ ニューラル ネットワーク (GNN) の入力として使用され、最適な特徴表現を生成します。次に、意味的特徴と視覚的特徴をインターリーブして、画像の特徴表現を元の特徴空間からラベル関係が埋め込まれた意味的特徴空間に導きます。 SIGNA は、より重要な視覚的特徴を抽出するために、新しいセマンティック特徴空間で特徴マップ チャネルのグローバルな注目を引き起こします。マルチヘッド SIGNA ベースの機能適応重み付けネットワークは、プラグアンドプレイ方式で CNN の任意の層に作用することが提案されています。リモート センシング画像の場合、CNN を浅い層に挿入することで、より優れた分類パフォーマンスを実現できます。 UCM データ セット、AID データ セット、および DFC15 データ セットの 3 つのデータ セットに対して広範な実験的比較を行います。実験結果は、提案されたSIGNAが最先端の(SOTA)方法と比較して優れた分類性能を達成することを示しています。この論文のコードは、再現性の研究のためにコミュニティに公開されることに注意してください。コードは https://github.com/kyle-one/SIGNA で入手できます。
Multi-Label Remote Sensing Image Classification (MLRSIC) has received increasing research interest. Taking the cooccurrence relationship of multiple labels as additional information helps to improve the performance of this task. Current methods focus on using it to constrain the final feature output of a Convolutional Neural Network (CNN). On the one hand, these methods do not make full use of label correlation to form feature representation. On the other hand, they increase the label noise sensitivity of the system, resulting in poor robustness. In this paper, a novel method called Semantic Interleaving Global Channel Attention (SIGNA) is proposed for MLRSIC. First, the label co-occurrence graph is obtained according to the statistical information of the data set. The label co-occurrence graph is used as the input of the Graph Neural Network (GNN) to generate optimal feature representations. Then, the semantic features and visual features are interleaved, to guide the feature expression of the image from the original feature space to the semantic feature space with embedded label relations. SIGNA triggers global attention of feature maps channels in a new semantic feature space to extract more important visual features. Multihead SIGNA based feature adaptive weighting networks are proposed to act on any layer of CNN in a plug-and-play manner. For remote sensing images, better classification performance can be achieved by inserting CNN into the shallow layer. We conduct extensive experimental comparisons on three data sets: UCM data set, AID data set, and DFC15 data set. Experimental results demonstrate that the proposed SIGNA achieves superior classification performance compared to state-of-the-art (SOTA) methods. It is worth mentioning that the codes of this paper will be open to the community for reproducibility research. Our codes are available at https://github.com/kyle-one/SIGNA.