arXiv reaDer
きめ細かい視覚分類のための進歩的な共同注意ネットワーク
Progressive Co-Attention Network for Fine-grained Visual Classification
きめ細かい視覚的分類は、同じカテゴリ内の複数のサブカテゴリに属する画像を認識することを目的としています。非常に混乱したカテゴリ間で本質的に微妙な違いがあるため、これは困難な作業です。ほとんどの既存の方法は、入力として個々の画像のみを取得するため、異なる画像からの対照的な手がかりを認識するモデルの機能が制限される可能性があります。本論文では、この問題に取り組むために、プログレッシブ共注意ネットワーク(PCA-Net)と呼ばれる効果的な方法を提案します。具体的には、同じカテゴリの画像内の特徴チャネルを相互作用させて共通の識別特徴をキャプチャすることにより、チャネルごとの類似性を計算します。補完的な情報も認識に不可欠であることを考慮して、チャネルの相互作用によって強化された顕著な領域を消去して、ネットワークを他の識別領域に集中させます。提案されたモデルは、エンドツーエンドの方法でトレーニングでき、画像レベルのラベル監視のみが必要です。これは、CUB-200-2011、Stanford Cars、およびFGVCAircraftの3つのきめ細かい視覚分類ベンチマークデータセットで競争力のある結果を達成しています。
Fine-grained visual classification aims to recognize images belonging to multiple sub-categories within a same category. It is a challenging task due to the inherently subtle variations among highly-confused categories. Most existing methods only take individual image as input, which may limit the ability of models to recognize contrastive clues from different images. In this paper, we propose an effective method called progressive co-attention network (PCA-Net) to tackle this problem. Specifically, we calculate the channel-wise similarity by interacting the feature channels within same-category images to capture the common discriminative features. Considering that complementary imformation is also crucial for recognition, we erase the prominent areas enhanced by the channel interaction to force the network to focus on other discriminative regions. The proposed model can be trained in an end-to-end manner, and only requires image-level label supervision. It has achieved competitive results on three fine-grained visual classification benchmark datasets: CUB-200-2011, Stanford Cars, and FGVC Aircraft.
updated: Thu Jan 21 2021 10:19:02 GMT+0000 (UTC)
published: Thu Jan 21 2021 10:19:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト