arXiv reaDer
弱教師付きセマンティック セグメンテーションのための注意ベースのクラス活性化拡散
Attention-based Class Activation Diffusion for Weakly-Supervised Semantic Segmentation
クラス活性化マップ (CAM) の抽出は、弱教師ありセマンティック セグメンテーション (WSSS) の重要なステップです。畳み込みニューラル ネットワークの CAM は、画像に対する長期的な特徴の依存関係を捉えることができず、前景のオブジェクト部分のみをカバーする結果になります。つまり、多くの偽陰性が発生します。直感的な解決策は、CAM を視覚変換器 (ViT) の長距離アテンション マトリックスと「結合」することですただし、残念なことに、誤検知が大幅に増加します。つまり、背景のピクセルが誤って含まれてしまいます。この論文は、この問題に取り組むことを目的としています。これは、CAM と Attention マトリックスを確率論的拡散法で結合する新しい方法を提案し、AD-CAM と名付けました。直感的に、ViT の注意と CAM の活性化を保守的かつ説得力のある方法で統合します。保守的は、共通の近隣へのそれぞれの注意に基づいて、ピクセルのペア間の注意を洗練することによって達成されます。直感的には、非常に異なる近隣を持つ 2 つのピクセルはめったに依存しない、つまり、それらの注意を減らす必要があります。説得力は、対応する注意 (AM) に比例して、ピクセルのアクティブ化を (CAM の) 隣接するピクセルに拡散させることによって達成されます。実験では、2 つの挑戦的な WSSS ベンチマークである PASCAL VOC と MS~COCO での結果から、疑似ラベルとしての AD-CAM が最先端の CAM バリアントよりも強力な WSSS モデルを生成できることが示されています。
Extracting class activation maps (CAM) is a key step for weakly-supervised semantic segmentation (WSSS). The CAM of convolution neural networks fails to capture long-range feature dependency on the image and result in the coverage on only foreground object parts, i.e., a lot of false negatives. An intuitive solution is ``coupling'' the CAM with the long-range attention matrix of visual transformers (ViT) We find that the direct ``coupling'', e.g., pixel-wise multiplication of attention and activation, achieves a more global coverage (on the foreground), but unfortunately goes with a great increase of false positives, i.e., background pixels are mistakenly included. This paper aims to tackle this issue. It proposes a new method to couple CAM and Attention matrix in a probabilistic Diffusion way, and dub it AD-CAM. Intuitively, it integrates ViT attention and CAM activation in a conservative and convincing way. Conservative is achieved by refining the attention between a pair of pixels based on their respective attentions to common neighbors, where the intuition is two pixels having very different neighborhoods are rarely dependent, i.e., their attention should be reduced. Convincing is achieved by diffusing a pixel's activation to its neighbors (on the CAM) in proportion to the corresponding attentions (on the AM). In experiments, our results on two challenging WSSS benchmarks PASCAL VOC and MS~COCO show that AD-CAM as pseudo labels can yield stronger WSSS models than the state-of-the-art variants of CAM.
updated: Sun Nov 20 2022 10:06:32 GMT+0000 (UTC)
published: Sun Nov 20 2022 10:06:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト