近年、その驚くべき効率性により、教師付きセマンティック セグメンテーションへの関心が急速に高まっています。トランスフォーマーに基づく既存のアプローチは、主にアフィニティ マトリックスを調査して、グローバルな関係で CAM を強化することに重点を置いています。この作業では、最初に連続するアフィニティ マトリックスの影響に対して綿密な調査を行い、ネットワークが収束に近づくにつれてスパース化の傾向があることを発見し、過度の平滑化の兆候を明らかにしました。さらに、強化されたアテンション マップは、より深いレイヤーでかなりの量の無関係なバックグラウンド ノイズを示す傾向があることが観察されています。これを利用して、私たちは、規律のない過度の平滑化現象が、意味的に無関係なバックグラウンド ノイズの注目に値する量を導入し、パフォーマンスの低下を引き起こすという大胆な推測を仮定します。この問題を軽減するために、特性の領域を調査することにより、関心のあるオブジェクトを強調する新しい視点を提案し、それによって連続する親和性マトリックスの広範な理解を促進します。その結果、オブジェクト内の不完全な注意と無制限のバックグラウンド ノイズの問題を軽減する適応再アクティブ化メカニズム (AReAM) を提案します。 AReAM は、浅いアフィニティ マトリックスを使用して高レベルの注意を監視することでこれを実現し、有望な結果をもたらします。一般的に使用されるデータセットで行われた徹底的な実験では、セマンティック領域に注意を払うために深い層の各アフィニティ マトリックスに制限を課す、提案された AReAM によってセグメンテーションの結果を大幅に改善できることが明らかになりました。
A surge of interest has emerged in weakly supervised semantic segmentation due to its remarkable efficiency in recent years. Existing approaches based on transformers mainly focus on exploring the affinity matrix to boost CAMs with global relationships. While in this work, we first perform a scrupulous examination towards the impact of successive affinity matrices and discover that they possess an inclination toward sparsification as the network approaches convergence, hence disclosing a manifestation of over-smoothing. Besides, it has been observed that enhanced attention maps tend to evince a substantial amount of extraneous background noise in deeper layers. Drawing upon this, we posit a daring conjecture that the undisciplined over-smoothing phenomenon introduces a noteworthy quantity of semantically irrelevant background noise, causing performance degradation. To alleviate this issue, we propose a novel perspective that highlights the objects of interest by investigating the regions of the trait, thereby fostering an extensive comprehension of the successive affinity matrix. Consequently, we suggest an adaptive re-activation mechanism (AReAM) that alleviates the issue of incomplete attention within the object and the unbounded background noise. AReAM accomplishes this by supervising high-level attention with shallow affinity matrices, yielding promising results. Exhaustive experiments conducted on the commonly used dataset manifest that segmentation results can be greatly improved through our proposed AReAM, which imposes restrictions on each affinity matrix in deep layers to make it attentive to semantic regions.