Weakly Supervised Semantic Segmentation by Pixel-to-Prototype Contrast
画像レベルの弱教師ありセグメンテーションセグメンテーション(WSSS)は、クラスアクティベーションマップ(CAM)を基盤として大きな進歩を遂げましたが、分類とセグメンテーションの間の大きな教師ありギャップは、セグメンテーション用のより完全で正確な疑似マスクを生成するためのモデルを依然として妨げています。この研究では、ギャップを狭めるためにピクセルレベルの監視信号を提供できる、弱く監視されたピクセルとプロトタイプのコントラストを提案します。 2つの直感的な事前情報に基づいて、このメソッドは、画像の異なるビュー間および単一ビューごとに実行され、クロスビュー機能のセマンティック整合性の正則化を課し、機能空間のクラス内(クラス間)コンパクト性(分散)を促進することを目的としています。私たちの方法は、ベースネットワークを変更することなく、既存のWSSSモデルにシームレスに組み込むことができ、余分な推論の負担は発生しません。広範な実験は、私たちの方法が一貫して2つの強力なベースラインを大幅に改善することを示しており、有効性を示しています。具体的には、SEAMの上に構築され、PASCAL VOC 2012の初期シードmIoUを55.4%から61.5%に改善します。さらに、私たちの方法を武器に、EPSのセグメンテーションmIoUを70.8%から73.6%に増やし、新しい最先端を実現します。
Though image-level weakly supervised semantic segmentation (WSSS) has achieved great progress with Class Activation Maps (CAMs) as the cornerstone, the large supervision gap between classification and segmentation still hampers the model to generate more complete and precise pseudo masks for segmentation. In this study, we propose weakly-supervised pixel-to-prototype contrast that can provide pixel-level supervisory signals to narrow the gap. Guided by two intuitive priors, our method is executed across different views and within per single view of an image, aiming to impose cross-view feature semantic consistency regularization and facilitate intra(inter)-class compactness(dispersion) of the feature space. Our method can be seamlessly incorporated into existing WSSS models without any changes to the base networks and does not incur any extra inference burden. Extensive experiments manifest that our method consistently improves two strong baselines by large margins, demonstrating the effectiveness. Specifically, built on top of SEAM, we improve the initial seed mIoU on PASCAL VOC 2012 from 55.4% to 61.5%. Moreover, armed with our method, we increase the segmentation mIoU of EPS from 70.8% to 73.6%, achieving new state-of-the-art.
updated: Tue Nov 16 2021 01:42:09 GMT+0000 (UTC)
published: Thu Oct 14 2021 01:44:57 GMT+0000 (UTC)
