ラベル付けコストが低いという利点を考慮すると、弱く監督されたセマンティックセグメンテーションは、近年多くの研究関心を集めています。高度なアルゴリズムのほとんどは、シード領域をクラスアクティベーションマップ(CAM)から拡張および制約する設計原則に従います。よく知られているように、従来のCAMは、監督が弱いために不完全または過剰に作動する傾向があります。幸いなことに、セマンティックセグメンテーションには空間変換の等分散の特性があることがわかります。これは、弱教師付き学習を支援するためのいくつかの自己監視を形成できます。この作業では、主に、CAM生成のためのスケール同変制約の利点を調査し、自己監視スケール同変ネットワーク(SSENet)として定式化しました。具体的には、新しい解像度の同変正則化が精巧に設計されており、異なる解像度の同じ入力画像からのCAMの一貫性を保証します。この新しいスケールの同変正則化により、ネットワーク全体がより正確なクラスアクティベーションを学習できるようになります。この正規化されたCAMは、最新の高度に弱く監視されたセマンティックセグメンテーションフレームワークに埋め込むことができます。 PASCAL VOC 2012データセットに関する広範な実験により、私たちの方法は、弱く監督されたセマンティックセグメンテーションに対して定量的および定性的に最先端のパフォーマンスを達成することが実証されています。コードが利用可能になりました。
Weakly supervised semantic segmentation has attracted much research interest in recent years considering its advantage of low labeling cost. Most of the advanced algorithms follow the design principle that expands and constrains the seed regions from class activation maps (CAM). As well-known, conventional CAM tends to be incomplete or over-activated due to weak supervision. Fortunately, we find that semantic segmentation has a characteristic of spatial transformation equivariance, which can form a few self-supervisions to help weakly supervised learning. This work mainly explores the advantages of scale equivariant constrains for CAM generation, formulated as a self-supervised scale equivariant network (SSENet). Specifically, a novel scale equivariant regularization is elaborately designed to ensure consistency of CAMs from the same input image with different resolutions. This novel scale equivariant regularization can guide the whole network to learn more accurate class activation. This regularized CAM can be embedded in most recent advanced weakly supervised semantic segmentation framework. Extensive experiments on PASCAL VOC 2012 datasets demonstrate that our method achieves the state-of-the-art performance both quantitatively and qualitatively for weakly supervised semantic segmentation. Code has been made available.