画像レベルの弱教師あり監視を使用した弱教師ありセマンティックセグメンテーション(WSSS)の既存の研究には、いくつかの制限があります。疎なオブジェクトカバレッジ、不正確なオブジェクト境界、および非ターゲットオブジェクトからの同時発生ピクセルです。これらの課題を克服するために、2つの弱い監視を組み合わせることによってピクセルレベルのフィードバックから学習する、新しいフレームワーク、つまり明示的な疑似ピクセル監視(EPS)を提案します。画像レベルのラベルは、ローカリゼーションマップを介してオブジェクトのアイデンティティを提供し、既製の顕著性検出モデルからの顕著性マップは、豊富な境界を提供します。両情報の補完関係を十分に活用するための共同研修戦略を考案します。私たちの方法は、正確なオブジェクト境界を取得し、共起するピクセルを破棄することができるため、疑似マスクの品質が大幅に向上します。実験結果は、提案された方法がWSSSの主要な課題を解決することによって既存の方法を著しく上回り、PASCAL VOC2012とMSCOCO2014の両方のデータセットで新しい最先端のパフォーマンスを達成することを示しています。
Existing studies in weakly-supervised semantic segmentation (WSSS) using image-level weak supervision have several limitations: sparse object coverage, inaccurate object boundaries, and co-occurring pixels from non-target objects. To overcome these challenges, we propose a novel framework, namely Explicit Pseudo-pixel Supervision (EPS), which learns from pixel-level feedback by combining two weak supervisions; the image-level label provides the object identity via the localization map and the saliency map from the off-the-shelf saliency detection model offers rich boundaries. We devise a joint training strategy to fully utilize the complementary relationship between both information. Our method can obtain accurate object boundaries and discard co-occurring pixels, thereby significantly improving the quality of pseudo-masks. Experimental results show that the proposed method remarkably outperforms existing methods by resolving key challenges of WSSS and achieves the new state-of-the-art performance on both PASCAL VOC 2012 and MS COCO 2014 datasets.