既存の弱く監督されたセマンティックセグメンテーション(WSSS)メソッドは通常、2つのタスク間の接続を明示的にモデリングすることなく、事前トレーニングされた顕著性検出(SD)モデルの結果を利用します。ここでは、単一のネットワーク、つまり顕著性、およびセグメンテーションネットワーク(SSNet)を使用して、WSSSとSDを共同で解決する統合マルチタスク学習フレームワークを提案します。 SSNetは、セグメンテーションネットワーク(SN)と顕著性集約モジュール(SAM)で構成されています。入力画像の場合、SNはセグメンテーション結果を生成し、SAMは各カテゴリの顕著性を予測し、すべてのカテゴリのセグメンテーションマスクを顕著性マップに集約します。提案されたネットワークは、画像レベルのカテゴリラベルとクラスに依存しないピクセルレベルの顕著性ラベルでエンドツーエンドでトレーニングされます。 PASCAL VOC 2012のセグメンテーションデータセットと4つの顕著性ベンチマークデータセットの実験により、本手法のパフォーマンスが、最先端の弱監視型セグメンテーション手法および完全監視型顕著性検出手法と比較して優れていることがわかります。
Existing weakly supervised semantic segmentation (WSSS) methods usually utilize the results of pre-trained saliency detection (SD) models without explicitly modeling the connections between the two tasks, which is not the most efficient configuration. Here we propose a unified multi-task learning framework to jointly solve WSSS and SD using a single network, \ie saliency, and segmentation network (SSNet). SSNet consists of a segmentation network (SN) and a saliency aggregation module (SAM). For an input image, SN generates the segmentation result and, SAM predicts the saliency of each category and aggregating the segmentation masks of all categories into a saliency map. The proposed network is trained end-to-end with image-level category labels and class-agnostic pixel-level saliency labels. Experiments on PASCAL VOC 2012 segmentation dataset and four saliency benchmark datasets show the performance of our method compares favorably against state-of-the-art weakly supervised segmentation methods and fully supervised saliency detection methods.