分類ネットワークは、弱教師セマンティック セグメンテーション (WSSS) で使用され、クラス アクティベーション マップ (CAM) によってオブジェクトをセグメント化します。ただし、ピクセルレベルの注釈がなければ、(1) 主に識別領域に焦点を当て、(2) 明確に定義された予測輪郭なしで拡散 CAM を生成することが知られています。この作業では、CAM 学習を改善することで両方の問題を軽減します。まず、確率的な画像レベルのクラス予測を生成するために、CAM によって誘導されるクラスごとの確率質量関数に基づく重要度サンプリングを組み込みます。これにより、実証研究で示されているように、オブジェクトのより広い範囲をカバーするセグメンテーションが得られます。次に、特徴類似性損失項を定式化します。これにより、予測された輪郭と画像内のエッジの位置合わせがさらに改善されます。さらに、共通領域mIoUメトリックを補完するものとして等高線Fスコアを測定することにより、WSSSの問題に新たな光を当てます。領域の類似性に関する最先端の技術を照合しながら、輪郭品質の点で以前の方法よりも大幅に優れていることを示します。
Classification networks have been used in weakly-supervised semantic segmentation (WSSS) to segment objects by means of class activation maps (CAMs). However, without pixel-level annotations, they are known to (1) mainly focus on discriminative regions, and (2) to produce diffuse CAMs without well-defined prediction contours. In this work, we alleviate both problems by improving CAM learning. First, we incorporate importance sampling based on the class-wise probability mass function induced by the CAMs to produce stochastic image-level class predictions. This results in segmentations that cover a larger extent of the objects, as shown in our empirical studies. Second, we formulate a feature similarity loss term, which further improves the alignment of predicted contours with edges in the image. Furthermore, we shed new light onto the problem of WSSS by measuring the contour F-score as a complement to the common area mIoU metric. We show that our method significantly outperforms previous methods in terms of contour quality, while matching state-of-the-art on region similarity.