画像レベルのラベルを使用した弱教師ありセマンティックセグメンテーション(WSSS)メソッドは、通常、分類ネットワークをトレーニングして、初期の粗セグメンテーションラベルとしてクラスアクティベーションマップ(CAM)を生成します。ただし、現在のWSSSメソッドは、採用されたCAMが1)通常、部分的に識別可能なオブジェクト領域に焦点を合わせ、2)通常、役に立たない背景領域を含むため、満足のいくパフォーマンスにはほど遠いです。これらの2つの問題は、分類ネットワークをトレーニングする際の唯一の画像レベルの監視とグローバル情報の集約に起因します。この作業では、視覚的な単語学習モジュールとハイブリッドプーリングアプローチを提案し、それらを分類ネットワークに組み込んで、上記の問題を軽減します。視覚的単語学習モジュールでは、より多くのオブジェクト範囲を発見できるように、分類ネットワークにきめの細かい視覚的単語ラベルを学習させることで、最初の問題に対処します。具体的には、視覚的な単語はコードブックで学習されます。コードブックは、学習ベースの戦略とメモリバンク戦略の2つの提案された戦略を介して更新できます。 CAMの2番目の欠点は、提案されたハイブリッドプーリングによって軽減されます。これは、グローバル平均とローカルの識別情報を組み込んで、オブジェクトの完全性を確保し、背景領域を減らすと同時に行います。 PASCAL VOC2012およびMSCOCO2014データセットでメソッドを評価しました。事前の追加の顕著性なしで、私たちの方法は、PASCAL VOCデータセットのvalおよびテストセットでそれぞれ70.6%および70.7%mIoUを達成し、MS COCOデータセットのvalセットで36.2%mIoUを達成しました。 -最先端のWSSSメソッド。
Weakly-Supervised Semantic Segmentation (WSSS) methods with image-level labels generally train a classification network to generate the Class Activation Maps (CAMs) as the initial coarse segmentation labels. However, current WSSS methods still perform far from satisfactorily because their adopted CAMs 1) typically focus on partial discriminative object regions and 2) usually contain useless background regions. These two problems are attributed to the sole image-level supervision and aggregation of global information when training the classification networks. In this work, we propose the visual words learning module and hybrid pooling approach, and incorporate them in the classification network to mitigate the above problems. In the visual words learning module, we counter the first problem by enforcing the classification network to learn fine-grained visual word labels so that more object extents could be discovered. Specifically, the visual words are learned with a codebook, which could be updated via two proposed strategies, i.e. learning-based strategy and memory-bank strategy. The second drawback of CAMs is alleviated with the proposed hybrid pooling, which incorporates the global average and local discriminative information to simultaneously ensure object completeness and reduce background regions. We evaluated our methods on PASCAL VOC 2012 and MS COCO 2014 datasets. Without any extra saliency prior, our method achieved 70.6% and 70.7% mIoU on the val and test set of PASCAL VOC dataset, respectively, and 36.2% mIoU on the val set of MS COCO dataset, which significantly surpassed the performance of state-of-the-art WSSS methods.