弱く監督されたセマンティックセグメンテーションは、トレーニングの監督として画像レベルの情報のみを取得し、テストのピクセルレベルの予測を生成するため、困難なタスクです。このような困難なタスクに対処するため、最新の最先端のアプローチでは、2段階のソリューションを採用することを提案しています。つまり、1)擬似ピクセルレベルマスクの生成を学習し、2)FCNを関与させてセマンティックセグメンテーションネットワークをトレーニングします擬似マスク。ただし、2段階のソリューションでは通常、高品質の擬似マスクを作成する際に多くの機能を使用するため、この種の方法は複雑で洗練されていません。この作業では、画像レベルのラベルを利用して信頼性の高いピクセルレベルの注釈を生成し、完全にエンドツーエンドのネットワークを設計して、セグメンテーションマップの予測を学習します。具体的には、最初に画像分類ブランチを活用して、注釈付きカテゴリのクラスアクティベーションマップを生成します。これらのカテゴリは、自信のある小さなオブジェクト/背景領域にさらに整理されます。このような信頼できる領域は、並列セグメンテーションブランチのグラウンドトゥルースラベルとして直接機能し、新しく設計された高密度エネルギー損失関数が最適化のために採用されます。見かけのシンプルさにもかかわらず、当社のワンステップソリューションは、2段階の最新技術と比較して、Pascal VOCで競争力のあるmIoUスコア(val:62.6、test:62.9)を達成しています。ワンステップメソッドをツーステップに拡張することにより、Pascal VOCで新しい最先端のパフォーマンスを得ることができます(val:66.3、test:66.5)。
Weakly supervised semantic segmentation is a challenging task as it only takes image-level information as supervision for training but produces pixel-level predictions for testing. To address such a challenging task, most recent state-of-the-art approaches propose to adopt two-step solutions, i.e. 1) learn to generate pseudo pixel-level masks, and 2) engage FCNs to train the semantic segmentation networks with the pseudo masks. However, the two-step solutions usually employ many bells and whistles in producing high-quality pseudo masks, making this kind of methods complicated and inelegant. In this work, we harness the image-level labels to produce reliable pixel-level annotations and design a fully end-to-end network to learn to predict segmentation maps. Concretely, we firstly leverage an image classification branch to generate class activation maps for the annotated categories, which are further pruned into confident yet tiny object/background regions. Such reliable regions are then directly served as ground-truth labels for the parallel segmentation branch, where a newly designed dense energy loss function is adopted for optimization. Despite its apparent simplicity, our one-step solution achieves competitive mIoU scores (val: 62.6, test: 62.9) on Pascal VOC compared with those two-step state-of-the-arts. By extending our one-step method to two-step, we get a new state-of-the-art performance on the Pascal VOC (val: 66.3, test: 66.5).