セマンティックセグメンテーションモデルのトレーニングに関連するアノテーションコストを最小限に抑えるために、研究者は弱く監督されたセグメンテーションアプローチを広く調査しています。現在の弱監督セグメンテーション法では、最も広く採用されているアプローチは視覚化に基づいています。ただし、視覚化の結果は通常、セマンティックセグメンテーションとは異なります。したがって、弱く監視された条件下で正確なセマンティックセグメンテーションを実行するには、視覚化の結果をセマンティックセグメンテーションに変換するマッピング関数を考慮する必要があります。このようなマッピング関数では、通常、条件付きランダムフィールドと、セグメンテーションモデルの出力を使用した反復再トレーニングが使用されます。ただし、これらの方法は常に精度の向上を保証するものではありません。したがって、これらのマッピング関数を複数回繰り返し適用すると、最終的には精度が向上しないか、低下します。このホワイトペーパーでは、このようなマッピング関数を最大限に活用するために、マッピング関数の結果にノイズが含まれると想定し、ノイズを除去することで精度を向上させます。目的を達成するために、マッピングの前後のセグメンテーションマスク間の差を予測することにより、マッピング関数の結果からノイズを推定する自己教師付き差分検出モジュールを提案します。 PASCAL Visual Object Classes 2012データセットで実験を行うことにより、提案された方法の有効性を検証し、valセットで64.9%、testセットで65.5%を達成しました。両方の結果は、弱く監督されたセマンティックセグメンテーションの同じ設定の下で、最新の状態になります。
To minimize the annotation costs associated with the training of semantic segmentation models, researchers have extensively investigated weakly-supervised segmentation approaches. In the current weakly-supervised segmentation methods, the most widely adopted approach is based on visualization. However, the visualization results are not generally equal to semantic segmentation. Therefore, to perform accurate semantic segmentation under the weakly supervised condition, it is necessary to consider the mapping functions that convert the visualization results into semantic segmentation. For such mapping functions, the conditional random field and iterative re-training using the outputs of a segmentation model are usually used. However, these methods do not always guarantee improvements in accuracy; therefore, if we apply these mapping functions iteratively multiple times, eventually the accuracy will not improve or will decrease. In this paper, to make the most of such mapping functions, we assume that the results of the mapping function include noise, and we improve the accuracy by removing noise. To achieve our aim, we propose the self-supervised difference detection module, which estimates noise from the results of the mapping functions by predicting the difference between the segmentation masks before and after the mapping. We verified the effectiveness of the proposed method by performing experiments on the PASCAL Visual Object Classes 2012 dataset, and we achieved 64.9% in the val set and 65.5% in the test set. Both of the results become new state-of-the-art under the same setting of weakly supervised semantic segmentation.