セマンティックセグメンテーションの最先端のアプローチは、時間とお金の両方で収集するのに悪名高い費用がかかることが示されている完全な注釈付きデータセットでトレーニングされたディープコンボリューショナルニューラルネットワークに依存しています。この状況を改善するために、弱く監督された方法は、実質的に少ない注釈作業を必要とする他の形式の監視を活用しますが、通常、それらの地域の監視信号の近似的な性質により、正確なオブジェクト境界を予測することができません。パフォーマンスの改善は大きな進歩を遂げましたが、これらの弱く監視された方法の多くは、独自の特定の設定に合わせて高度に調整されています。これにより、アルゴリズムを再利用し、着実に進歩させるという課題が生じます。このホワイトペーパーでは、弱く監視されたセマンティックセグメンテーションに取り組む場合、このようなプラクティスを意図的に回避します。特に、ラベル付きピクセルの部分クロスエントロピー損失関数とラベルなしピクセルの提案されたゲーテッドCRF損失を使用して、標準ニューラルネットワークをトレーニングします。ゲーテッドCRF損失は、いくつかの重要な資産を提供するように設計されています。1)カーネル構築の柔軟性を可能にして、望ましくないピクセル位置からの影響を隠します。 2)学習コンテキスト関係をCNNにオフロードし、セマンティック境界に集中します。 3)高次元フィルタリングに依存しないため、実装が簡単です。論文全体を通して、損失関数の利点を示し、弱く監督されたトレーニングのいくつかの側面を分析し、「純粋主義」アプローチがクリックベースと落書きベースの両方のアノテーションに対して最先端のパフォーマンスを達成することを示します。
State-of-the-art approaches for semantic segmentation rely on deep convolutional neural networks trained on fully annotated datasets, that have been shown to be notoriously expensive to collect, both in terms of time and money. To remedy this situation, weakly supervised methods leverage other forms of supervision that require substantially less annotation effort, but they typically present an inability to predict precise object boundaries due to approximate nature of the supervisory signals in those regions. While great progress has been made in improving the performance, many of these weakly supervised methods are highly tailored to their own specific settings. This raises challenges in reusing algorithms and making steady progress. In this paper, we intentionally avoid such practices when tackling weakly supervised semantic segmentation. In particular, we train standard neural networks with partial cross-entropy loss function for the labeled pixels and our proposed Gated CRF loss for the unlabeled pixels. The Gated CRF loss is designed to deliver several important assets: 1) it enables flexibility in the kernel construction to mask out influence from undesired pixel positions; 2) it offloads learning contextual relations to CNN and concentrates on semantic boundaries; 3) it does not rely on high-dimensional filtering and thus has a simple implementation. Throughout the paper we present the advantages of the loss function, analyze several aspects of weakly supervised training, and show that our `purist' approach achieves state-of-the-art performance for both click-based and scribble-based annotations.