高い注釈コストは、セマンティックセグメンテーションシステムのトレーニングの主要なボトルネックです。したがって、アノテーションの労力が少ないメソッドは特に重要です。この論文は、半教師付きセマンティックセグメンテーションの問題を研究しています。これは、トレーニング画像の小さなサブセットのみに注釈が付けられ、他のトレーニング画像には注釈が含まれていないことを意味します。ラベルのない画像に存在する情報を活用するために、セマンティックセグメンテーションに関連するが簡単な2番目のタスクを学習することを提案します。ラベル付き画像では、潜在クラスに割り当てられたさまざまな意味クラスができるだけ低くなるように、意味クラスと一致する潜在クラスを学習します。ラベルのない画像では、潜在クラスの確率マップを予測し、セマンティックセグメンテーションを学習するための監視信号として使用します。潜在クラスとセマンティッククラスは、2分岐ネットワークによって同時に予測されます。 Pascal VOCとCityscapesの実験では、この方法で学習した潜在クラスが直感的な意味を持ち、提案手法が半教師付きセマンティックセグメンテーションの最新の結果を達成することを示しています。
High annotation costs are a major bottleneck for the training of semantic segmentation systems. Therefore, methods working with less annotation effort are of special interest. This paper studies the problem of semi-supervised semantic segmentation. This means that only a small subset of the training images is annotated while the other training images do not contain any annotation. In order to leverage the information present in the unlabeled images, we propose to learn a second task that is related to semantic segmentation but easier. On labeled images, we learn latent classes consistent with semantic classes so that the variety of semantic classes assigned to a latent class is as low as possible. On unlabeled images, we predict a probability map for latent classes and use it as a supervision signal to learn semantic segmentation. The latent classes, as well as the semantic classes, are simultaneously predicted by a two-branch network. In our experiments on Pascal VOC and Cityscapes, we show that the latent classes learned this way have an intuitive meaning and that the proposed method achieves state of the art results for semi-supervised semantic segmentation.