arXiv reaDer
Weakly-Supervised Semantic Segmentation by Learning Label Uncertainty
ディープラーニングの台頭以来、多くのコンピュータービジョンタスクは大きな進歩を遂げてきました。ただし、ディープラーニングの欠点は、データを大量に消費することです。特にセグメンテーションの問題の場合、深いニューラルネットをトレーニングするには、ピクセル単位の完全な画像ラベルの形式で高密度の監視が必要であり、これには非常にコストがかかります。この論文では、ピクセルパーフェクトラベルの小さなサブセットのみでセグメンテーションネットワークをトレーニングするための新しい損失関数を提示しますが、安価なバウンディングボックスラベルの形式で弱く注釈が付けられたトレーニングサンプルを利用します。ボックスからマスクへの提案ジェネレーターを使用する最近の作業とは異なり、私たちの損失は、境界ボックス内のラベルの不確実性を学習するようにネットワークをトレーニングします。これを利用して、オンラインブートストラップ(つまり、ボックスをセグメンテーションマスクに変換する)を実行できます。ネットワークのトレーニング。バイナリセグメンテーションタスクとマルチクラスセグメンテーションタスク(CityScapes車両と人)でメソッドを評価しました。 18%のピクセルパーフェクトラベルと82%のバウンディングボックスラベルのみで構成されるデータセットで各タスクをトレーニングし、その結果を完全にピクセルパーフェクトなデータセットでトレーニングされたベースラインモデルと比較しました。バイナリセグメンテーションタスクの場合、私たちの方法はベースラインモデルの約98.33%のIoUスコアを達成しますが、マルチクラスタスクの場合、私たちの方法はベースラインモデルの97.12%です(77.5対79.8 mIoU) 。
Since the rise of deep learning, many computer vision tasks have seen significant advancements. However, the downside of deep learning is that it is very data-hungry. Especially for segmentation problems, training a deep neural net requires dense supervision in the form of pixel-perfect image labels, which are very costly. In this paper, we present a new loss function to train a segmentation network with only a small subset of pixel-perfect labels, but take the advantage of weakly-annotated training samples in the form of cheap bounding-box labels. Unlike recent works which make use of box-to-mask proposal generators, our loss trains the network to learn a label uncertainty within the bounding-box, which can be leveraged to perform online bootstrapping (i.e. transforming the boxes to segmentation masks), while training the network. We evaluated our method on binary segmentation tasks, as well as a multi-class segmentation task (CityScapes vehicles and persons). We trained each task on a dataset comprised of only 18% pixel-perfect and 82% bounding-box labels, and compared the results to a baseline model trained on a completely pixel-perfect dataset. For the binary segmentation tasks, our method achieves an IoU score which is ~98.33% as good as our baseline model, while for the multi-class task, our method is 97.12% as good as our baseline model (77.5 vs. 79.8 mIoU).
updated: Tue Oct 12 2021 12:19:22 GMT+0000 (UTC)
published: Tue Oct 12 2021 12:19:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト