arXiv reaDer
ラベル効率の高いセマンティックセグメンテーションのための対照学習
Contrastive Learning for Label-Efficient Semantic Segmentation
セマンティックセグメンテーションのタスクのためにラベル付けされたデータを収集するには、高密度のピクセルレベルの注釈が必要になるため、費用と時間がかかります。最近の畳み込みニューラルネットワーク(CNN)ベースのセマンティックセグメンテーションアプローチは、大量のラベル付きトレーニングデータを使用することで印象的な結果を達成しましたが、ラベル付きデータの量が減少すると、パフォーマンスが大幅に低下します。これは、事実上のクロスエントロピー損失でトレーニングされた深いCNNが、少量のラベル付きデータに簡単にオーバーフィットする可能性があるために発生します。この問題に対処するために、最初にピクセル単位のラベルベースの対照損失を使用してネットワークを事前トレーニングし、次にクロスエントロピー損失を使用してネットワークを微調整する、シンプルで効果的な対照学習ベースのトレーニング戦略を提案します。このアプローチにより、クラス内のコンパクト性とクラス間の分離可能性が向上し、その結果、ピクセル分類器が向上します。 CityscapesおよびPASCALVOC 2012セグメンテーションデータセットを使用して、提案されたトレーニング戦略の有効性を示します。私たちの結果は、提案された対照的な損失を使用した事前トレーニングにより、ラベル付けされたデータの量が制限されている場合に、パフォーマンスが大幅に向上することを示しています(一部の設定では20%を超える絶対的な改善)。多くの設定で、追加のデータを使用しない提案された対照的な事前トレーニング戦略は、100万を超える追加のラベル付き画像を使用する広く使用されているImageNet事前トレーニング戦略と一致またはそれを上回ることができます。
Collecting labeled data for the task of semantic segmentation is expensive and time-consuming, as it requires dense pixel-level annotations. While recent Convolutional Neural Network (CNN) based semantic segmentation approaches have achieved impressive results by using large amounts of labeled training data, their performance drops significantly as the amount of labeled data decreases. This happens because deep CNNs trained with the de facto cross-entropy loss can easily overfit to small amounts of labeled data. To address this issue, we propose a simple and effective contrastive learning-based training strategy in which we first pretrain the network using a pixel-wise, label-based contrastive loss, and then fine-tune it using the cross-entropy loss. This approach increases intra-class compactness and inter-class separability, thereby resulting in a better pixel classifier. We demonstrate the effectiveness of the proposed training strategy using the Cityscapes and PASCAL VOC 2012 segmentation datasets. Our results show that pretraining with the proposed contrastive loss results in large performance gains (more than 20% absolute improvement in some settings) when the amount of labeled data is limited. In many settings, the proposed contrastive pretraining strategy, which does not use any additional data, is able to match or outperform the widely-used ImageNet pretraining strategy that uses more than a million additional labeled images.
updated: Wed Aug 18 2021 19:48:24 GMT+0000 (UTC)
published: Sun Dec 13 2020 07:05:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト