arXiv reaDer
ピクセルレベルのラベルノイズからの学習:半教師ありセマンティックセグメンテーションの新しい視点
Learning from Pixel-Level Label Noise: A New Perspective for Semi-Supervised Semantic Segmentation
このホワイトペーパーでは、ピクセルレベルの注釈付きの画像の小さなセット(強力な監視)と画像レベルの注釈のみの画像の大きなセット(弱い監視)を活用することにより、半教師ありセマンティックセグメンテーションについて説明します。ほとんどの既存のアプローチは、弱い監視から正確なピクセルレベルのラベルを生成することを目的としています。ただし、これらの生成されたラベルには、必然的にノイズの多いラベルが含まれていることがわかります。この観察に動機付けられて、我々は新しい視点を提示し、ピクセルレベルのラベルノイズで学習する問題としてこのタスクを定式化します。それにもかかわらず、既存のノイズの多いラベル方法は、主に画像レベルのタスクを目的としており、1つの画像内の隣接するラベル間の関係をキャプチャすることはできません。したがって、ピクセルレベルのノイズの多いラベルを処理するために、グラフベースのラベルノイズ検出および補正フレームワークを提案します。特に、クラスアクティベーションマップ(CAM)による弱い監視から生成されたピクセルレベルのノイズの多いラベルについて、クロスエントロピー損失に従ってこれらのノイズの多いラベルからクリーンなラベルを検出するために、強い監視を備えたクリーンなセグメンテーションモデルをトレーニングします。次に、スーパーピクセルベースのグラフを採用して、1つの画像内のピクセル間の空間的隣接性と意味的類似性の関係を表します。最後に、検出されたクリーンなラベルによって監視されるGraph Attention Network(GAT)を使用して、ノイズの多いラベルを修正します。 PASCAL VOC 2012、PASCAL-Context、MS-COCOデータセットの実験を包括的に実施します。実験結果は、提案された半教師あり方法が最先端のパフォーマンスを達成し、場合によってはPASCAL VOC2012およびMS-COCOデータセットの完全教師ありモデルよりも優れていることを示しています。
This paper addresses semi-supervised semantic segmentation by exploiting a small set of images with pixel-level annotations (strong supervisions) and a large set of images with only image-level annotations (weak supervisions). Most existing approaches aim to generate accurate pixel-level labels from weak supervisions. However, we observe that those generated labels still inevitably contain noisy labels. Motivated by this observation, we present a novel perspective and formulate this task as a problem of learning with pixel-level label noise. Existing noisy label methods, nevertheless, mainly aim at image-level tasks, which can not capture the relationship between neighboring labels in one image. Therefore, we propose a graph based label noise detection and correction framework to deal with pixel-level noisy labels. In particular, for the generated pixel-level noisy labels from weak supervisions by Class Activation Map (CAM), we train a clean segmentation model with strong supervisions to detect the clean labels from these noisy labels according to the cross-entropy loss. Then, we adopt a superpixel-based graph to represent the relations of spatial adjacency and semantic similarity between pixels in one image. Finally we correct the noisy labels using a Graph Attention Network (GAT) supervised by detected clean labels. We comprehensively conduct experiments on PASCAL VOC 2012, PASCAL-Context and MS-COCO datasets. The experimental results show that our proposed semi supervised method achieves the state-of-the-art performances and even outperforms the fully-supervised models on PASCAL VOC 2012 and MS-COCO datasets in some cases.
updated: Fri Mar 26 2021 03:23:21 GMT+0000 (UTC)
published: Fri Mar 26 2021 03:23:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト