arXiv reaDer
アクティブな半教師あり学習によるセマンティックセグメンテーション
Semantic Segmentation with Active Semi-Supervised Learning
ディープラーニングを使用して、非常に優れたセマンティックセグメンテーションシステムを作成できるようになりました。ただし、画像をトレーニングするための前提条件となるピクセル単位の注釈を収集することは、依然として費用と時間がかかります。したがって、新しいデータセットを作成するときに必要な人間の注釈の数を最小限に抑えることが理想的です。ここでは、能動学習と半教師あり学習を組み合わせた新しいアルゴリズムを提案することで、この問題に対処します。アクティブラーニングは、注釈を付けるのに最適なラベルのないサンプルを特定するためのアプローチです。セグメンテーションのアクティブラーニングに関する作業が行われていますが、ほとんどの方法では、最も有益な領域だけでなく、各画像のすべてのピクセルオブジェクトに注釈を付ける必要があります。これは非効率的であると私たちは主張します。代わりに、私たちの能動学習アプローチは、画像ごとの注釈の数を最小限に抑えることを目的としています。私たちの方法は、半教師あり学習で強化されています。この学習では、教師と生徒のフレームワークで生成された疑似ラベルを使用して、混乱したクラスの明確化に役立つ画像領域を識別します。また、セマンティックセグメンテーションのアクティブラーニングについてこれまで研究されていなかった、不均衡なラベル分布のパフォーマンスを向上させるメカニズムを統合します。 CamVidおよびCityScapesデータセットでの実験では、17%未満のトレーニングデータを使用して、フルトレーニングセットでネットワークのパフォーマンスの95%以上を取得しますが、以前の最先端技術ではトレーニングデータの40%が必要でした。
Using deep learning, we now have the ability to create exceptionally good semantic segmentation systems; however, collecting the prerequisite pixel-wise annotations for training images remains expensive and time-consuming. Therefore, it would be ideal to minimize the number of human annotations needed when creating a new dataset. Here, we address this problem by proposing a novel algorithm that combines active learning and semi-supervised learning. Active learning is an approach for identifying the best unlabeled samples to annotate. While there has been work on active learning for segmentation, most methods require annotating all pixel objects in each image, rather than only the most informative regions. We argue that this is inefficient. Instead, our active learning approach aims to minimize the number of annotations per-image. Our method is enriched with semi-supervised learning, where we use pseudo labels generated with a teacher-student framework to identify image regions that help disambiguate confused classes. We also integrate mechanisms that enable better performance on imbalanced label distributions, which have not been studied previously for active learning in semantic segmentation. In experiments on the CamVid and CityScapes datasets, our method obtains over 95% of the network's performance on the full-training set using less than 17% of the training data, whereas the previous state of the art required 40% of the training data.
updated: Mon May 16 2022 01:10:21 GMT+0000 (UTC)
published: Mon Mar 21 2022 04:16:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト