arXiv reaDer
疑似グラウンドトゥルースボックスのサンプリングによる半弱教師ありオブジェクト検出
Semi-Weakly Supervised Object Detection by Sampling Pseudo Ground-Truth Boxes
半教師あり学習と弱教師あり学習は、深層学習モデルのトレーニングを成功させるために必要な注釈のコストを軽減できるため、最近、オブジェクト検出の文献でかなりの注目を集めています。半教師あり学習の最先端のアプローチは、多段階プロセスとかなりのデータ拡張を使用してトレーニングされた学生と教師のモデルに依存しています。監視が弱い設定用にカスタムネットワークが開発されているため、さまざまな検出器に適応することが困難です。この論文では、これらのトレーニングの課題を軽減しながら、弱くラベル付けされた画像の情報を含む完全にラベル付けされた画像のごく一部のみを活用することにより、最先端のパフォーマンスを実現する、弱く半教師ありのトレーニング方法を紹介します。特に、私たちの一般的なサンプリングベースの学習戦略は、オンラインで疑似グラウンドトゥルース(GT)バウンディングボックスの注釈を生成し、多段階のトレーニングや学生と教師のネットワーク構成の必要性を排除します。これらの疑似GTボックスは、スコア伝播プロセスを介して蓄積されたオブジェクト提案のカテゴリスコアに基づいて、弱くラベル付けされた画像からサンプリングされます。 Pascal VOCデータセットの経験的結果は、提案されたアプローチが、完全にラベル付けされたデータとしてVOC 2007を使用し、弱いラベル付けされたデータとしてVOC 2012を使用すると、パフォーマンスを5.0%向上させることを示しています。また、5〜10%の完全に注釈が付けられた画像では、mAPで10%以上の改善が見られ、画像レベルの注釈への適度な投資が検出パフォーマンスを大幅に改善できることを示しています。
Semi- and weakly-supervised learning have recently attracted considerable attention in the object detection literature since they can alleviate the cost of annotation needed to successfully train deep learning models. State-of-art approaches for semi-supervised learning rely on student-teacher models trained using a multi-stage process, and considerable data augmentation. Custom networks have been developed for the weakly-supervised setting, making it difficult to adapt to different detectors. In this paper, a weakly semi-supervised training method is introduced that reduces these training challenges, yet achieves state-of-the-art performance by leveraging only a small fraction of fully-labeled images with information in weakly-labeled images. In particular, our generic sampling-based learning strategy produces pseudo-ground-truth (GT) bounding box annotations in an online fashion, eliminating the need for multi-stage training, and student-teacher network configurations. These pseudo GT boxes are sampled from weakly-labeled images based on the categorical score of object proposals accumulated via a score propagation process. Empirical results on the Pascal VOC dataset, indicate that the proposed approach improves performance by 5.0% when using VOC 2007 as fully-labeled, and VOC 2012 as weak-labeled data. Also, with 5-10% fully annotated images, we observed an improvement of more than 10% in mAP, showing that a modest investment in image-level annotation, can substantially improve detection performance.
updated: Thu Jun 16 2022 20:59:29 GMT+0000 (UTC)
published: Fri Apr 01 2022 00:44:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト