End-to-End Semi-Supervised Object Detection with Soft Teacher
このホワイトペーパーでは、以前のより複雑な多段階の方法とは対照的に、エンドツーエンドの半教師ありオブジェクト検出アプローチを紹介します。エンドツーエンドのトレーニングは、カリキュラム中の疑似ラベルの品質を徐々に向上させ、より正確な疑似ラベルは、オブジェクト検出トレーニングに役立ちます。また、このフレームワーク内で2つのシンプルで効果的な手法を提案します。ラベルのない各境界ボックスの分類損失が教師ネットワークによって生成された分類スコアによって重み付けされるソフト教師メカニズム。ボックス回帰の学習のために信頼できる疑似ボックスを選択するためのボックスジッターアプローチ。 COCOベンチマークでは、提案されたアプローチは、さまざまなラベル付け比率(1%、5%、および10%)の下で、以前の方法を大幅に上回っています。さらに、私たちのアプローチは、ラベル付けされたデータの量が比較的多い場合にもうまく機能することが証明されています。たとえば、COCOの123Kのラベルなし画像を活用することで、+ 3.6mAPで設定された完全なCOCOトレーニングを使用してトレーニングされた40.9mAPベースライン検出器を改善して44.5mAPに到達させることができます。最先端のSwinTransformerベースのオブジェクト検出器(test-devで58.9 mAP)では、検出精度が+1.5 mAP向上し、60.4 mAPに達し、インスタンスのセグメンテーション精度が+ 1.2mAP向上します。 、52.4mAPに達します。 Object365の事前トレーニング済みモデルをさらに組み込むと、検出精度は61.3 mAPに達し、インスタンスのセグメンテーション精度は53.0 mAPに達し、新しい最先端技術を推進します。
This paper presents an end-to-end semi-supervised object detection approach, in contrast to previous more complex multi-stage methods. The end-to-end training gradually improves pseudo label qualities during the curriculum, and the more and more accurate pseudo labels in turn benefit object detection training. We also propose two simple yet effective techniques within this framework: a soft teacher mechanism where the classification loss of each unlabeled bounding box is weighed by the classification score produced by the teacher network; a box jittering approach to select reliable pseudo boxes for the learning of box regression. On the COCO benchmark, the proposed approach outperforms previous methods by a large margin under various labeling ratios, i.e. 1%, 5% and 10%. Moreover, our approach proves to perform also well when the amount of labeled data is relatively large. For example, it can improve a 40.9 mAP baseline detector trained using the full COCO training set by +3.6 mAP, reaching 44.5 mAP, by leveraging the 123K unlabeled images of COCO. On the state-of-the-art Swin Transformer based object detector (58.9 mAP on test-dev), it can still significantly improve the detection accuracy by +1.5 mAP, reaching 60.4 mAP, and improve the instance segmentation accuracy by +1.2 mAP, reaching 52.4 mAP. Further incorporating with the Object365 pre-trained model, the detection accuracy reaches 61.3 mAP and the instance segmentation accuracy reaches 53.0 mAP, pushing the new state-of-the-art.
updated: Fri Aug 06 2021 16:28:39 GMT+0000 (UTC)
published: Wed Jun 16 2021 17:59:30 GMT+0000 (UTC)
