arXiv reaDer
ミックスティーチング:単眼3Dオブジェクト検出のためのシンプルで統一された効果的な半教師あり学習フレームワーク
Mix-Teaching: A Simple, Unified and Effective Semi-Supervised Learning Framework for Monocular 3D Object Detection
単眼3Dオブジェクト検出は、自動運転に不可欠な知覚タスクです。ただし、大規模なラベル付きデータへの依存度が高いため、モデルの最適化中にコストと時間がかかります。このような人間の注釈への過度の依存を減らすために、トレーニング段階でラベル付き画像とラベルなし画像の両方を使用するために適用できる効果的な半教師あり学習フレームワークであるMix-Teachingを提案します。 Mix-Teachingは、最初に自己トレーニングによってラベルのない画像の疑似ラベルを生成します。次に、学生モデルは、インスタンスレベルの画像パッチを空の背景またはラベル付けされた画像にマージすることにより、はるかに集中的で正確なラベル付けを備えた混合画像でトレーニングされます。これは、画像レベルの制限を打ち破り、半教師ありトレーニングのためにマルチフレームからの高品質の疑似ラベルを1つの画像に配置する最初の方法です。さらに、信頼スコアとローカリゼーション品質の間の不整合の結果として、信頼ベースの基準のみを使用して、高品質の疑似ラベルとノイズの多い予測を区別することは困難です。そのために、不確実性ベースのフィルターをさらに導入して、上記の混合操作で信頼性の高い疑似ボックスを選択できるようにします。私たちの知る限り、これは単眼3Dオブジェクト検出のための最初の統合SSLフレームワークです。 Mix-Teachingは、KITTIデータセットのさまざまなラベル付け比率の下で、MonoFlexとGUPNetを大幅に改善します。たとえば、私たちの方法では、10%のラベル付きデータのみを使用した場合、検証セットでGUPNetベースラインに対して約+ 6.34%のAP@0.7の改善が達成されます。さらに、完全なトレーニングセットとKITTIの追加の48K生画像を活用することで、MonoFlexをさらに改善して車の検出用のAP @0.7を+4.65%改善し、18.54%AP @ 0.7に到達します。これは、すべての単眼鏡の中で1位です。 KITTIテストリーダーボードに基づくメソッド。コードと事前トレーニング済みモデルは、https://github.com/yanglei18/Mix-Teachingでリリースされます。
Monocular 3D object detection is an essential perception task for autonomous driving. However, the high reliance on large-scale labeled data make it costly and time-consuming during model optimization. To reduce such over-reliance on human annotations, we propose Mix-Teaching, an effective semi-supervised learning framework applicable to employ both labeled and unlabeled images in training stage. Mix-Teaching first generates pseudo-labels for unlabeled images by self-training. The student model is then trained on the mixed images possessing much more intensive and precise labeling by merging instance-level image patches into empty backgrounds or labeled images. This is the first to break the image-level limitation and put high-quality pseudo labels from multi frames into one image for semi-supervised training. Besides, as a result of the misalignment between confidence score and localization quality, it's hard to discriminate high-quality pseudo-labels from noisy predictions using only confidence-based criterion. To that end, we further introduce an uncertainty-based filter to help select reliable pseudo boxes for the above mixing operation. To the best of our knowledge, this is the first unified SSL framework for monocular 3D object detection. Mix-Teaching consistently improves MonoFlex and GUPNet by significant margins under various labeling ratios on KITTI dataset. For example, our method achieves around +6.34% AP@0.7 improvement against the GUPNet baseline on validation set when using only 10% labeled data. Besides, by leveraging full training set and the additional 48K raw images of KITTI, it can further improve the MonoFlex by +4.65% improvement on AP@0.7 for car detection, reaching 18.54% AP@0.7, which ranks the 1st place among all monocular based methods on KITTI test leaderboard. The code and pretrained models will be released at https://github.com/yanglei18/Mix-Teaching.
updated: Sun Jul 10 2022 12:07:25 GMT+0000 (UTC)
published: Sun Jul 10 2022 12:07:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト