arXiv reaDer
単眼3Dオブジェクト検出のためのクロスモダリティ知識蒸留ネットワーク
Cross-Modality Knowledge Distillation Network for Monocular 3D Object Detection
LiDAR ベースの検出器または実際の LiDAR ポイント データを活用して単眼 3D 検出をガイドすることで、疑似 LiDAR 法などの大幅な改善がもたらされました。ただし、既存の方法は通常、非エンドツーエンドのトレーニング戦略を適用し、LiDAR データの豊富な可能性が十分に活用されていない LiDAR 情報を十分に活用していません。このホワイトペーパーでは、単眼3D検出用のクロスモダリティ知識蒸留(CMKD)ネットワークを提案し、特徴と応答の両方でLiDARモダリティから画像モダリティに知識を効率的かつ直接転送します。さらに、大規模なラベル付けされていないデータから知識を抽出することにより、CMKD を半教師付きトレーニング フレームワークとしてさらに拡張し、パフォーマンスを大幅に向上させます。提出するまで、CMKD は単眼 3D 検出器の中で 1 位にランクされており、KITTI テスト セットと Waymo val セットの両方に関する出版物があり、以前の最先端の方法と比較してパフォーマンスが大幅に向上しています。
Leveraging LiDAR-based detectors or real LiDAR point data to guide monocular 3D detection has brought significant improvement, e.g., Pseudo-LiDAR methods. However, the existing methods usually apply non-end-to-end training strategies and insufficiently leverage the LiDAR information, where the rich potential of the LiDAR data has not been well exploited. In this paper, we propose the Cross-Modality Knowledge Distillation (CMKD) network for monocular 3D detection to efficiently and directly transfer the knowledge from LiDAR modality to image modality on both features and responses. Moreover, we further extend CMKD as a semi-supervised training framework by distilling knowledge from large-scale unlabeled data and significantly boost the performance. Until submission, CMKD ranks 1^st among the monocular 3D detectors with publications on both KITTI test set and Waymo val set with significant performance gains compared to previous state-of-the-art methods.
updated: Mon Nov 14 2022 08:05:37 GMT+0000 (UTC)
published: Mon Nov 14 2022 08:05:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト