arXiv reaDer
鳥瞰図における多視点 3D オブジェクト検出のためのドメイン一般化に向けて
Towards Domain Generalization for Multi-view 3D Object Detection in Bird-Eye-View
Bird-Eye-View (BEV) でのマルチビュー 3D オブジェクト検出 (MV3D-Det) は、その低コストと高効率により大きな注目を集めています。カメラのみの 3D オブジェクト検出のための新しいアルゴリズムが継続的に提案されていますが、入力画像のドメインがトレーニングのドメインと異なる場合、それらのほとんどは大幅なパフォーマンス低下のリスクを負う可能性があります。この論文では、最初にMV3D-Detタスクのドメインギャップの原因を分析します。共変量シフトの仮定に基づいて、ギャップは主にBEVの特徴分布に起因することがわかります。これは、深度推定と2D画像の特徴表現の両方の品質によって決定されます。堅牢な深度予測を取得するために、メトリック深度の予測をスケール不変深度の予測に変換することで、カメラの固有パラメーター (つまり、焦点距離) から深度推定を切り離し、動的な視点の拡張を実行して多様性を高めることを提案します。ホモグラフィを利用した外因性パラメータ (つまり、カメラのポーズ) のさらに、焦点距離の値を変更して複数の疑似ドメインを作成し、敵対的トレーニング損失を構築して、特徴表現がよりドメインに依存しないようにします。付加機能がなければ、私たちのアプローチ、つまり DG-BEV は、ソース ドメインの精度を損なうことなく、目に見えないターゲット ドメインでのパフォーマンス低下を軽減することに成功しています。 Waymo、nuScenes、Lyft などのさまざまな公開データセットに対する広範な実験により、私たちのアプローチの一般化と有効性が実証されています。私たちの知る限り、これは MV3D-Det のドメイン一般化方法を調査する最初の体系的な研究です。
Multi-view 3D object detection (MV3D-Det) in Bird-Eye-View (BEV) has drawn extensive attention due to its low cost and high efficiency. Although new algorithms for camera-only 3D object detection have been continuously proposed, most of them may risk drastic performance degradation when the domain of input images differs from that of training. In this paper, we first analyze the causes of the domain gap for the MV3D-Det task. Based on the covariate shift assumption, we find that the gap mainly attributes to the feature distribution of BEV, which is determined by the quality of both depth estimation and 2D image's feature representation. To acquire a robust depth prediction, we propose to decouple the depth estimation from the intrinsic parameters of the camera (i.e. the focal length) through converting the prediction of metric depth to that of scale-invariant depth and perform dynamic perspective augmentation to increase the diversity of the extrinsic parameters (i.e. the camera poses) by utilizing homography. Moreover, we modify the focal length values to create multiple pseudo-domains and construct an adversarial training loss to encourage the feature representation to be more domain-agnostic. Without bells and whistles, our approach, namely DG-BEV, successfully alleviates the performance drop on the unseen target domain without impairing the accuracy of the source domain. Extensive experiments on various public datasets, including Waymo, nuScenes, and Lyft, demonstrate the generalization and effectiveness of our approach. To the best of our knowledge, this is the first systematic study to explore a domain generalization method for MV3D-Det.
updated: Fri Mar 03 2023 02:59:13 GMT+0000 (UTC)
published: Fri Mar 03 2023 02:59:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト