多視点画像から 3D オブジェクトを検出することは、3D コンピュータ ビジョンの基本的な問題です。最近、マルチビュー 3D 検出タスクで大きなブレークスルーが行われました。ただし、これらのビジョン BEV (鳥瞰図) 検出モデルの前例のない検出性能は、膨大なパラメーターと計算を伴うため、エッジ デバイスでは手頃な価格ではありません。この問題に対処するために、この論文では、構造化された知識の蒸留フレームワークを提案し、最新の視覚のみのBEV検出モデルの効率を改善することを目指しています。提案されたフレームワークには、主に次のものが含まれます。(a) さまざまなタイムスタンプとビューから情報融合に関する教師の知識を抽出する時空間抽出、(b) さまざまな柱に対する教師の応答を抽出する BEV 応答抽出、および (c) 問題を解決する重み継承。現代の変圧器アーキテクチャにおける学生と教師の間の矛盾した入力の問題。実験結果は、私たちの方法が nuScenes ベンチマークで 2.16 mAP と 2.27 NDS の平均改善をもたらし、複数のベースラインを大幅に上回ることを示しています。
Detecting 3D objects from multi-view images is a fundamental problem in 3D computer vision. Recently, significant breakthrough has been made in multi-view 3D detection tasks. However, the unprecedented detection performance of these vision BEV (bird's-eye-view) detection models is accompanied with enormous parameters and computation, which make them unaffordable on edge devices. To address this problem, in this paper, we propose a structured knowledge distillation framework, aiming to improve the efficiency of modern vision-only BEV detection models. The proposed framework mainly includes: (a) spatial-temporal distillation which distills teacher knowledge of information fusion from different timestamps and views, (b) BEV response distillation which distills teacher response to different pillars, and (c) weight-inheriting which solves the problem of inconsistent inputs between students and teacher in modern transformer architectures. Experimental results show that our method leads to an average improvement of 2.16 mAP and 2.27 NDS on the nuScenes benchmark, outperforming multiple baselines by a large margin.