arXiv reaDer
ジオメトリガイドカーネルトランスフォーマーによる効率的でロバストな2DからBEVへの表現学習
Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer
自動運転では、周囲のビューカメラからバーズアイビュー(BEV)の表現を学習することが非常に重要です。この作業では、新しい2DからBEVへの表現学習メカニズムであるGeometry-guided Kernel Transformer(GKT)を提案します。 GKTは、幾何学的事前分布を利用して、トランスフォーマーが識別領域に焦点を合わせ、カーネル機能を展開してBEV表現を生成するようにガイドします。高速推論のために、ルックアップテーブル(LUT)インデックス作成方法をさらに導入して、実行時にカメラのキャリブレーションされたパラメーターを取り除きます。 GKTは、3090GPUでは72.3FPS、2080tiGPUでは45.6FPSで実行でき、カメラの偏差と事前定義されたBEVの高さに対して堅牢です。また、GKTは、最先端のリアルタイムセグメンテーション結果、つまり、nuScenesvalセットで38.0mIoU(0.5mの解像度で100m×100mの知覚範囲)を実現します。効率、有効性、および堅牢性を考えると、GKTは、特にリアルタイム実行システムの場合、自動操縦シナリオで非常に実用的な価値があります。コードとモデルはhttps://github.com/hustvl/GKTで入手できます。
Learning Bird's Eye View (BEV) representation from surrounding-view cameras is of great importance for autonomous driving. In this work, we propose a Geometry-guided Kernel Transformer (GKT), a novel 2D-to-BEV representation learning mechanism. GKT leverages the geometric priors to guide the transformer to focus on discriminative regions and unfolds kernel features to generate BEV representation. For fast inference, we further introduce a look-up table (LUT) indexing method to get rid of the camera's calibrated parameters at runtime. GKT can run at 72.3 FPS on 3090 GPU / 45.6 FPS on 2080ti GPU and is robust to the camera deviation and the predefined BEV height. And GKT achieves the state-of-the-art real-time segmentation results, i.e., 38.0 mIoU (100m×100m perception range at a 0.5m resolution) on the nuScenes val set. Given the efficiency, effectiveness, and robustness, GKT has great practical values in autopilot scenarios, especially for real-time running systems. Code and models will be available at https://github.com/hustvl/GKT.
updated: Thu Jun 09 2022 16:05:08 GMT+0000 (UTC)
published: Thu Jun 09 2022 16:05:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト