自動運転のために補完的なセンサーからの表現をどのように統合する必要がありますか?ジオメトリベースの融合は、知覚(たとえば、オブジェクト検出、モーション予測)の可能性を示しています。ただし、エンドツーエンドの運転のコンテキストでは、既存のセンサーフュージョン手法に基づく模倣学習は、高密度の動的エージェントを使用する複雑な運転シナリオでは不十分であることがわかります。したがって、自己注意を使用して画像とLiDAR表現を統合するメカニズムであるTransFuserを提案します。私たちのアプローチでは、複数の解像度の変圧器モジュールを使用して、透視図と鳥瞰図の機能マップを融合します。長いルートと密集した交通量を伴う挑戦的な新しいベンチマーク、およびCARLA都市運転シミュレーターの公式リーダーボードでその有効性を実験的に検証します。提出の時点で、TransFuserは、スコアを大幅に向上させるという点で、CARLAリーダーボードでの以前のすべての作業を上回っています。ジオメトリベースのフュージョンと比較して、TransFuserは1キロメートルあたりの平均衝突を48%削減します。
How should we integrate representations from complementary sensors for autonomous driving? Geometry-based fusion has shown promise for perception (e.g. object detection, motion forecasting). However, in the context of end-to-end driving, we find that imitation learning based on existing sensor fusion methods underperforms in complex driving scenarios with a high density of dynamic agents. Therefore, we propose TransFuser, a mechanism to integrate image and LiDAR representations using self-attention. Our approach uses transformer modules at multiple resolutions to fuse perspective view and bird's eye view feature maps. We experimentally validate its efficacy on a challenging new benchmark with long routes and dense traffic, as well as the official leaderboard of the CARLA urban driving simulator. At the time of submission, TransFuser outperforms all prior work on the CARLA leaderboard in terms of driving score by a large margin. Compared to geometry-based fusion, TransFuser reduces the average collisions per kilometer by 48%.