自動運転車の大規模な展開は、安全上の懸念から継続的に遅れています。一方では、包括的なシーンの理解が不可欠であり、それが欠けていると、未知のオブジェクトの突然の出現など、まれではあるが複雑な交通状況に対する脆弱性が生じます。ただし、グローバルなコンテキストからの推論には、複数のタイプのセンサーへのアクセスと、マルチモーダルセンサー信号の適切な融合が必要であり、これを達成することは困難です。一方で、学習モデルの解釈可能性の欠如は、検証不能な失敗原因による安全性の妨げにもなります。このホワイトペーパーでは、包括的なシーンの理解と敵対的イベントの検出を実現するために、マルチモーダルマルチビューセンサーからの情報を完全に処理および融合する、Interpretable Sensor Fusion Transformer(InterFuser)という名前の安全性が強化された自動運転フレームワークを提案します。さらに、中間の解釈可能な機能がフレームワークから生成され、より多くのセマンティクスを提供し、安全なセット内にあるアクションをより適切に制限するために利用されます。 CARLA ベンチマークで大規模な実験を行ったところ、モデルは以前の方法よりも優れており、公開の CARLA リーダーボードで 1 位にランクされました。私たちのコードは、https://github.com/opendilab/InterFuser で公開されます。
Large-scale deployment of autonomous vehicles has been continually delayed due to safety concerns. On the one hand, comprehensive scene understanding is indispensable, a lack of which would result in vulnerability to rare but complex traffic situations, such as the sudden emergence of unknown objects. However, reasoning from a global context requires access to sensors of multiple types and adequate fusion of multi-modal sensor signals, which is difficult to achieve. On the other hand, the lack of interpretability in learning models also hampers the safety with unverifiable failure causes. In this paper, we propose a safety-enhanced autonomous driving framework, named Interpretable Sensor Fusion Transformer(InterFuser), to fully process and fuse information from multi-modal multi-view sensors for achieving comprehensive scene understanding and adversarial event detection. Besides, intermediate interpretable features are generated from our framework, which provide more semantics and are exploited to better constrain actions to be within the safe sets. We conducted extensive experiments on CARLA benchmarks, where our model outperforms prior methods, ranking the first on the public CARLA Leaderboard. Our code will be made available at https://github.com/opendilab/InterFuser