arXiv reaDer
NEAT:エンドツーエンドの自動運転のための神経注意フィールド
NEAT: Neural Attention Fields for End-to-End Autonomous Driving
シーンの意味的、空間的、時間的構造に関する効率的な推論は、自動運転の重要な前提条件です。エンドツーエンドの模倣学習モデルのそのような推論を可能にする新しい表現であるニューラルアテンションフィールド(NEAT)を提示します。 NEATは、鳥瞰図(BEV)シーン座標の位置をウェイポイントとセマンティクスにマッピングする連続関数であり、中間アテンションマップを使用して、高次元の2D画像の特徴をコンパクトな表現に繰り返し圧縮します。これにより、モデルは、運転タスクに関係のない情報を無視しながら、入力内の関連する領域に選択的に対応し、画像をBEV表現に効果的に関連付けることができます。悪環境条件と困難なシナリオを含む新しい評価設定では、NEATはいくつかの強力なベースラインを上回り、トレーニングデータの生成に使用された特権的なCARLAエキスパートと同等の運転スコアを達成します。さらに、NEAT中間表現を使用してモデルのアテンションマップを視覚化すると、解釈可能性が向上します。
Efficient reasoning about the semantic, spatial, and temporal structure of a scene is a crucial prerequisite for autonomous driving. We present NEural ATtention fields (NEAT), a novel representation that enables such reasoning for end-to-end imitation learning models. NEAT is a continuous function which maps locations in Bird's Eye View (BEV) scene coordinates to waypoints and semantics, using intermediate attention maps to iteratively compress high-dimensional 2D image features into a compact representation. This allows our model to selectively attend to relevant regions in the input while ignoring information irrelevant to the driving task, effectively associating the images with the BEV representation. In a new evaluation setting involving adverse environmental conditions and challenging scenarios, NEAT outperforms several strong baselines and achieves driving scores on par with the privileged CARLA expert used to generate its training data. Furthermore, visualizing the attention maps for models with NEAT intermediate representations provides improved interpretability.
updated: Thu Sep 09 2021 17:55:28 GMT+0000 (UTC)
published: Thu Sep 09 2021 17:55:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト