トランスフォーマーは、NLPとコンピュータービジョンの飛躍的進歩を可能にし、最近、自動運転車(AV)の軌道予測で有望なパフォーマンスを示し始めました。エゴエージェントと他の道路および動的オブジェクトとの間のインタラクティブな関係を効率的にモデル化する方法は、標準のアテンションモジュールにとって依然として困難です。この作業では、AV軌道予測のための新しいマスクされたゴールコンディショニングトレーニング手順を備えた一般的なトランスフォーマーのようなアーキテクチャモジュールMnMネットワークを提案します。結果として得られたゴルファーという名前のモデルは、最先端のパフォーマンスを達成し、2022年のWaymo Open Dataset Motion Prediction Challengeで2位を獲得し、minADEによると1位にランクされました。
Transformers have enabled breakthroughs in NLP and computer vision, and have recently began to show promising performance in trajectory prediction for Autonomous Vehicle (AV). How to efficiently model the interactive relationships between the ego agent and other road and dynamic objects remains challenging for the standard attention module. In this work we propose a general Transformer-like architectural module MnM network equipped with novel masked goal conditioning training procedures for AV trajectory prediction. The resulted model, named golfer, achieves state-of-the-art performance, winning the 2nd place in the 2022 Waymo Open Dataset Motion Prediction Challenge and ranked 1st place according to minADE.