大量の専門家のデモンストレーションを収集する可能性は、モデルが専門家の運転行動を模倣することによって学習する、運転学習設定への関心の高まりに影響を与えました。ただし、模倣のみに依存すると、エージェントの一般化可能性が、トレーニング データのサポート外の新しいシナリオに制限される可能性があります。このホワイト ペーパーでは、モノリシックなエンド ツー エンドのフレームワークと比較して、モジュラー アーキテクチャはより一般化可能であり、環境の変化に対してより堅牢であるという直感に基づいて、駆動タスクを因数分解することにより、この課題に対処します。具体的には、軌道予測コミュニティからインスピレーションを得て、運転の学習タスクを、障害物を認識した認識と接地、分布を認識した目標予測、およびモデルベースの計画として再定式化します。まず、障害物認識モジュールをトレーニングして、視覚的コンテキストの顕著な表現を抽出します。次に、正規化フローを使用して条件付き密度推定を実行することにより、マルチモーダル目標分布を学習します。最後に、候補となる軌道予測の道路形状を決定し、ビークル ダイナミクスに基づいてアクションを計画します。 CARLA シミュレーターの下で、CARNOVEL ベンチマークで最先端の結果を報告します。
The feasibility of collecting a large amount of expert demonstrations has inspired growing research interests in learning-to-drive settings, where models learn by imitating the driving behaviour from experts. However, exclusively relying on imitation can limit agents' generalisability to novel scenarios that are outside the support of the training data. In this paper, we address this challenge by factorising the driving task, based on the intuition that modular architectures are more generalisable and more robust to changes in the environment compared to monolithic, end-to-end frameworks. Specifically, we draw inspiration from the trajectory forecasting community and reformulate the learning-to-drive task as obstacle-aware perception and grounding, distribution-aware goal prediction, and model-based planning. Firstly, we train the obstacle-aware perception module to extract salient representation of the visual context. Then, we learn a multi-modal goal distribution by performing conditional density-estimation using normalising flow. Finally, we ground candidate trajectory predictions road geometry, and plan the actions based on on vehicle dynamics. Under the CARLA simulator, we report state-of-the-art results on the CARNOVEL benchmark.