arXiv reaDer
MultiPath ++:行動予測のための効率的な情報融合と軌道集約
MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction
道路利用者の将来の行動を予測することは、自動運転における最も困難で重要な問題の1つです。この問題に深層学習を適用するには、豊富な知覚信号と地図情報の形で異種の世界状態を融合し、可能な将来にわたって高度にマルチモーダルな分布を推測する必要があります。このホワイトペーパーでは、人気のあるベンチマークで最先端のパフォーマンスを実現する将来の予測モデルであるMultiPath ++を紹介します。 MultiPath ++は、多くの設計上の選択を再検討することにより、MultiPathアーキテクチャを改善します。最初の重要な設計上の違いは、入力世界状態の高密度画像ベースのエンコーディングからの脱却であり、異種シーン要素のスパースエンコーディングを採用しています。MultiPath++は、コンパクトで効率的なポリラインを使用して道路の特徴と生のエージェント状態情報を直接記述します(例:位置、速度、加速度)。これらの要素のコンテキストアウェアな融合を提案し、再利用可能なマルチコンテキストゲーティング融合コンポーネントを開発します。次に、事前定義された静的アンカーの選択を再検討し、モデル内の潜在的なアンカー埋め込みをエンドツーエンドで学習する方法を開発します。最後に、他のMLドメインで一般的なアンサンブルおよび出力集約手法を調査し、確率的マルチモーダル出力表現の効果的なバリアントを見つけます。これらの設計の選択に対して広範なアブレーションを実行し、提案されたモデルがArgoverse MotionForecastingCompetitionおよびWaymoOpen Dataset Motion PredictionChallengeで最先端のパフォーマンスを達成することを示します。
Predicting the future behavior of road users is one of the most challenging and important problems in autonomous driving. Applying deep learning to this problem requires fusing heterogeneous world state in the form of rich perception signals and map information, and inferring highly multi-modal distributions over possible futures. In this paper, we present MultiPath++, a future prediction model that achieves state-of-the-art performance on popular benchmarks. MultiPath++ improves the MultiPath architecture by revisiting many design choices. The first key design difference is a departure from dense image-based encoding of the input world state in favor of a sparse encoding of heterogeneous scene elements: MultiPath++ consumes compact and efficient polylines to describe road features, and raw agent state information directly (e.g., position, velocity, acceleration). We propose a context-aware fusion of these elements and develop a reusable multi-context gating fusion component. Second, we reconsider the choice of pre-defined, static anchors, and develop a way to learn latent anchor embeddings end-to-end in the model. Lastly, we explore ensembling and output aggregation techniques -- common in other ML domains -- and find effective variants for our probabilistic multimodal output representation. We perform an extensive ablation on these design choices, and show that our proposed model achieves state-of-the-art performance on the Argoverse Motion Forecasting Competition and the Waymo Open Dataset Motion Prediction Challenge.
updated: Wed Dec 01 2021 16:47:32 GMT+0000 (UTC)
published: Mon Nov 29 2021 21:36:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト