arXiv reaDer
マルチビュー注意学習による自己監視型エンドツーエンド運転のスケーリング
Scaling Self-Supervised End-to-End Driving with Multi-View Attention Learning
エンド ツー エンドの運転では、制御アクションを予測することでエキスパートを模倣するエージェントをトレーニングするために、大量のエキスパート ドライビング デモンストレーションが使用されます。このプロセスは、車両信号 (ステアリング角度、加速度など) に対して自己監視され、余分なコストのかかる監視 (人間によるラベリング) は必要ありません。それでも、既存の自己監視型のエンドツーエンドの運転モデルの改善により、トレーニング時間中にセマンティック セグメンテーションなどのデータ集約型のラベル付けが必要なモジュラー型のエンドツーエンド モデルに余地がほとんど与えられました。ただし、最新の自己管理型のエンドツーエンド モデルは、低解像度の画像を使用し、注意メカニズムを持たない準最適な条件で開発されたと主張しています。さらに、これらのモデルは限られた視野に閉じ込められており、遠く離れたシーンの特徴にすばやく注意を向けることができる人間の視覚認識から遠く離れています。これは、有用な誘導バイアスを提供する特性です。このコンテキストでは、広い視野と自己注意メカニズムを活用して、自己教師あり模倣学習によってトレーニングされた新しいエンドツーエンド モデルを提示します。これらの設定は、エージェントが運転シーンを理解するのにより役立ち、人間のドライバーをよりよく模倣することができます。自己教師ありのトレーニング データのみを使用すると、モデルは CARLA の Nocrash メトリクスでほぼエキスパートのパフォーマンスを発揮し、人間がラベル付けした大量のデータを必要とする SOTA モデルに匹敵する可能性があります。さらなる研究を容易にするために、私たちのコードがリリースされます。
On end-to-end driving, a large amount of expert driving demonstrations is used to train an agent that mimics the expert by predicting its control actions. This process is self-supervised on vehicle signals (e.g., steering angle, acceleration) and does not require extra costly supervision (human labeling). Yet, the improvement of existing self-supervised end-to-end driving models has mostly given room to modular end-to-end models where labeling data intensive format such as semantic segmentation are required during training time. However, we argue that the latest self-supervised end-to-end models were developed in sub-optimal conditions with low-resolution images and no attention mechanisms. Further, those models are confined with limited field of view and far from the human visual cognition which can quickly attend far-apart scene features, a trait that provides an useful inductive bias. In this context, we present a new end-to-end model, trained by self-supervised imitation learning, leveraging a large field of view and a self-attention mechanism. These settings are more contributing to the agent's understanding of the driving scene, which brings a better imitation of human drivers. With only self-supervised training data, our model yields almost expert performance in CARLA's Nocrash metrics and could be rival to the SOTA models requiring large amounts of human labeled data. To facilitate further research, our code will be released.
updated: Tue Feb 07 2023 02:14:45 GMT+0000 (UTC)
published: Tue Feb 07 2023 02:14:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト