arXiv reaDer
自動運転における時空間機能を使用したドメイン間での転移学習の一般化の改善
Improving Generalization of Transfer Learning Across Domains Using Spatio-Temporal Features in Autonomous Driving
現実の世界でビジョンベースの自動運転をトレーニングすることは、非効率的で非現実的です。車両シミュレーションを使用して仮想世界で学習し、習得したスキルを転送して、現実世界のシナリオをより効果的に処理できます。仮想と実際の視覚領域の間で、道路の端や他の車両までの相対距離などの一般的な機能は一貫しています。これらの視覚的要素は、運転中の人間の意思決定にとって直感的に重要です。これらの時空間的要因は、ドメイン間の一般化を改善するための転移学習にも使用できると仮定します。まず、シーンから車両のダイナミクスを表す時空間特徴を抽出するためのCNN + LSTM転送学習フレームワークを提案します。次に、駆動システムの決定におけるさまざまな機能の重要性を定量的に推定するために、アブレーション研究を実施します。物理的に解釈可能な要因はネットワークの決定と高度に相関しているが、シーン間の表現の違いはそうではないことがわかります。最後に、アブレーション研究の結果に基づいて、ソースモデルから抽出された顕著性マップと物理的特徴を使用してターゲットモデルのパフォーマンスを向上させる転移学習パイプラインを提案します。私たちのネットワークのトレーニングは、あるドメインから別のドメインに転送されたCNNおよびLSTMの潜在的特徴(移動中の車両の固有の物理学をその周囲でキャプチャする)から学習した重みで初期化されます。私たちの実験は、この提案された転移学習フレームワークが、二項分類学習タスクのベースラインCNNモデルと比較して、見えないドメイン全体でよりよく一般化することを示しています。
Training vision-based autonomous driving in the real world can be inefficient and impractical. Vehicle simulation can be used to learn in the virtual world, and the acquired skills can be transferred to handle real-world scenarios more effectively. Between virtual and real visual domains, common features such as relative distance to road edges and other vehicles over time are consistent. These visual elements are intuitively crucial for human decision making during driving. We hypothesize that these spatio-temporal factors can also be used in transfer learning to improve generalization across domains. First, we propose a CNN+LSTM transfer learning framework to extract the spatio-temporal features representing vehicle dynamics from scenes. Next, we conduct an ablation study to quantitatively estimate the significance of various features in the decisions of driving systems. We observe that physically interpretable factors are highly correlated with network decisions, while representational differences between scenes are not. Finally, based on the results of our ablation study, we propose a transfer learning pipeline that uses saliency maps and physical features extracted from a source model to enhance the performance of a target model. Training of our network is initialized with the learned weights from CNN and LSTM latent features (capturing the intrinsic physics of the moving vehicle w.r.t. its surroundings) transferred from one domain to another. Our experiments show that this proposed transfer learning framework better generalizes across unseen domains compared to a baseline CNN model on a binary classification learning task.
updated: Mon Mar 15 2021 03:26:06 GMT+0000 (UTC)
published: Mon Mar 15 2021 03:26:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト