arXiv reaDer
HOP:視覚と言語のナビゲーションのための歴史と秩序を意識した事前トレーニング
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation
事前トレーニングは、視覚と言語のナビゲーション(VLN)の最近のいくつかの作業で採用されています。ただし、VLNの以前の事前トレーニング方法では、将来のアクションを予測する機能がないか、貪欲なナビゲーションプロセスに不可欠な軌道コンテキストを無視します。この作業では、時空間的な視覚とテキストの対応の学習とエージェントの意思決定能力を促進するために、VLN固有の目的を活用した新しい歴史と秩序を意識した事前トレーニングパラダイム(HOP)を提案します。過去の観察と将来の行動予測をサポートします。具体的には、一般的に使用されるマスク言語モデリング(MLM)と軌道命令マッチング(TIM)に加えて、時間的順序情報をモデル化する2つのプロキシタスクを設計します。軌道順序モデリング(TOM)とグループ順序モデリング(GOM)です。さらに、私たちのナビゲーション行動予測は、歴史の視覚的知覚を考慮に入れた、歴史を伴う行動予測(APH)のタスクを導入することによっても強化されています。 4つのダウンストリームVLNタスク(R2R、REVERIE、NDH、RxR)に関する広範な実験結果は、いくつかの最先端のエージェントと比較して、提案された方法の有効性を示しています。
Pre-training has been adopted in a few of recent works for Vision-and-Language Navigation (VLN). However, previous pre-training methods for VLN either lack the ability to predict future actions or ignore the trajectory contexts, which are essential for a greedy navigation process. In this work, to promote the learning of spatio-temporal visual-textual correspondence as well as the agent's capability of decision making, we propose a novel history-and-order aware pre-training paradigm (HOP) with VLN-specific objectives that exploit the past observations and support future action prediction. Specifically, in addition to the commonly used Masked Language Modeling (MLM) and Trajectory-Instruction Matching (TIM), we design two proxy tasks to model temporal order information: Trajectory Order Modeling (TOM) and Group Order Modeling (GOM). Moreover, our navigation action prediction is also enhanced by introducing the task of Action Prediction with History (APH), which takes into account the history visual perceptions. Extensive experimental results on four downstream VLN tasks (R2R, REVERIE, NDH, RxR) demonstrate the effectiveness of our proposed method compared against several state-of-the-art agents.
updated: Tue Mar 22 2022 10:17:12 GMT+0000 (UTC)
published: Tue Mar 22 2022 10:17:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト