arXiv reaDer
ADAPT:モダリティに合わせたアクションプロンプトを使用したビジョン言語ナビゲーション
ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
Vision-Language Navigation(VLN)は、アクションレベルのモダリティ調整を実行する、つまり、複雑な視覚環境で指示を求めるアクションを順番に実行するために、具体化されたエージェントを必要とする困難なタスクです。ほとんどの既存のVLNエージェントは、命令パスデータを直接学習し、マルチモーダル入力内のアクションレベルのアライメント知識を十分に調査できません。この論文では、modAlity-aligneDアクションプロンプト(ADAPT)を提案します。これは、VLNエージェントにアクションプロンプトを提供し、アクションレベルのモダリティアライメントを明示的に学習してナビゲーションを成功させることができます。具体的には、アクションプロンプトは、画像サブプロンプトとテキストサブプロンプトのモダリティに合わせたペアとして定義されます。前者は単一ビューの観察であり、後者は「椅子を通り過ぎる」のようなフレーズです。 。ナビゲーションを開始すると、命令関連のアクションプロンプトセットが事前に構築されたアクションプロンプトベースから取得され、プロンプトエンコーダーを通過してプロンプト機能を取得します。次に、プロンプト機能が元の命令機能と連結され、アクション予測のために多層トランスに送られます。高品質のアクションプロンプトをプロンプトベースに収集するために、強力なクロスモダリティアライメント機能を備えた対照言語-画像事前トレーニング(CLIP)モデルを使用します。モダリティ整合性の喪失と逐次一貫性の喪失がさらに導入され、アクションプロンプトの整合性が強化され、エージェントが関連するプロンプトに順次集中するようになります。 R2RとRxRの両方での実験結果は、最先端の方法に対するADAPTの優位性を示しています。
Vision-Language Navigation (VLN) is a challenging task that requires an embodied agent to perform action-level modality alignment, i.e., make instruction-asked actions sequentially in complex visual environments. Most existing VLN agents learn the instruction-path data directly and cannot sufficiently explore action-level alignment knowledge inside the multi-modal inputs. In this paper, we propose modAlity-aligneD Action PrompTs (ADAPT), which provides the VLN agent with action prompts to enable the explicit learning of action-level modality alignment to pursue successful navigation. Specifically, an action prompt is defined as a modality-aligned pair of an image sub-prompt and a text sub-prompt, where the former is a single-view observation and the latter is a phrase like ''walk past the chair''. When starting navigation, the instruction-related action prompt set is retrieved from a pre-built action prompt base and passed through a prompt encoder to obtain the prompt feature. Then the prompt feature is concatenated with the original instruction feature and fed to a multi-layer transformer for action prediction. To collect high-quality action prompts into the prompt base, we use the Contrastive Language-Image Pretraining (CLIP) model which has powerful cross-modality alignment ability. A modality alignment loss and a sequential consistency loss are further introduced to enhance the alignment of the action prompt and enforce the agent to focus on the related prompt sequentially. Experimental results on both R2R and RxR show the superiority of ADAPT over state-of-the-art methods.
updated: Tue May 31 2022 02:41:31 GMT+0000 (UTC)
published: Tue May 31 2022 02:41:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト