arXiv reaDer
CLEAR:クロスリンガルで環境にとらわれない表現による視覚言語ナビゲーションの改善
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations
Vision-and-Language Navigation(VLN)タスクでは、エージェントが言語の指示に基づいて環境をナビゲートする必要があります。このホワイトペーパーでは、このタスクで2つの重要な課題を解決することを目指しています。多言語の指示を利用して指示パスの接地を改善することと、トレーニング中には見えない新しい環境をナビゲートすることです。これらの課題に対処するために、CLEAR:クロスリンガルおよび環境にとらわれない表現を提案します。まず、エージェントは、Room-Across-Roomデータセット内の3つの言語(英語、ヒンディー語、テルグ語)の共有され、視覚的に調整された言語間表現を学習します。私たちの言語表現学習は、視覚情報によって整列されたテキストペアによって導かれます。次に、エージェントは、異なる環境からの意味的に整列された画像ペア(オブジェクトのマッチングに制約がある)間の類似性を最大化することにより、環境にとらわれない視覚的表現を学習します。私たちの環境にとらわれない視覚的表現は、低レベルの視覚情報によって引き起こされる環境バイアスを軽減することができます。経験的に、Room-Across-Roomデータセットでは、多言語エージェントが、言語間言語表現と環境にとらわれない視覚的表現を使用して目に見えない環境に一般化すると、強力なベースラインモデルよりもすべてのメトリックが大幅に改善されることを示しています。さらに、学習した言語と視覚表現を部屋から部屋へ、協調的なビジョンと対話のナビゲーションタスクに正常に転送できることを示し、詳細な定性的および定量的な一般化と接地分析を提示します。私たちのコードはhttps://github.com/jialuli-luka/CLEARで入手できます
Vision-and-Language Navigation (VLN) tasks require an agent to navigate through the environment based on language instructions. In this paper, we aim to solve two key challenges in this task: utilizing multilingual instructions for improved instruction-path grounding and navigating through new environments that are unseen during training. To address these challenges, we propose CLEAR: Cross-Lingual and Environment-Agnostic Representations. First, our agent learns a shared and visually-aligned cross-lingual language representation for the three languages (English, Hindi and Telugu) in the Room-Across-Room dataset. Our language representation learning is guided by text pairs that are aligned by visual information. Second, our agent learns an environment-agnostic visual representation by maximizing the similarity between semantically-aligned image pairs (with constraints on object-matching) from different environments. Our environment agnostic visual representation can mitigate the environment bias induced by low-level visual information. Empirically, on the Room-Across-Room dataset, we show that our multilingual agent gets large improvements in all metrics over the strong baseline model when generalizing to unseen environments with the cross-lingual language representation and the environment-agnostic visual representation. Furthermore, we show that our learned language and visual representations can be successfully transferred to the Room-to-Room and Cooperative Vision-and-Dialogue Navigation task, and present detailed qualitative and quantitative generalization and grounding analysis. Our code is available at https://github.com/jialuli-luka/CLEAR
updated: Tue Jul 05 2022 17:38:59 GMT+0000 (UTC)
published: Tue Jul 05 2022 17:38:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト