Vision-and-Language Navigation(VLN)は、自然言語の指示を視覚的な環境に基づいて目標に到達するために、エージェントが3D環境を移動する方法を決定する必要があるタスクです。 VLNタスクの問題の1つはデータ不足です。これは、対話型環境向けに人間が注釈を付けた指示では十分なナビゲーションパスを収集することが難しいためです。この論文では、人間に触発されたデータ増強方法としての反事実的思考の使用を探求し、結果としてロバストなモデルを生み出します。反事実的思考は、すでに発生した人生の出来事の可能な代替案を作成する人間の傾向を記述する概念です。低品質の拡張データの代わりに効果的な条件を考慮することができる敵対的反事実的推論モデルを提案します。特に、ナビゲーションパフォーマンスに基づいてナビゲーターを強制的に改善する困難なパスをサンプリングすることを学習する、モデルにとらわれない敵対パスサンプラー(APS)を提示します。 APSは、モデルの一般化能力を強化するために、見えない環境の事前調査を行う役割も果たします。部屋間データセット(R2R)を使用して、さまざまなVLNベースラインモデルのパフォーマンスに対するAPSの影響を評価します。結果は、提案されたAPSを使用した敵対的なトレーニングプロセスが、見られた環境と見えない環境の両方でVLNモデルに役立つことを示しています。また、事前調査プロセスにより、見えない環境下でさらに改善することができます。
Vision-and-Language Navigation (VLN) is a task where agents must decide how to move through a 3D environment to reach a goal by grounding natural language instructions to the visual surroundings. One of the problems of the VLN task is data scarcity since it is difficult to collect enough navigation paths with human-annotated instructions for interactive environments. In this paper, we explore the use of counterfactual thinking as a human-inspired data augmentation method that results in robust models. Counterfactual thinking is a concept that describes the human propensity to create possible alternatives to life events that have already occurred. We propose an adversarial-driven counterfactual reasoning model that can consider effective conditions instead of low-quality augmented data. In particular, we present a model-agnostic adversarial path sampler (APS) that learns to sample challenging paths that force the navigator to improve based on the navigation performance. APS also serves to do pre-exploration of unseen environments to strengthen the model's ability to generalize. We evaluate the influence of APS on the performance of different VLN baseline models using the room-to-room dataset (R2R). The results show that the adversarial training process with our proposed APS benefits VLN models under both seen and unseen environments. And the pre-exploration process can further gain additional improvements under unseen environments.