視覚に基づいたナビゲーション指示は、正しい軌跡をたどるエージェントが遭遇して実行する一連の予想される観察およびアクションとして解釈できます。この直観に基づいて、ベイジアン状態追跡のフレームワーク内でビジョンと言語ナビゲーション(VLN)で目標位置を見つける問題を定式化します-これらの予想されるイベントを条件とする観察と運動モデルを学習します。ナビゲーション中にオンザフライでセマンティック空間マップを構築するマッパーと一緒に、エンドツーエンドの微分可能なベイズフィルターを定式化し、指示に従ってマップを介して最も可能性の高い軌道を予測することで目標を特定するようにトレーニングします。結果のナビゲーションポリシーは、状態に対する確率分布を明示的にモデル化し、強力な幾何学的およびアルゴリズムの事前確率をエンコードする一方で、より優れた説明可能性を可能にする、命令への新しいアプローチを構成します。私たちの実験は、マップ上の目標位置を予測するときに、アプローチが強力なLingUNetベースラインを上回ることを示しています。完全なVLNタスク、つまり目標の場所に移動する場合、このアプローチは、ナビゲーションの制約にあまり依存せずに有望な結果を達成します。
A visually-grounded navigation instruction can be interpreted as a sequence of expected observations and actions an agent following the correct trajectory would encounter and perform. Based on this intuition, we formulate the problem of finding the goal location in Vision-and-Language Navigation (VLN) within the framework of Bayesian state tracking - learning observation and motion models conditioned on these expectable events. Together with a mapper that constructs a semantic spatial map on-the-fly during navigation, we formulate an end-to-end differentiable Bayes filter and train it to identify the goal by predicting the most likely trajectory through the map according to the instructions. The resulting navigation policy constitutes a new approach to instruction following that explicitly models a probability distribution over states, encoding strong geometric and algorithmic priors while enabling greater explainability. Our experiments show that our approach outperforms a strong LingUNet baseline when predicting the goal location on the map. On the full VLN task, i.e. navigating to the goal location, our approach achieves promising results with less reliance on navigation constraints.