Vision-and-Language Navigation(VLN)では、エージェントが自然言語の指示と一連の写実的なパノラマに基づいて遠隔地に移動する必要があります。ほとんどの既存の方法は、エンコーディングの最小単位として、各パノラマの指示と個別のビューで単語を取ります。ただし、これには、同じビュー機能に対して、指示(TV、テーブルなど)の異なるテキストランドマークを一致させるモデルが必要です。この作業では、視覚とテキストのエンティティ間のマッチングを容易にし、したがって「何を知っている」かを同じ細粒度レベル、つまりオブジェクトと単語で視覚と言語の指示をエンコードするオブジェクト情報シーケンシャルBERTを提案します。私たちのシーケンシャルBERTは、マルチラウンドVLNタスクに不可欠な時間的コンテキストに照らして視覚的テキストの手がかりを解釈することを可能にします。さらに、モデルが各ナビゲーション可能な場所の相対的な方向(たとえば、左/右/前/後ろ)と、現在および最終的なナビゲーション目標の部屋のタイプ(たとえば、寝室、キッチン)、つまり「場所を知る」を識別できるようにします。 、そのような情報は、望ましい次の最終的な場所を暗示する指示で広く言及されているため。広範な実験により、3つの屋内VLNタスク(REVERIE、NDH、およびR2R)でのいくつかの最先端の方法と比較した有効性が実証されています。
Vision-and-Language Navigation (VLN) requires an agent to navigate to a remote location on the basis of natural-language instructions and a set of photo-realistic panoramas. Most existing methods take words in instructions and discrete views of each panorama as the minimal unit of encoding. However, this requires a model to match different textual landmarks in instructions (e.g., TV, table) against the same view feature. In this work, we propose an object-informed sequential BERT to encode visual perceptions and linguistic instructions at the same fine-grained level, namely objects and words, to facilitate the matching between visual and textual entities and hence "know what". Our sequential BERT enables the visual-textual clues to be interpreted in light of the temporal context, which is crucial to multi-round VLN tasks. Additionally, we enable the model to identify the relative direction (e.g., left/right/front/back) of each navigable location and the room type (e.g., bedroom, kitchen) of its current and final navigation goal, namely "know where", as such information is widely mentioned in instructions implying the desired next and final locations. Extensive experiments demonstrate the effectiveness compared against several state-of-the-art methods on three indoor VLN tasks: REVERIE, NDH, and R2R.