arXiv reaDer
CrossMap Transformer:視覚と言語のナビゲーションにダブルバックトランスレーションを使用したクロスモーダルマスクパストランスフォーマー
CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation
自然言語の指示に基づくナビゲーションは、ユーザーと自然に対話する家庭用サービスロボットに特に適しています。このタスクには、自然言語のナビゲーション命令が与えられた場合に、指定された目的地につながる一連のアクションの予測が含まれます。したがって、このタスクでは、「バスルームから出て、右側にある階段で待つ」などの指示を理解する必要があります。視覚と言語のナビゲーションは、特に環境の探索と、言語と視覚の関係をモデル化するための指示で指定されたパスを正確にたどる必要があるため、依然として困難です。これに対処するために、CrossMap Transformerネットワークを提案します。これは、言語的および視覚的な機能をエンコードして、パスを順次生成します。 CrossMapトランスフォーマーは、ナビゲーション命令を生成するトランスフォーマーベースのスピーカーに関連付けられています。 2つのネットワークは、二重逆変換モデルによる相互拡張のために、共通の潜在機能を共有します。生成されたパスは命令に変換され、生成された命令はパスに変換されます。実験結果は、命令の理解と命令の生成に関するアプローチの利点を示しています。
Navigation guided by natural language instructions is particularly suitable for Domestic Service Robots that interacts naturally with users. This task involves the prediction of a sequence of actions that leads to a specified destination given a natural language navigation instruction. The task thus requires the understanding of instructions, such as ``Walk out of the bathroom and wait on the stairs that are on the right''. The Visual and Language Navigation remains challenging, notably because it requires the exploration of the environment and at the accurate following of a path specified by the instructions to model the relationship between language and vision. To address this, we propose the CrossMap Transformer network, which encodes the linguistic and visual features to sequentially generate a path. The CrossMap transformer is tied to a Transformer-based speaker that generates navigation instructions. The two networks share common latent features, for mutual enhancement through a double back translation model: Generated paths are translated into instructions while generated instructions are translated into path The experimental results show the benefits of our approach in terms of instruction understanding and instruction generation.
updated: Mon Mar 01 2021 09:03:50 GMT+0000 (UTC)
published: Mon Mar 01 2021 09:03:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト