arXiv reaDer
エージェントナビゲーション用の言語と視覚エンティティの関係グラフ
Language and Visual Entity Relationship Graph for Agent Navigation
Vision-and-Language Navigation(VLN)では、エージェントが自然言語の指示に従って実際の環境でナビゲートする必要があります。テキストと視覚の両方の観点から、シーン、そのオブジェクト、および方向の手がかりの間の関係は、エージェントが複雑な指示を解釈し、環境を正しく認識するために不可欠であることがわかります。関係をキャプチャして利用するために、テキストとビジョンの間のモーダル間関係、およびビジュアルエンティティ間のモーダル内関係をモデル化するための新しい言語と視覚エンティティ関係グラフを提案します。グラフ内の言語要素と視覚エンティティの間で情報を伝播するためのメッセージパッシングアルゴリズムを提案し、それを組み合わせて次に実行するアクションを決定します。実験によれば、関係を利用することで、最先端の技術を向上させることができます。 Room-to-Room(R2R)ベンチマークでは、私たちの方法は、52%のパス長(SPL)で重み付けされた成功率で、テストの目に見えない分割で新しい最高のパフォーマンスを達成します。 Room-for-Room(R4R)データセットでは、正規化された動的タイムワーピング(SDTW)によって重み付けされた成功で、以前のベストが13%から34%に大幅に改善されます。コードはhttps://github.com/YicongHong/Entity-Graph-VLNで入手できます。
Vision-and-Language Navigation (VLN) requires an agent to navigate in a real-world environment following natural language instructions. From both the textual and visual perspectives, we find that the relationships among the scene, its objects,and directional clues are essential for the agent to interpret complex instructions and correctly perceive the environment. To capture and utilize the relationships, we propose a novel Language and Visual Entity Relationship Graph for modelling the inter-modal relationships between text and vision, and the intra-modal relationships among visual entities. We propose a message passing algorithm for propagating information between language elements and visual entities in the graph, which we then combine to determine the next action to take. Experiments show that by taking advantage of the relationships we are able to improve over state-of-the-art. On the Room-to-Room (R2R) benchmark, our method achieves the new best performance on the test unseen split with success rate weighted by path length (SPL) of 52%. On the Room-for-Room (R4R) dataset, our method significantly improves the previous best from 13% to 34% on the success weighted by normalized dynamic time warping (SDTW). Code is available at: https://github.com/YicongHong/Entity-Graph-VLN.
updated: Fri Dec 25 2020 02:43:43 GMT+0000 (UTC)
published: Mon Oct 19 2020 08:25:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト