arXiv reaDer
インタラクティブビジョンのデータセット-コマンドの実現可能性が不明な言語ナビゲーション
A Dataset for Interactive Vision-Language Navigation with Unknown Command Feasibility
エージェントが視覚環境で言語指導に従う視覚言語ナビゲーション(VLN)は、入力コマンドがその環境で完全に実行可能であるという前提の下で研究されてきました。しかし実際には、言語のあいまいさや環境の変化により、リクエストができない場合があります。コマンドの実現可能性が不明なVLNを研究するために、新しいデータセットのモバイルアプリタスクと反復フィードバック(MoTIF)を導入します。この目標は、モバイルアプリで自然言語コマンドを完了することです。モバイルアプリは、VLNメソッドの実際のダウンストリームの使用を研究するためのスケーラブルなドメインを提供します。さらに、モバイルアプリのコマンドは、クリック、入力、またはスワイプによって状態が変化するアクションシーケンスを生成するため、インタラクティブなナビゲーションの指示を提供します。 MoTIFは、実行可能性アノテーションを最初に組み込んだものであり、タスクが満たされない理由について、バイナリ実行可能性ラベルときめ細かいラベルの両方が含まれています。さらに、あいまいなクエリのフォローアップ質問を収集して、タスクの不確実性の解決に関する調査を可能にします。データセットを備えて、自然言語命令とマルチモーダルアプリ環境を使用してコマンドの実現可能性を予測する、実現可能性予測の新しい問題を提案します。 MoTIFは、多くの多様な環境、高レベルの目標、および以前の作業よりも長いアクションシーケンスを含むため、より現実的なアプリデータセットを提供します。 MoTIFを使用してインタラクティブなVLNメソッドを評価し、新しいアプリ環境への現在のアプローチの一般化能力を定量化し、ナビゲーションパフォーマンスに対するタスクの実現可能性の影響を測定します。
Vision-language navigation (VLN), in which an agent follows language instruction in a visual environment, has been studied under the premise that the input command is fully feasible in the environment. Yet in practice, a request may not be possible due to language ambiguity or environment changes. To study VLN with unknown command feasibility, we introduce a new dataset Mobile app Tasks with Iterative Feedback (MoTIF), where the goal is to complete a natural language command in a mobile app. Mobile apps provide a scalable domain to study real downstream uses of VLN methods. Moreover, mobile app commands provide instruction for interactive navigation, as they result in action sequences with state changes via clicking, typing, or swiping. MoTIF is the first to include feasibility annotations, containing both binary feasibility labels and fine-grained labels for why tasks are unsatisfiable. We further collect follow-up questions for ambiguous queries to enable research on task uncertainty resolution. Equipped with our dataset, we propose the new problem of feasibility prediction, in which a natural language instruction and multimodal app environment are used to predict command feasibility. MoTIF provides a more realistic app dataset as it contains many diverse environments, high-level goals, and longer action sequences than prior work. We evaluate interactive VLN methods using MoTIF, quantify the generalization ability of current approaches to new app environments, and measure the effect of task feasibility on navigation performance.
updated: Fri Jul 22 2022 23:19:57 GMT+0000 (UTC)
published: Fri Feb 04 2022 18:51:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト