arXiv reaDer
反復フィードバック(MoTIF)を使用したモバイルアプリタスク:インタラクティブな視覚環境でのタスクの実現可能性への対処
Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments
近年、視覚言語の研究は、インタラクティブな質問応答、視覚的常識推論、質問応答の妥当性予測など、より複雑な推論を必要とするタスクの研究にシフトしています。ただし、これらの問題に使用されるデータセットは、あいまいな自然言語要求や多様なデジタルドメインなど、実際の入力やマルチモーダル環境の複雑さを捉えることができません。反復フィードバックを使用したモバイルアプリタスク(MoTIF)を紹介します。これは、これまでで最も多くのインタラクティブ環境向けの自然言語コマンドを含むデータセットです。 MoTIFは、満足できないインタラクティブ環境に対する自然言語の要求を含む最初のものであり、タスクの不確実性の解決に関する研究を可能にするために、このサブセットに関するフォローアップの質問を取得します。最初の実現可能性分類実験を実行し、F1スコアが37.3に達するだけで、タスクの実現可能性を推論するために、より豊かな視覚言語表現と改善されたアーキテクチャの必要性を検証します。
In recent years, vision-language research has shifted to study tasks which require more complex reasoning, such as interactive question answering, visual common sense reasoning, and question-answer plausibility prediction. However, the datasets used for these problems fail to capture the complexity of real inputs and multimodal environments, such as ambiguous natural language requests and diverse digital domains. We introduce Mobile app Tasks with Iterative Feedback (MoTIF), a dataset with natural language commands for the greatest number of interactive environments to date. MoTIF is the first to contain natural language requests for interactive environments that are not satisfiable, and we obtain follow-up questions on this subset to enable research on task uncertainty resolution. We perform initial feasibility classification experiments and only reach an F1 score of 37.3, verifying the need for richer vision-language representations and improved architectures to reason about task feasibility.
updated: Sat Apr 17 2021 14:48:02 GMT+0000 (UTC)
published: Sat Apr 17 2021 14:48:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト