arXiv reaDer
ウィキハウを使用した視覚的な目標-ステップ推論
Visual Goal-Step Inference using wikiHow
目標を達成するために必要な一連のステップを理解することは、人工知能システムが人間の活動について推論するのに役立ちます。 NLPでの過去の作業では、テキストのゴールステップ推論のタスクを調べました。ビジュアルアナログをご紹介します。モデルにテキストの目標が与えられ、4つの画像のどれがその目標に向けたもっともらしいステップを表すかを選択する必要がある、視覚的目標ステップ推論(VGSI)タスクを提案します。人間の行動を表す772,277枚の画像で構成されるwikiHowから収集された新しいデータセットを使用して、最先端のマルチモーダルモデルにとって私たちのタスクが挑戦的であることを示します。さらに、データから学習したマルチモーダル表現をHowTo100mなどの他のデータセットに効果的に転送できるため、VGSIの精度が15〜20%向上します。私たちのタスクは、手続き型イベントに関するマルチモーダル推論を容易にします。
Understanding what sequence of steps are needed to complete a goal can help artificial intelligence systems reason about human activities. Past work in NLP has examined the task of goal-step inference for text. We introduce the visual analogue. We propose the Visual Goal-Step Inference (VGSI) task, where a model is given a textual goal and must choose which of four images represents a plausible step towards that goal. With a new dataset harvested from wikiHow consisting of 772,277 images representing human actions, we show that our task is challenging for state-of-the-art multimodal models. Moreover, the multimodal representation learned from our data can be effectively transferred to other datasets like HowTo100m, increasing the VGSI accuracy by 15 - 20%. Our task will facilitate multimodal reasoning about procedural events.
updated: Fri Sep 10 2021 03:10:13 GMT+0000 (UTC)
published: Mon Apr 12 2021 22:20:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト